End of training

Browse files

Files changed (6) hide show

README.md +5 -5
all_results.json +14 -14
eval_results.json +9 -9
runs/Sep05_08-10-30_43d6627a09b0/events.out.tfevents.1725526395.43d6627a09b0.309.1 +3 -0
train_results.json +6 -6
trainer_state.json +561 -477

README.md CHANGED Viewed

@@ -21,11 +21,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/convnextv2-base-22k-224](https://huggingface.co/facebook/convnextv2-base-22k-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9135
-- Accuracy: 0.5954
-- F1: 0.5879
-- Precision: 0.5865
-- Recall: 0.5954
 ## Model description

 This model is a fine-tuned version of [facebook/convnextv2-base-22k-224](https://huggingface.co/facebook/convnextv2-base-22k-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9120
+- Accuracy: 0.6138
+- F1: 0.5996
+- Precision: 0.5969
+- Recall: 0.6138
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 11.956043956043956,
-    "eval_accuracy": 0.5932047750229569,
-    "eval_f1": 0.5674291939014156,
-    "eval_loss": 0.9468401074409485,
-    "eval_precision": 0.5709384462011384,
-    "eval_recall": 0.5932047750229569,
-    "eval_runtime": 10.108,
-    "eval_samples_per_second": 107.737,
-    "eval_steps_per_second": 6.826,
-    "total_flos": 4.123334853511373e+18,
-    "train_loss": 1.090085435147379,
-    "train_runtime": 2115.1144,
-    "train_samples_per_second": 24.697,
-    "train_steps_per_second": 0.386
 }

 {
+    "epoch": 11.961661341853034,
+    "eval_accuracy": 0.6137931034482759,
+    "eval_f1": 0.5996477650763593,
+    "eval_loss": 0.9119637608528137,
+    "eval_precision": 0.596855024118962,
+    "eval_recall": 0.6137931034482759,
+    "eval_runtime": 4.1197,
+    "eval_samples_per_second": 105.59,
+    "eval_steps_per_second": 6.797,
+    "total_flos": 4.743827088137626e+18,
+    "train_loss": 1.079931161342523,
+    "train_runtime": 2308.5403,
+    "train_samples_per_second": 26.027,
+    "train_steps_per_second": 0.405
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 11.956043956043956,
-    "eval_accuracy": 0.5932047750229569,
-    "eval_f1": 0.5674291939014156,
-    "eval_loss": 0.9468401074409485,
-    "eval_precision": 0.5709384462011384,
-    "eval_recall": 0.5932047750229569,
-    "eval_runtime": 10.108,
-    "eval_samples_per_second": 107.737,
-    "eval_steps_per_second": 6.826
 }

 {
+    "epoch": 11.961661341853034,
+    "eval_accuracy": 0.6137931034482759,
+    "eval_f1": 0.5996477650763593,
+    "eval_loss": 0.9119637608528137,
+    "eval_precision": 0.596855024118962,
+    "eval_recall": 0.6137931034482759,
+    "eval_runtime": 4.1197,
+    "eval_samples_per_second": 105.59,
+    "eval_steps_per_second": 6.797
 }

runs/Sep05_08-10-30_43d6627a09b0/events.out.tfevents.1725526395.43d6627a09b0.309.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2221cf45441b9f89a927e8c90687a0e0bf1fabcc59dccee723f36556679457e
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 11.956043956043956,
-    "total_flos": 4.123334853511373e+18,
-    "train_loss": 1.090085435147379,
-    "train_runtime": 2115.1144,
-    "train_samples_per_second": 24.697,
-    "train_steps_per_second": 0.386
 }

 {
+    "epoch": 11.961661341853034,
+    "total_flos": 4.743827088137626e+18,
+    "train_loss": 1.079931161342523,
+    "train_runtime": 2308.5403,
+    "train_samples_per_second": 26.027,
+    "train_steps_per_second": 0.405
 }

trainer_state.json CHANGED Viewed

@@ -1,736 +1,820 @@
 {
-  "best_metric": 0.5932047750229569,
-  "best_model_checkpoint": "convnextv2-base-22k-224-finetuned-tekno24/checkpoint-614",
-  "epoch": 11.956043956043956,
   "eval_steps": 500,
-  "global_step": 816,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.14652014652014653,
-      "grad_norm": 16.747648239135742,
-      "learning_rate": 6.0975609756097564e-06,
-      "loss": 1.4185,
       "step": 10
     },
     {
-      "epoch": 0.29304029304029305,
-      "grad_norm": 14.544577598571777,
-      "learning_rate": 1.2195121951219513e-05,
-      "loss": 1.4153,
       "step": 20
     },
     {
-      "epoch": 0.43956043956043955,
-      "grad_norm": 12.55716323852539,
-      "learning_rate": 1.8292682926829268e-05,
-      "loss": 1.3581,
       "step": 30
     },
     {
-      "epoch": 0.5860805860805861,
-      "grad_norm": 16.329694747924805,
-      "learning_rate": 2.378048780487805e-05,
-      "loss": 1.3421,
       "step": 40
     },
     {
-      "epoch": 0.7326007326007326,
-      "grad_norm": 9.924437522888184,
-      "learning_rate": 2.9878048780487805e-05,
-      "loss": 1.3174,
       "step": 50
     },
     {
-      "epoch": 0.8791208791208791,
-      "grad_norm": 8.243997573852539,
-      "learning_rate": 3.597560975609756e-05,
-      "loss": 1.2755,
       "step": 60
     },
     {
-      "epoch": 0.9963369963369964,
-      "eval_accuracy": 0.4903581267217631,
-      "eval_f1": 0.39101576597192117,
-      "eval_loss": 1.2008219957351685,
-      "eval_precision": 0.45771669331368264,
-      "eval_recall": 0.4903581267217631,
-      "eval_runtime": 10.5546,
-      "eval_samples_per_second": 103.178,
-      "eval_steps_per_second": 6.537,
-      "step": 68
     },
     {
-      "epoch": 1.0256410256410255,
-      "grad_norm": 13.558063507080078,
-      "learning_rate": 4.207317073170732e-05,
-      "loss": 1.2711,
-      "step": 70
     },
     {
-      "epoch": 1.1721611721611722,
-      "grad_norm": 27.544034957885742,
-      "learning_rate": 4.817073170731707e-05,
-      "loss": 1.2731,
       "step": 80
     },
     {
-      "epoch": 1.3186813186813187,
-      "grad_norm": 12.061452865600586,
-      "learning_rate": 4.952316076294278e-05,
-      "loss": 1.2582,
       "step": 90
     },
     {
-      "epoch": 1.4652014652014653,
-      "grad_norm": 13.313647270202637,
-      "learning_rate": 4.884196185286104e-05,
-      "loss": 1.2729,
       "step": 100
     },
     {
-      "epoch": 1.6117216117216118,
-      "grad_norm": 8.85893440246582,
-      "learning_rate": 4.816076294277929e-05,
-      "loss": 1.2093,
       "step": 110
     },
     {
-      "epoch": 1.7582417582417582,
-      "grad_norm": 7.619632244110107,
-      "learning_rate": 4.747956403269755e-05,
-      "loss": 1.2445,
       "step": 120
     },
     {
-      "epoch": 1.9047619047619047,
-      "grad_norm": 9.313189506530762,
-      "learning_rate": 4.6798365122615805e-05,
-      "loss": 1.1711,
       "step": 130
     },
     {
-      "epoch": 1.9926739926739927,
-      "eval_accuracy": 0.5353535353535354,
-      "eval_f1": 0.47656758341858724,
-      "eval_loss": 1.0650511980056763,
-      "eval_precision": 0.48653241546321574,
-      "eval_recall": 0.5353535353535354,
-      "eval_runtime": 10.5232,
-      "eval_samples_per_second": 103.486,
-      "eval_steps_per_second": 6.557,
-      "step": 136
-    },
-    {
-      "epoch": 2.051282051282051,
-      "grad_norm": 9.400361061096191,
-      "learning_rate": 4.6117166212534065e-05,
-      "loss": 1.1145,
       "step": 140
     },
     {
-      "epoch": 2.197802197802198,
-      "grad_norm": 5.284915924072266,
-      "learning_rate": 4.543596730245232e-05,
-      "loss": 1.1809,
       "step": 150
     },
     {
-      "epoch": 2.3443223443223444,
-      "grad_norm": 10.18017292022705,
-      "learning_rate": 4.475476839237057e-05,
-      "loss": 1.1668,
       "step": 160
     },
     {
-      "epoch": 2.490842490842491,
-      "grad_norm": 7.79976224899292,
-      "learning_rate": 4.407356948228883e-05,
-      "loss": 1.1582,
       "step": 170
     },
     {
-      "epoch": 2.6373626373626373,
-      "grad_norm": 8.457806587219238,
-      "learning_rate": 4.339237057220708e-05,
-      "loss": 1.1628,
       "step": 180
     },
     {
-      "epoch": 2.7838827838827838,
-      "grad_norm": 6.220970630645752,
-      "learning_rate": 4.271117166212534e-05,
-      "loss": 1.2035,
       "step": 190
     },
     {
-      "epoch": 2.9304029304029307,
-      "grad_norm": 7.159059524536133,
-      "learning_rate": 4.20299727520436e-05,
-      "loss": 1.1599,
       "step": 200
     },
     {
-      "epoch": 2.989010989010989,
-      "eval_accuracy": 0.54178145087236,
-      "eval_f1": 0.5077316365087595,
-      "eval_loss": 1.0533095598220825,
-      "eval_precision": 0.5274645952658832,
-      "eval_recall": 0.54178145087236,
-      "eval_runtime": 10.5408,
-      "eval_samples_per_second": 103.313,
-      "eval_steps_per_second": 6.546,
-      "step": 204
-    },
-    {
-      "epoch": 3.076923076923077,
-      "grad_norm": 5.542409896850586,
-      "learning_rate": 4.1348773841961855e-05,
-      "loss": 1.1692,
       "step": 210
     },
     {
-      "epoch": 3.2234432234432235,
-      "grad_norm": 7.356290340423584,
-      "learning_rate": 4.066757493188011e-05,
-      "loss": 1.1176,
       "step": 220
     },
     {
-      "epoch": 3.36996336996337,
-      "grad_norm": 6.849288463592529,
-      "learning_rate": 3.998637602179837e-05,
-      "loss": 1.1335,
       "step": 230
     },
     {
-      "epoch": 3.5164835164835164,
-      "grad_norm": 11.968345642089844,
-      "learning_rate": 3.930517711171662e-05,
-      "loss": 1.14,
       "step": 240
     },
     {
-      "epoch": 3.663003663003663,
-      "grad_norm": 8.681733131408691,
-      "learning_rate": 3.862397820163488e-05,
-      "loss": 1.1195,
       "step": 250
     },
     {
-      "epoch": 3.8095238095238093,
-      "grad_norm": 8.258611679077148,
-      "learning_rate": 3.794277929155314e-05,
-      "loss": 1.1578,
       "step": 260
     },
     {
-      "epoch": 3.956043956043956,
-      "grad_norm": 9.197736740112305,
-      "learning_rate": 3.726158038147139e-05,
-      "loss": 1.1595,
       "step": 270
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.5454545454545454,
-      "eval_f1": 0.5413509466694156,
-      "eval_loss": 1.0423349142074585,
-      "eval_precision": 0.5690587889084956,
-      "eval_recall": 0.5454545454545454,
-      "eval_runtime": 10.5435,
-      "eval_samples_per_second": 103.286,
-      "eval_steps_per_second": 6.544,
-      "step": 273
-    },
-    {
-      "epoch": 4.102564102564102,
-      "grad_norm": 7.987867832183838,
-      "learning_rate": 3.6580381471389645e-05,
-      "loss": 1.0988,
       "step": 280
     },
     {
-      "epoch": 4.249084249084249,
-      "grad_norm": 6.383251667022705,
-      "learning_rate": 3.5899182561307905e-05,
-      "loss": 1.1338,
       "step": 290
     },
     {
-      "epoch": 4.395604395604396,
-      "grad_norm": 7.749887943267822,
-      "learning_rate": 3.521798365122616e-05,
-      "loss": 1.1635,
       "step": 300
     },
     {
-      "epoch": 4.542124542124542,
-      "grad_norm": 9.830282211303711,
-      "learning_rate": 3.453678474114442e-05,
-      "loss": 1.0912,
       "step": 310
     },
     {
-      "epoch": 4.688644688644689,
-      "grad_norm": 9.785733222961426,
-      "learning_rate": 3.385558583106267e-05,
-      "loss": 1.1293,
       "step": 320
     },
     {
-      "epoch": 4.835164835164835,
-      "grad_norm": 9.794586181640625,
-      "learning_rate": 3.317438692098093e-05,
-      "loss": 1.0867,
       "step": 330
     },
     {
-      "epoch": 4.981684981684982,
-      "grad_norm": 5.60059928894043,
-      "learning_rate": 3.249318801089918e-05,
       "loss": 1.096,
       "step": 340
     },
     {
-      "epoch": 4.996336996336996,
-      "eval_accuracy": 0.5610651974288338,
-      "eval_f1": 0.5462709659715219,
-      "eval_loss": 1.0159707069396973,
-      "eval_precision": 0.5419035604614381,
-      "eval_recall": 0.5610651974288338,
-      "eval_runtime": 10.5161,
-      "eval_samples_per_second": 103.556,
-      "eval_steps_per_second": 6.561,
-      "step": 341
-    },
-    {
-      "epoch": 5.128205128205128,
-      "grad_norm": 6.809742450714111,
-      "learning_rate": 3.181198910081744e-05,
-      "loss": 1.071,
       "step": 350
     },
     {
-      "epoch": 5.274725274725275,
-      "grad_norm": 7.61679744720459,
-      "learning_rate": 3.1130790190735695e-05,
-      "loss": 1.1031,
       "step": 360
     },
     {
-      "epoch": 5.4212454212454215,
-      "grad_norm": 7.127725601196289,
-      "learning_rate": 3.0449591280653955e-05,
-      "loss": 1.0971,
       "step": 370
     },
     {
-      "epoch": 5.5677655677655675,
-      "grad_norm": 6.362829685211182,
-      "learning_rate": 2.9768392370572208e-05,
-      "loss": 1.1078,
       "step": 380
     },
     {
-      "epoch": 5.714285714285714,
-      "grad_norm": 8.149834632873535,
-      "learning_rate": 2.9087193460490464e-05,
-      "loss": 1.0871,
       "step": 390
     },
     {
-      "epoch": 5.860805860805861,
-      "grad_norm": 8.003039360046387,
-      "learning_rate": 2.840599455040872e-05,
-      "loss": 1.0592,
-      "step": 400
     },
     {
-      "epoch": 5.992673992673993,
-      "eval_accuracy": 0.5766758494031221,
-      "eval_f1": 0.5414852771503386,
-      "eval_loss": 0.9847236275672913,
-      "eval_precision": 0.5484837093262834,
-      "eval_recall": 0.5766758494031221,
-      "eval_runtime": 10.5345,
-      "eval_samples_per_second": 103.374,
-      "eval_steps_per_second": 6.55,
-      "step": 409
     },
     {
-      "epoch": 6.007326007326007,
-      "grad_norm": 9.939899444580078,
-      "learning_rate": 2.772479564032698e-05,
-      "loss": 1.0573,
       "step": 410
     },
     {
-      "epoch": 6.153846153846154,
-      "grad_norm": 8.810173988342285,
-      "learning_rate": 2.7043596730245236e-05,
-      "loss": 1.038,
       "step": 420
     },
     {
-      "epoch": 6.3003663003663,
-      "grad_norm": 9.228567123413086,
-      "learning_rate": 2.6362397820163485e-05,
-      "loss": 1.0441,
       "step": 430
     },
     {
-      "epoch": 6.446886446886447,
-      "grad_norm": 10.357806205749512,
-      "learning_rate": 2.5681198910081745e-05,
-      "loss": 1.0313,
       "step": 440
     },
     {
-      "epoch": 6.593406593406593,
-      "grad_norm": 6.874061584472656,
-      "learning_rate": 2.5e-05,
-      "loss": 1.0667,
       "step": 450
     },
     {
-      "epoch": 6.73992673992674,
-      "grad_norm": 10.741703987121582,
-      "learning_rate": 2.4318801089918257e-05,
-      "loss": 1.0353,
       "step": 460
     },
     {
-      "epoch": 6.886446886446887,
-      "grad_norm": 7.215301513671875,
-      "learning_rate": 2.3637602179836514e-05,
-      "loss": 1.0706,
-      "step": 470
     },
     {
-      "epoch": 6.989010989010989,
-      "eval_accuracy": 0.588613406795225,
-      "eval_f1": 0.5835655659113839,
-      "eval_loss": 0.9867706894874573,
-      "eval_precision": 0.5861531495568983,
-      "eval_recall": 0.588613406795225,
-      "eval_runtime": 10.5429,
-      "eval_samples_per_second": 103.292,
-      "eval_steps_per_second": 6.545,
-      "step": 477
     },
     {
-      "epoch": 7.032967032967033,
-      "grad_norm": 9.452975273132324,
-      "learning_rate": 2.295640326975477e-05,
-      "loss": 1.1093,
       "step": 480
     },
     {
-      "epoch": 7.17948717948718,
-      "grad_norm": 5.909883499145508,
-      "learning_rate": 2.2275204359673023e-05,
-      "loss": 1.0628,
       "step": 490
     },
     {
-      "epoch": 7.326007326007326,
-      "grad_norm": 8.430510520935059,
-      "learning_rate": 2.1594005449591282e-05,
-      "loss": 1.0175,
       "step": 500
     },
     {
-      "epoch": 7.472527472527473,
-      "grad_norm": 11.566703796386719,
-      "learning_rate": 2.091280653950954e-05,
-      "loss": 0.9975,
       "step": 510
     },
     {
-      "epoch": 7.619047619047619,
-      "grad_norm": 8.561046600341797,
-      "learning_rate": 2.023160762942779e-05,
-      "loss": 1.057,
       "step": 520
     },
     {
-      "epoch": 7.7655677655677655,
-      "grad_norm": 9.214874267578125,
-      "learning_rate": 1.955040871934605e-05,
-      "loss": 1.0085,
       "step": 530
     },
     {
-      "epoch": 7.912087912087912,
-      "grad_norm": 7.050257682800293,
-      "learning_rate": 1.8869209809264307e-05,
-      "loss": 1.0404,
       "step": 540
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.5867768595041323,
-      "eval_f1": 0.5736657074074295,
-      "eval_loss": 0.9758484363555908,
-      "eval_precision": 0.5694509571644558,
-      "eval_recall": 0.5867768595041323,
-      "eval_runtime": 10.5054,
-      "eval_samples_per_second": 103.661,
-      "eval_steps_per_second": 6.568,
-      "step": 546
-    },
-    {
-      "epoch": 8.058608058608058,
-      "grad_norm": 9.406164169311523,
-      "learning_rate": 1.818801089918256e-05,
-      "loss": 1.0564,
       "step": 550
     },
     {
-      "epoch": 8.205128205128204,
-      "grad_norm": 8.063167572021484,
-      "learning_rate": 1.750681198910082e-05,
-      "loss": 1.0381,
       "step": 560
     },
     {
-      "epoch": 8.351648351648352,
-      "grad_norm": 7.877150535583496,
-      "learning_rate": 1.6825613079019073e-05,
-      "loss": 0.9996,
       "step": 570
     },
     {
-      "epoch": 8.498168498168498,
-      "grad_norm": 10.49506664276123,
-      "learning_rate": 1.614441416893733e-05,
-      "loss": 0.9723,
       "step": 580
     },
     {
-      "epoch": 8.644688644688644,
-      "grad_norm": 8.74528694152832,
-      "learning_rate": 1.546321525885559e-05,
-      "loss": 1.0267,
       "step": 590
     },
     {
-      "epoch": 8.791208791208792,
-      "grad_norm": 7.0554962158203125,
-      "learning_rate": 1.4782016348773841e-05,
-      "loss": 1.0251,
       "step": 600
     },
     {
-      "epoch": 8.937728937728938,
-      "grad_norm": 7.974668502807617,
-      "learning_rate": 1.41008174386921e-05,
-      "loss": 1.0059,
       "step": 610
     },
     {
-      "epoch": 8.996336996336996,
-      "eval_accuracy": 0.5932047750229569,
-      "eval_f1": 0.5674291939014156,
-      "eval_loss": 0.9468401074409485,
-      "eval_precision": 0.5709384462011384,
-      "eval_recall": 0.5932047750229569,
-      "eval_runtime": 10.4878,
-      "eval_samples_per_second": 103.835,
-      "eval_steps_per_second": 6.579,
-      "step": 614
-    },
-    {
-      "epoch": 9.084249084249084,
-      "grad_norm": 8.571954727172852,
-      "learning_rate": 1.3419618528610356e-05,
-      "loss": 0.9878,
       "step": 620
     },
     {
-      "epoch": 9.23076923076923,
-      "grad_norm": 8.298359870910645,
-      "learning_rate": 1.273841961852861e-05,
-      "loss": 1.0056,
       "step": 630
     },
     {
-      "epoch": 9.377289377289378,
-      "grad_norm": 7.087368965148926,
-      "learning_rate": 1.2057220708446868e-05,
-      "loss": 1.037,
       "step": 640
     },
     {
-      "epoch": 9.523809523809524,
-      "grad_norm": 7.409104347229004,
-      "learning_rate": 1.1376021798365123e-05,
-      "loss": 0.9326,
       "step": 650
     },
     {
-      "epoch": 9.67032967032967,
-      "grad_norm": 7.1452531814575195,
-      "learning_rate": 1.0694822888283379e-05,
-      "loss": 0.9723,
       "step": 660
     },
     {
-      "epoch": 9.816849816849818,
-      "grad_norm": 8.340729713439941,
-      "learning_rate": 1.0013623978201635e-05,
-      "loss": 0.9914,
       "step": 670
     },
     {
-      "epoch": 9.963369963369964,
-      "grad_norm": 10.698880195617676,
-      "learning_rate": 9.332425068119891e-06,
-      "loss": 0.965,
       "step": 680
     },
     {
-      "epoch": 9.992673992673993,
-      "eval_accuracy": 0.5932047750229569,
-      "eval_f1": 0.5804462637419235,
-      "eval_loss": 0.9565483331680298,
-      "eval_precision": 0.5857538351608745,
-      "eval_recall": 0.5932047750229569,
-      "eval_runtime": 10.4791,
-      "eval_samples_per_second": 103.921,
-      "eval_steps_per_second": 6.585,
-      "step": 682
-    },
-    {
-      "epoch": 10.10989010989011,
-      "grad_norm": 10.67618465423584,
-      "learning_rate": 8.651226158038147e-06,
-      "loss": 0.9732,
       "step": 690
     },
     {
-      "epoch": 10.256410256410255,
-      "grad_norm": 9.102426528930664,
-      "learning_rate": 7.970027247956404e-06,
-      "loss": 0.9804,
       "step": 700
     },
     {
-      "epoch": 10.402930402930403,
-      "grad_norm": 11.115556716918945,
-      "learning_rate": 7.288828337874659e-06,
-      "loss": 0.9855,
       "step": 710
     },
     {
-      "epoch": 10.54945054945055,
-      "grad_norm": 11.00426197052002,
-      "learning_rate": 6.607629427792916e-06,
-      "loss": 0.9691,
       "step": 720
     },
     {
-      "epoch": 10.695970695970695,
-      "grad_norm": 10.043339729309082,
-      "learning_rate": 5.9264305177111724e-06,
-      "loss": 0.9365,
       "step": 730
     },
     {
-      "epoch": 10.842490842490843,
-      "grad_norm": 11.518232345581055,
-      "learning_rate": 5.245231607629428e-06,
-      "loss": 0.9659,
       "step": 740
     },
     {
-      "epoch": 10.989010989010989,
-      "grad_norm": 9.314995765686035,
-      "learning_rate": 4.564032697547684e-06,
-      "loss": 0.9362,
-      "step": 750
-    },
-    {
-      "epoch": 10.989010989010989,
-      "eval_accuracy": 0.588613406795225,
-      "eval_f1": 0.5778239696801104,
-      "eval_loss": 0.9466218948364258,
-      "eval_precision": 0.5767647827506791,
-      "eval_recall": 0.588613406795225,
-      "eval_runtime": 10.5258,
-      "eval_samples_per_second": 103.46,
-      "eval_steps_per_second": 6.555,
       "step": 750
     },
     {
-      "epoch": 11.135531135531135,
-      "grad_norm": 10.667020797729492,
-      "learning_rate": 3.88283378746594e-06,
-      "loss": 0.9564,
       "step": 760
     },
     {
-      "epoch": 11.282051282051283,
-      "grad_norm": 10.923125267028809,
-      "learning_rate": 3.2016348773841965e-06,
-      "loss": 0.9177,
       "step": 770
     },
     {
-      "epoch": 11.428571428571429,
-      "grad_norm": 9.893692016601562,
-      "learning_rate": 2.5204359673024523e-06,
-      "loss": 0.9732,
       "step": 780
     },
     {
-      "epoch": 11.575091575091575,
-      "grad_norm": 8.784825325012207,
-      "learning_rate": 1.8392370572207086e-06,
-      "loss": 0.9558,
       "step": 790
     },
     {
-      "epoch": 11.72161172161172,
-      "grad_norm": 8.990778923034668,
-      "learning_rate": 1.1580381471389646e-06,
-      "loss": 0.9656,
       "step": 800
     },
     {
-      "epoch": 11.868131868131869,
-      "grad_norm": 8.444221496582031,
-      "learning_rate": 4.768392370572207e-07,
-      "loss": 0.9334,
       "step": 810
     },
     {
-      "epoch": 11.956043956043956,
-      "eval_accuracy": 0.5858585858585859,
-      "eval_f1": 0.5699572730591373,
-      "eval_loss": 0.9441593885421753,
-      "eval_precision": 0.5692451226403554,
-      "eval_recall": 0.5858585858585859,
-      "eval_runtime": 10.5926,
-      "eval_samples_per_second": 102.808,
-      "eval_steps_per_second": 6.514,
-      "step": 816
-    },
-    {
-      "epoch": 11.956043956043956,
-      "step": 816,
-      "total_flos": 4.123334853511373e+18,
-      "train_loss": 1.090085435147379,
-      "train_runtime": 2115.1144,
-      "train_samples_per_second": 24.697,
-      "train_steps_per_second": 0.386
     }
   ],
   "logging_steps": 10,
-  "max_steps": 816,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 12,
   "save_steps": 500,
@@ -746,7 +830,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.123334853511373e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6137931034482759,
+  "best_model_checkpoint": "convnextv2-base-22k-224-finetuned-tekno24/checkpoint-860",
+  "epoch": 11.961661341853034,
   "eval_steps": 500,
+  "global_step": 936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.12779552715654952,
+      "grad_norm": 11.641097068786621,
+      "learning_rate": 5.319148936170213e-06,
+      "loss": 1.4077,
       "step": 10
     },
     {
+      "epoch": 0.25559105431309903,
+      "grad_norm": 10.328614234924316,
+      "learning_rate": 1.0638297872340426e-05,
+      "loss": 1.3907,
       "step": 20
     },
     {
+      "epoch": 0.38338658146964855,
+      "grad_norm": 11.496760368347168,
+      "learning_rate": 1.595744680851064e-05,
+      "loss": 1.3597,
       "step": 30
     },
     {
+      "epoch": 0.5111821086261981,
+      "grad_norm": 9.975175857543945,
+      "learning_rate": 2.1276595744680852e-05,
+      "loss": 1.354,
       "step": 40
     },
     {
+      "epoch": 0.6389776357827476,
+      "grad_norm": 11.381126403808594,
+      "learning_rate": 2.6595744680851064e-05,
+      "loss": 1.3266,
       "step": 50
     },
     {
+      "epoch": 0.7667731629392971,
+      "grad_norm": 9.771955490112305,
+      "learning_rate": 3.191489361702128e-05,
+      "loss": 1.291,
       "step": 60
     },
     {
+      "epoch": 0.8945686900958466,
+      "grad_norm": 21.0851993560791,
+      "learning_rate": 3.617021276595745e-05,
+      "loss": 1.3179,
+      "step": 70
     },
     {
+      "epoch": 0.9968051118210862,
+      "eval_accuracy": 0.4206896551724138,
+      "eval_f1": 0.39792953648489043,
+      "eval_loss": 1.2415151596069336,
+      "eval_precision": 0.4642161976696202,
+      "eval_recall": 0.4206896551724138,
+      "eval_runtime": 4.2118,
+      "eval_samples_per_second": 103.281,
+      "eval_steps_per_second": 6.648,
+      "step": 78
     },
     {
+      "epoch": 1.0223642172523961,
+      "grad_norm": 19.948223114013672,
+      "learning_rate": 4.148936170212766e-05,
+      "loss": 1.2668,
       "step": 80
     },
     {
+      "epoch": 1.1501597444089458,
+      "grad_norm": 11.563603401184082,
+      "learning_rate": 4.680851063829788e-05,
+      "loss": 1.2202,
       "step": 90
     },
     {
+      "epoch": 1.2779552715654952,
+      "grad_norm": 9.605425834655762,
+      "learning_rate": 4.97624703087886e-05,
+      "loss": 1.2626,
       "step": 100
     },
     {
+      "epoch": 1.4057507987220448,
+      "grad_norm": 10.846478462219238,
+      "learning_rate": 4.9168646080760093e-05,
+      "loss": 1.251,
       "step": 110
     },
     {
+      "epoch": 1.5335463258785942,
+      "grad_norm": 10.546998023986816,
+      "learning_rate": 4.8574821852731594e-05,
+      "loss": 1.2136,
       "step": 120
     },
     {
+      "epoch": 1.6613418530351438,
+      "grad_norm": 10.678705215454102,
+      "learning_rate": 4.798099762470309e-05,
+      "loss": 1.1764,
       "step": 130
     },
     {
+      "epoch": 1.7891373801916934,
+      "grad_norm": 10.283668518066406,
+      "learning_rate": 4.738717339667459e-05,
+      "loss": 1.2624,
       "step": 140
     },
     {
+      "epoch": 1.9169329073482428,
+      "grad_norm": 10.07646656036377,
+      "learning_rate": 4.679334916864608e-05,
+      "loss": 1.1998,
       "step": 150
     },
     {
+      "epoch": 1.9936102236421727,
+      "eval_accuracy": 0.5103448275862069,
+      "eval_f1": 0.4525112700085999,
+      "eval_loss": 1.0768730640411377,
+      "eval_precision": 0.5309344450319118,
+      "eval_recall": 0.5103448275862069,
+      "eval_runtime": 4.2293,
+      "eval_samples_per_second": 102.853,
+      "eval_steps_per_second": 6.62,
+      "step": 156
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 10.981221199035645,
+      "learning_rate": 4.6199524940617575e-05,
+      "loss": 1.1287,
       "step": 160
     },
     {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 6.460533142089844,
+      "learning_rate": 4.5605700712589075e-05,
+      "loss": 1.1806,
       "step": 170
     },
     {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 7.450798511505127,
+      "learning_rate": 4.501187648456057e-05,
+      "loss": 1.1834,
       "step": 180
     },
     {
+      "epoch": 2.428115015974441,
+      "grad_norm": 5.972067832946777,
+      "learning_rate": 4.441805225653207e-05,
+      "loss": 1.1639,
       "step": 190
     },
     {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 10.565897941589355,
+      "learning_rate": 4.382422802850357e-05,
+      "loss": 1.143,
       "step": 200
     },
     {
+      "epoch": 2.68370607028754,
+      "grad_norm": 11.751137733459473,
+      "learning_rate": 4.323040380047506e-05,
+      "loss": 1.1911,
       "step": 210
     },
     {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 8.518805503845215,
+      "learning_rate": 4.263657957244656e-05,
+      "loss": 1.169,
       "step": 220
     },
     {
+      "epoch": 2.939297124600639,
+      "grad_norm": 7.631802558898926,
+      "learning_rate": 4.204275534441806e-05,
+      "loss": 1.168,
       "step": 230
     },
     {
+      "epoch": 2.9904153354632586,
+      "eval_accuracy": 0.5494252873563218,
+      "eval_f1": 0.5033023418313557,
+      "eval_loss": 1.0573328733444214,
+      "eval_precision": 0.5604674717576669,
+      "eval_recall": 0.5494252873563218,
+      "eval_runtime": 4.2015,
+      "eval_samples_per_second": 103.535,
+      "eval_steps_per_second": 6.664,
+      "step": 234
+    },
+    {
+      "epoch": 3.0670926517571884,
+      "grad_norm": 7.9839911460876465,
+      "learning_rate": 4.144893111638955e-05,
+      "loss": 1.1172,
       "step": 240
     },
     {
+      "epoch": 3.194888178913738,
+      "grad_norm": 8.082262992858887,
+      "learning_rate": 4.0855106888361044e-05,
+      "loss": 1.1659,
       "step": 250
     },
     {
+      "epoch": 3.3226837060702876,
+      "grad_norm": 5.319189548492432,
+      "learning_rate": 4.0261282660332545e-05,
+      "loss": 1.1493,
       "step": 260
     },
     {
+      "epoch": 3.450479233226837,
+      "grad_norm": 8.54591178894043,
+      "learning_rate": 3.966745843230404e-05,
+      "loss": 1.1158,
       "step": 270
     },
     {
+      "epoch": 3.5782747603833864,
+      "grad_norm": 9.336274147033691,
+      "learning_rate": 3.907363420427554e-05,
+      "loss": 1.1638,
       "step": 280
     },
     {
+      "epoch": 3.7060702875399363,
+      "grad_norm": 8.625086784362793,
+      "learning_rate": 3.847980997624703e-05,
+      "loss": 1.0932,
       "step": 290
     },
     {
+      "epoch": 3.8338658146964857,
+      "grad_norm": 9.026288032531738,
+      "learning_rate": 3.7885985748218526e-05,
+      "loss": 1.1056,
       "step": 300
     },
     {
+      "epoch": 3.961661341853035,
+      "grad_norm": 10.40346622467041,
+      "learning_rate": 3.7292161520190026e-05,
+      "loss": 1.1107,
       "step": 310
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5540229885057472,
+      "eval_f1": 0.5163004360032211,
+      "eval_loss": 0.9923611879348755,
+      "eval_precision": 0.525717492734745,
+      "eval_recall": 0.5540229885057472,
+      "eval_runtime": 4.1795,
+      "eval_samples_per_second": 104.079,
+      "eval_steps_per_second": 6.699,
+      "step": 313
+    },
+    {
+      "epoch": 4.0894568690095845,
+      "grad_norm": 6.684942722320557,
+      "learning_rate": 3.669833729216152e-05,
+      "loss": 1.1252,
       "step": 320
     },
     {
+      "epoch": 4.217252396166134,
+      "grad_norm": 10.904282569885254,
+      "learning_rate": 3.6104513064133013e-05,
+      "loss": 1.1098,
       "step": 330
     },
     {
+      "epoch": 4.345047923322683,
+      "grad_norm": 9.764264106750488,
+      "learning_rate": 3.5510688836104514e-05,
       "loss": 1.096,
       "step": 340
     },
     {
+      "epoch": 4.472843450479234,
+      "grad_norm": 8.857853889465332,
+      "learning_rate": 3.4916864608076014e-05,
+      "loss": 1.0528,
       "step": 350
     },
     {
+      "epoch": 4.600638977635783,
+      "grad_norm": 7.500421524047852,
+      "learning_rate": 3.432304038004751e-05,
+      "loss": 1.1455,
       "step": 360
     },
     {
+      "epoch": 4.728434504792332,
+      "grad_norm": 9.362208366394043,
+      "learning_rate": 3.372921615201901e-05,
+      "loss": 1.0993,
       "step": 370
     },
     {
+      "epoch": 4.856230031948882,
+      "grad_norm": 9.38844108581543,
+      "learning_rate": 3.31353919239905e-05,
+      "loss": 1.0855,
       "step": 380
     },
     {
+      "epoch": 4.984025559105431,
+      "grad_norm": 6.451258659362793,
+      "learning_rate": 3.2541567695961995e-05,
+      "loss": 1.1062,
       "step": 390
     },
     {
+      "epoch": 4.996805111821086,
+      "eval_accuracy": 0.5747126436781609,
+      "eval_f1": 0.5507051314754062,
+      "eval_loss": 1.0018237829208374,
+      "eval_precision": 0.5659922189344513,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 4.1822,
+      "eval_samples_per_second": 104.012,
+      "eval_steps_per_second": 6.695,
+      "step": 391
     },
     {
+      "epoch": 5.111821086261981,
+      "grad_norm": 8.044933319091797,
+      "learning_rate": 3.1947743467933496e-05,
+      "loss": 1.0556,
+      "step": 400
     },
     {
+      "epoch": 5.23961661341853,
+      "grad_norm": 9.200007438659668,
+      "learning_rate": 3.135391923990499e-05,
+      "loss": 1.056,
       "step": 410
     },
     {
+      "epoch": 5.36741214057508,
+      "grad_norm": 9.929868698120117,
+      "learning_rate": 3.076009501187649e-05,
+      "loss": 1.0098,
       "step": 420
     },
     {
+      "epoch": 5.49520766773163,
+      "grad_norm": 7.43991231918335,
+      "learning_rate": 3.0166270783847983e-05,
+      "loss": 1.1396,
       "step": 430
     },
     {
+      "epoch": 5.623003194888179,
+      "grad_norm": 7.019424915313721,
+      "learning_rate": 2.9572446555819477e-05,
+      "loss": 1.0659,
       "step": 440
     },
     {
+      "epoch": 5.7507987220447285,
+      "grad_norm": 7.227243900299072,
+      "learning_rate": 2.8978622327790977e-05,
+      "loss": 1.0453,
       "step": 450
     },
     {
+      "epoch": 5.878594249201278,
+      "grad_norm": 9.71042537689209,
+      "learning_rate": 2.838479809976247e-05,
+      "loss": 1.0331,
       "step": 460
     },
     {
+      "epoch": 5.993610223642173,
+      "eval_accuracy": 0.593103448275862,
+      "eval_f1": 0.5768496494171164,
+      "eval_loss": 0.9901189208030701,
+      "eval_precision": 0.6202225107325855,
+      "eval_recall": 0.593103448275862,
+      "eval_runtime": 4.1789,
+      "eval_samples_per_second": 104.095,
+      "eval_steps_per_second": 6.7,
+      "step": 469
     },
     {
+      "epoch": 6.006389776357827,
+      "grad_norm": 6.03436279296875,
+      "learning_rate": 2.7790973871733968e-05,
+      "loss": 1.135,
+      "step": 470
     },
     {
+      "epoch": 6.134185303514377,
+      "grad_norm": 7.317747592926025,
+      "learning_rate": 2.7197149643705465e-05,
+      "loss": 1.0316,
       "step": 480
     },
     {
+      "epoch": 6.261980830670926,
+      "grad_norm": 7.093214511871338,
+      "learning_rate": 2.6603325415676962e-05,
+      "loss": 1.0445,
       "step": 490
     },
     {
+      "epoch": 6.389776357827476,
+      "grad_norm": 8.44990348815918,
+      "learning_rate": 2.6009501187648455e-05,
+      "loss": 1.064,
       "step": 500
     },
     {
+      "epoch": 6.517571884984026,
+      "grad_norm": 8.586387634277344,
+      "learning_rate": 2.5415676959619956e-05,
+      "loss": 1.0428,
       "step": 510
     },
     {
+      "epoch": 6.645367412140575,
+      "grad_norm": 8.286543846130371,
+      "learning_rate": 2.482185273159145e-05,
+      "loss": 1.0424,
       "step": 520
     },
     {
+      "epoch": 6.773162939297125,
+      "grad_norm": 11.05722427368164,
+      "learning_rate": 2.4228028503562946e-05,
+      "loss": 1.0486,
       "step": 530
     },
     {
+      "epoch": 6.900958466453674,
+      "grad_norm": 11.715845108032227,
+      "learning_rate": 2.3634204275534443e-05,
+      "loss": 1.0409,
       "step": 540
     },
     {
+      "epoch": 6.9904153354632586,
+      "eval_accuracy": 0.5747126436781609,
+      "eval_f1": 0.5723268617274374,
+      "eval_loss": 0.9633908867835999,
+      "eval_precision": 0.5722167544506434,
+      "eval_recall": 0.5747126436781609,
+      "eval_runtime": 4.2036,
+      "eval_samples_per_second": 103.482,
+      "eval_steps_per_second": 6.661,
+      "step": 547
+    },
+    {
+      "epoch": 7.0287539936102235,
+      "grad_norm": 9.900256156921387,
+      "learning_rate": 2.3040380047505937e-05,
+      "loss": 1.021,
       "step": 550
     },
     {
+      "epoch": 7.156549520766773,
+      "grad_norm": 11.22358226776123,
+      "learning_rate": 2.2446555819477437e-05,
+      "loss": 1.0387,
       "step": 560
     },
     {
+      "epoch": 7.284345047923322,
+      "grad_norm": 6.466274738311768,
+      "learning_rate": 2.1852731591448934e-05,
+      "loss": 1.0166,
       "step": 570
     },
     {
+      "epoch": 7.412140575079873,
+      "grad_norm": 9.685991287231445,
+      "learning_rate": 2.1258907363420428e-05,
+      "loss": 1.0459,
       "step": 580
     },
     {
+      "epoch": 7.539936102236422,
+      "grad_norm": 9.211965560913086,
+      "learning_rate": 2.0665083135391925e-05,
+      "loss": 0.9852,
       "step": 590
     },
     {
+      "epoch": 7.667731629392971,
+      "grad_norm": 9.930057525634766,
+      "learning_rate": 2.0071258907363422e-05,
+      "loss": 1.0176,
       "step": 600
     },
     {
+      "epoch": 7.795527156549521,
+      "grad_norm": 12.529800415039062,
+      "learning_rate": 1.947743467933492e-05,
+      "loss": 1.0465,
       "step": 610
     },
     {
+      "epoch": 7.92332268370607,
+      "grad_norm": 9.018549919128418,
+      "learning_rate": 1.8883610451306412e-05,
+      "loss": 1.0176,
       "step": 620
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.593103448275862,
+      "eval_f1": 0.5833555266825051,
+      "eval_loss": 0.9504066705703735,
+      "eval_precision": 0.5813528993323179,
+      "eval_recall": 0.593103448275862,
+      "eval_runtime": 4.1774,
+      "eval_samples_per_second": 104.131,
+      "eval_steps_per_second": 6.703,
+      "step": 626
+    },
+    {
+      "epoch": 8.05111821086262,
+      "grad_norm": 8.328828811645508,
+      "learning_rate": 1.828978622327791e-05,
+      "loss": 0.9516,
       "step": 630
     },
     {
+      "epoch": 8.178913738019169,
+      "grad_norm": 7.750000476837158,
+      "learning_rate": 1.7695961995249406e-05,
+      "loss": 0.972,
       "step": 640
     },
     {
+      "epoch": 8.30670926517572,
+      "grad_norm": 6.95557165145874,
+      "learning_rate": 1.7102137767220903e-05,
+      "loss": 0.9842,
       "step": 650
     },
     {
+      "epoch": 8.434504792332268,
+      "grad_norm": 8.893524169921875,
+      "learning_rate": 1.65083135391924e-05,
+      "loss": 1.02,
       "step": 660
     },
     {
+      "epoch": 8.562300319488818,
+      "grad_norm": 9.984440803527832,
+      "learning_rate": 1.5914489311163897e-05,
+      "loss": 0.97,
       "step": 670
     },
     {
+      "epoch": 8.690095846645367,
+      "grad_norm": 8.314949989318848,
+      "learning_rate": 1.5320665083135394e-05,
+      "loss": 1.0366,
       "step": 680
     },
     {
+      "epoch": 8.817891373801917,
+      "grad_norm": 9.685540199279785,
+      "learning_rate": 1.4726840855106888e-05,
+      "loss": 1.0284,
       "step": 690
     },
     {
+      "epoch": 8.945686900958467,
+      "grad_norm": 10.43076229095459,
+      "learning_rate": 1.4133016627078385e-05,
+      "loss": 0.995,
       "step": 700
     },
     {
+      "epoch": 8.996805111821086,
+      "eval_accuracy": 0.5908045977011495,
+      "eval_f1": 0.5853582114263199,
+      "eval_loss": 0.9584209322929382,
+      "eval_precision": 0.5853113777126823,
+      "eval_recall": 0.5908045977011495,
+      "eval_runtime": 4.2105,
+      "eval_samples_per_second": 103.314,
+      "eval_steps_per_second": 6.65,
+      "step": 704
+    },
+    {
+      "epoch": 9.073482428115016,
+      "grad_norm": 8.847938537597656,
+      "learning_rate": 1.3539192399049882e-05,
+      "loss": 0.9524,
       "step": 710
     },
     {
+      "epoch": 9.201277955271566,
+      "grad_norm": 8.750248908996582,
+      "learning_rate": 1.2945368171021377e-05,
+      "loss": 0.9846,
       "step": 720
     },
     {
+      "epoch": 9.329073482428115,
+      "grad_norm": 9.161256790161133,
+      "learning_rate": 1.2351543942992874e-05,
+      "loss": 0.9751,
       "step": 730
     },
     {
+      "epoch": 9.456869009584665,
+      "grad_norm": 9.544412612915039,
+      "learning_rate": 1.1757719714964371e-05,
+      "loss": 0.9417,
       "step": 740
     },
     {
+      "epoch": 9.584664536741213,
+      "grad_norm": 9.703606605529785,
+      "learning_rate": 1.1163895486935868e-05,
+      "loss": 0.9707,
       "step": 750
     },
     {
+      "epoch": 9.712460063897764,
+      "grad_norm": 9.677326202392578,
+      "learning_rate": 1.0570071258907365e-05,
+      "loss": 1.0009,
       "step": 760
     },
     {
+      "epoch": 9.840255591054314,
+      "grad_norm": 8.860432624816895,
+      "learning_rate": 9.97624703087886e-06,
+      "loss": 0.9817,
       "step": 770
     },
     {
+      "epoch": 9.968051118210862,
+      "grad_norm": 8.743229866027832,
+      "learning_rate": 9.382422802850356e-06,
+      "loss": 0.9937,
       "step": 780
     },
     {
+      "epoch": 9.993610223642172,
+      "eval_accuracy": 0.6022988505747127,
+      "eval_f1": 0.5934331301305344,
+      "eval_loss": 0.9338871240615845,
+      "eval_precision": 0.5893665058889589,
+      "eval_recall": 0.6022988505747127,
+      "eval_runtime": 4.2268,
+      "eval_samples_per_second": 102.915,
+      "eval_steps_per_second": 6.624,
+      "step": 782
+    },
+    {
+      "epoch": 10.095846645367413,
+      "grad_norm": 7.1755900382995605,
+      "learning_rate": 8.788598574821852e-06,
+      "loss": 0.9908,
       "step": 790
     },
     {
+      "epoch": 10.223642172523961,
+      "grad_norm": 8.917673110961914,
+      "learning_rate": 8.19477434679335e-06,
+      "loss": 0.9361,
       "step": 800
     },
     {
+      "epoch": 10.351437699680512,
+      "grad_norm": 15.518793106079102,
+      "learning_rate": 7.6009501187648464e-06,
+      "loss": 0.9495,
       "step": 810
     },
     {
+      "epoch": 10.47923322683706,
+      "grad_norm": 12.074665069580078,
+      "learning_rate": 7.007125890736342e-06,
+      "loss": 0.9689,
+      "step": 820
+    },
+    {
+      "epoch": 10.60702875399361,
+      "grad_norm": 9.314558982849121,
+      "learning_rate": 6.4133016627078396e-06,
+      "loss": 0.983,
+      "step": 830
+    },
+    {
+      "epoch": 10.73482428115016,
+      "grad_norm": 9.714004516601562,
+      "learning_rate": 5.819477434679335e-06,
+      "loss": 1.0,
+      "step": 840
+    },
+    {
+      "epoch": 10.86261980830671,
+      "grad_norm": 9.66527271270752,
+      "learning_rate": 5.225653206650832e-06,
+      "loss": 0.9036,
+      "step": 850
+    },
+    {
+      "epoch": 10.99041533546326,
+      "grad_norm": 11.544416427612305,
+      "learning_rate": 4.631828978622328e-06,
+      "loss": 0.9387,
+      "step": 860
+    },
+    {
+      "epoch": 10.99041533546326,
+      "eval_accuracy": 0.6137931034482759,
+      "eval_f1": 0.5996477650763593,
+      "eval_loss": 0.9119637608528137,
+      "eval_precision": 0.596855024118962,
+      "eval_recall": 0.6137931034482759,
+      "eval_runtime": 4.2091,
+      "eval_samples_per_second": 103.347,
+      "eval_steps_per_second": 6.652,
+      "step": 860
+    },
+    {
+      "epoch": 11.118210862619808,
+      "grad_norm": 9.786779403686523,
+      "learning_rate": 4.038004750593825e-06,
+      "loss": 0.911,
+      "step": 870
+    },
+    {
+      "epoch": 11.246006389776358,
+      "grad_norm": 10.40623664855957,
+      "learning_rate": 3.4441805225653207e-06,
+      "loss": 0.9683,
+      "step": 880
+    },
+    {
+      "epoch": 11.373801916932907,
+      "grad_norm": 10.116272926330566,
+      "learning_rate": 2.850356294536817e-06,
+      "loss": 0.9074,
+      "step": 890
+    },
+    {
+      "epoch": 11.501597444089457,
+      "grad_norm": 9.423429489135742,
+      "learning_rate": 2.2565320665083133e-06,
+      "loss": 0.908,
+      "step": 900
+    },
+    {
+      "epoch": 11.629392971246006,
+      "grad_norm": 11.146402359008789,
+      "learning_rate": 1.6627078384798101e-06,
+      "loss": 0.9744,
+      "step": 910
+    },
+    {
+      "epoch": 11.757188498402556,
+      "grad_norm": 11.125927925109863,
+      "learning_rate": 1.0688836104513065e-06,
+      "loss": 0.9541,
+      "step": 920
+    },
+    {
+      "epoch": 11.884984025559106,
+      "grad_norm": 10.135693550109863,
+      "learning_rate": 4.750593824228029e-07,
+      "loss": 0.9324,
+      "step": 930
+    },
+    {
+      "epoch": 11.961661341853034,
+      "eval_accuracy": 0.5954022988505747,
+      "eval_f1": 0.5878627034099811,
+      "eval_loss": 0.9134895205497742,
+      "eval_precision": 0.5865253155328708,
+      "eval_recall": 0.5954022988505747,
+      "eval_runtime": 4.3073,
+      "eval_samples_per_second": 100.992,
+      "eval_steps_per_second": 6.501,
+      "step": 936
+    },
+    {
+      "epoch": 11.961661341853034,
+      "step": 936,
+      "total_flos": 4.743827088137626e+18,
+      "train_loss": 1.079931161342523,
+      "train_runtime": 2308.5403,
+      "train_samples_per_second": 26.027,
+      "train_steps_per_second": 0.405
     }
   ],
   "logging_steps": 10,
+  "max_steps": 936,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 12,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.743827088137626e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null