End of training

Browse files

Files changed (6) hide show

README.md +5 -5
all_results.json +14 -14
eval_results.json +9 -9
runs/Sep04_13-14-39_5bdf525bf655/events.out.tfevents.1725458001.5bdf525bf655.4076.3 +3 -0
train_results.json +6 -6
trainer_state.json +475 -762

README.md CHANGED Viewed

@@ -20,11 +20,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/convnextv2-base-22k-224](https://huggingface.co/facebook/convnextv2-base-22k-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9442
-- Accuracy: 0.5859
-- F1: 0.5700
-- Precision: 0.5692
-- Recall: 0.5859
 ## Model description

 This model is a fine-tuned version of [facebook/convnextv2-base-22k-224](https://huggingface.co/facebook/convnextv2-base-22k-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9468
+- Accuracy: 0.5932
+- F1: 0.5674
+- Precision: 0.5709
+- Recall: 0.5932
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 11.941463414634146,
-    "eval_accuracy": 0.5748393021120294,
-    "eval_f1": 0.5696724052779626,
-    "eval_loss": 0.9780603051185608,
-    "eval_precision": 0.5821729436076757,
-    "eval_recall": 0.5748393021120294,
-    "eval_runtime": 10.5431,
-    "eval_samples_per_second": 103.29,
-    "eval_steps_per_second": 6.545,
-    "total_flos": 6.197635483154842e+18,
-    "train_loss": 1.0363535090209612,
-    "train_runtime": 3088.0708,
-    "train_samples_per_second": 25.461,
-    "train_steps_per_second": 0.396
 }

 {
+    "epoch": 11.956043956043956,
+    "eval_accuracy": 0.5932047750229569,
+    "eval_f1": 0.5674291939014156,
+    "eval_loss": 0.9468401074409485,
+    "eval_precision": 0.5709384462011384,
+    "eval_recall": 0.5932047750229569,
+    "eval_runtime": 10.108,
+    "eval_samples_per_second": 107.737,
+    "eval_steps_per_second": 6.826,
+    "total_flos": 4.123334853511373e+18,
+    "train_loss": 1.090085435147379,
+    "train_runtime": 2115.1144,
+    "train_samples_per_second": 24.697,
+    "train_steps_per_second": 0.386
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 11.941463414634146,
-    "eval_accuracy": 0.5748393021120294,
-    "eval_f1": 0.5696724052779626,
-    "eval_loss": 0.9780603051185608,
-    "eval_precision": 0.5821729436076757,
-    "eval_recall": 0.5748393021120294,
-    "eval_runtime": 10.5431,
-    "eval_samples_per_second": 103.29,
-    "eval_steps_per_second": 6.545
 }

 {
+    "epoch": 11.956043956043956,
+    "eval_accuracy": 0.5932047750229569,
+    "eval_f1": 0.5674291939014156,
+    "eval_loss": 0.9468401074409485,
+    "eval_precision": 0.5709384462011384,
+    "eval_recall": 0.5932047750229569,
+    "eval_runtime": 10.108,
+    "eval_samples_per_second": 107.737,
+    "eval_steps_per_second": 6.826
 }

runs/Sep04_13-14-39_5bdf525bf655/events.out.tfevents.1725458001.5bdf525bf655.4076.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d628f1953adcbffb811c23a083711fdbc320a593f1e5f0c11b8471c81024a13b
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 11.941463414634146,
-    "total_flos": 6.197635483154842e+18,
-    "train_loss": 1.0363535090209612,
-    "train_runtime": 3088.0708,
-    "train_samples_per_second": 25.461,
-    "train_steps_per_second": 0.396
 }

 {
+    "epoch": 11.956043956043956,
+    "total_flos": 4.123334853511373e+18,
+    "train_loss": 1.090085435147379,
+    "train_runtime": 2115.1144,
+    "train_samples_per_second": 24.697,
+    "train_steps_per_second": 0.386
 }

trainer_state.json CHANGED Viewed

@@ -1,1023 +1,736 @@
 {
-  "best_metric": 0.5748393021120294,
-  "best_model_checkpoint": "convnextv2-base-22k-224-finetuned-tekno24/checkpoint-615",
-  "epoch": 11.941463414634146,
   "eval_steps": 500,
-  "global_step": 1224,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0975609756097561,
-      "grad_norm": 12.655921936035156,
-      "learning_rate": 4.0650406504065046e-06,
-      "loss": 1.4164,
       "step": 10
     },
     {
-      "epoch": 0.1951219512195122,
-      "grad_norm": 17.018129348754883,
-      "learning_rate": 8.130081300813009e-06,
-      "loss": 1.4339,
       "step": 20
     },
     {
-      "epoch": 0.2926829268292683,
-      "grad_norm": 16.979167938232422,
-      "learning_rate": 1.1788617886178862e-05,
-      "loss": 1.4233,
       "step": 30
     },
     {
-      "epoch": 0.3902439024390244,
-      "grad_norm": 18.95262908935547,
-      "learning_rate": 1.5447154471544717e-05,
-      "loss": 1.3995,
       "step": 40
     },
     {
-      "epoch": 0.4878048780487805,
-      "grad_norm": 10.330867767333984,
-      "learning_rate": 1.9512195121951222e-05,
-      "loss": 1.3879,
       "step": 50
     },
     {
-      "epoch": 0.5853658536585366,
-      "grad_norm": 7.81517219543457,
-      "learning_rate": 2.3577235772357724e-05,
-      "loss": 1.3701,
       "step": 60
     },
     {
-      "epoch": 0.6829268292682927,
-      "grad_norm": 13.965815544128418,
-      "learning_rate": 2.764227642276423e-05,
-      "loss": 1.3374,
       "step": 70
     },
     {
-      "epoch": 0.7804878048780488,
-      "grad_norm": 13.348392486572266,
-      "learning_rate": 3.170731707317073e-05,
-      "loss": 1.3221,
       "step": 80
     },
     {
-      "epoch": 0.8780487804878049,
-      "grad_norm": 13.079450607299805,
-      "learning_rate": 3.577235772357724e-05,
-      "loss": 1.3228,
       "step": 90
     },
     {
-      "epoch": 0.975609756097561,
-      "grad_norm": 9.20757007598877,
-      "learning_rate": 3.983739837398374e-05,
-      "loss": 1.2643,
       "step": 100
     },
     {
-      "epoch": 0.9951219512195122,
-      "eval_accuracy": 0.5206611570247934,
-      "eval_f1": 0.47635822656042665,
-      "eval_loss": 1.1486896276474,
-      "eval_precision": 0.4782877718762662,
-      "eval_recall": 0.5206611570247934,
-      "eval_runtime": 10.5321,
-      "eval_samples_per_second": 103.399,
-      "eval_steps_per_second": 6.551,
-      "step": 102
-    },
-    {
-      "epoch": 1.0731707317073171,
-      "grad_norm": 11.261804580688477,
-      "learning_rate": 4.390243902439025e-05,
-      "loss": 1.2688,
       "step": 110
     },
     {
-      "epoch": 1.170731707317073,
-      "grad_norm": 20.570632934570312,
-      "learning_rate": 4.796747967479675e-05,
-      "loss": 1.2293,
       "step": 120
     },
     {
-      "epoch": 1.2682926829268293,
-      "grad_norm": 8.604395866394043,
-      "learning_rate": 4.9772933696639425e-05,
-      "loss": 1.2657,
       "step": 130
     },
     {
-      "epoch": 1.3658536585365852,
-      "grad_norm": 23.755281448364258,
-      "learning_rate": 4.931880108991826e-05,
-      "loss": 1.2812,
       "step": 140
     },
     {
-      "epoch": 1.4634146341463414,
-      "grad_norm": 17.45159912109375,
-      "learning_rate": 4.886466848319709e-05,
-      "loss": 1.2578,
       "step": 150
     },
     {
-      "epoch": 1.5609756097560976,
-      "grad_norm": 6.092088222503662,
-      "learning_rate": 4.841053587647593e-05,
-      "loss": 1.2356,
       "step": 160
     },
     {
-      "epoch": 1.6585365853658538,
-      "grad_norm": 7.634965419769287,
-      "learning_rate": 4.795640326975477e-05,
-      "loss": 1.2367,
       "step": 170
     },
     {
-      "epoch": 1.7560975609756098,
-      "grad_norm": 12.493597984313965,
-      "learning_rate": 4.750227066303361e-05,
-      "loss": 1.2391,
       "step": 180
     },
     {
-      "epoch": 1.8536585365853657,
-      "grad_norm": 7.179015159606934,
-      "learning_rate": 4.704813805631245e-05,
-      "loss": 1.2718,
       "step": 190
     },
     {
-      "epoch": 1.951219512195122,
-      "grad_norm": 11.228482246398926,
-      "learning_rate": 4.659400544959128e-05,
-      "loss": 1.1889,
       "step": 200
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.5087235996326905,
-      "eval_f1": 0.5190802114624434,
-      "eval_loss": 1.1037839651107788,
-      "eval_precision": 0.5564617175099487,
-      "eval_recall": 0.5087235996326905,
-      "eval_runtime": 10.5165,
-      "eval_samples_per_second": 103.551,
-      "eval_steps_per_second": 6.561,
-      "step": 205
     },
     {
-      "epoch": 2.048780487804878,
-      "grad_norm": 8.938887596130371,
-      "learning_rate": 4.613987284287012e-05,
-      "loss": 1.1869,
       "step": 210
     },
     {
-      "epoch": 2.1463414634146343,
-      "grad_norm": 8.932198524475098,
-      "learning_rate": 4.5685740236148955e-05,
-      "loss": 1.208,
       "step": 220
     },
     {
-      "epoch": 2.2439024390243905,
-      "grad_norm": 5.741872787475586,
-      "learning_rate": 4.52316076294278e-05,
-      "loss": 1.2029,
       "step": 230
     },
     {
-      "epoch": 2.341463414634146,
-      "grad_norm": 8.091480255126953,
-      "learning_rate": 4.477747502270663e-05,
-      "loss": 1.19,
       "step": 240
     },
     {
-      "epoch": 2.4390243902439024,
-      "grad_norm": 7.227927207946777,
-      "learning_rate": 4.432334241598547e-05,
-      "loss": 1.2083,
       "step": 250
     },
     {
-      "epoch": 2.5365853658536586,
-      "grad_norm": 5.250303745269775,
-      "learning_rate": 4.3869209809264305e-05,
-      "loss": 1.1941,
       "step": 260
     },
     {
-      "epoch": 2.6341463414634148,
-      "grad_norm": 8.268411636352539,
-      "learning_rate": 4.341507720254315e-05,
-      "loss": 1.1783,
       "step": 270
     },
     {
-      "epoch": 2.7317073170731705,
-      "grad_norm": 6.347944259643555,
-      "learning_rate": 4.296094459582199e-05,
-      "loss": 1.1653,
       "step": 280
     },
     {
-      "epoch": 2.8292682926829267,
-      "grad_norm": 8.626900672912598,
-      "learning_rate": 4.250681198910082e-05,
-      "loss": 1.1733,
       "step": 290
     },
     {
-      "epoch": 2.926829268292683,
-      "grad_norm": 7.539112567901611,
-      "learning_rate": 4.2052679382379655e-05,
-      "loss": 1.215,
       "step": 300
     },
     {
-      "epoch": 2.995121951219512,
-      "eval_accuracy": 0.4830119375573921,
-      "eval_f1": 0.4794682324453807,
-      "eval_loss": 1.0810357332229614,
-      "eval_precision": 0.5588554246566038,
-      "eval_recall": 0.4830119375573921,
-      "eval_runtime": 10.5448,
-      "eval_samples_per_second": 103.274,
-      "eval_steps_per_second": 6.544,
-      "step": 307
-    },
-    {
-      "epoch": 3.024390243902439,
-      "grad_norm": 7.887587547302246,
-      "learning_rate": 4.159854677565849e-05,
-      "loss": 1.1419,
       "step": 310
     },
     {
-      "epoch": 3.1219512195121952,
-      "grad_norm": 8.143919944763184,
-      "learning_rate": 4.114441416893734e-05,
-      "loss": 1.1339,
       "step": 320
     },
     {
-      "epoch": 3.2195121951219514,
-      "grad_norm": 8.059014320373535,
-      "learning_rate": 4.069028156221617e-05,
-      "loss": 1.0966,
       "step": 330
     },
     {
-      "epoch": 3.317073170731707,
-      "grad_norm": 7.19610595703125,
-      "learning_rate": 4.0236148955495005e-05,
-      "loss": 1.1837,
       "step": 340
     },
     {
-      "epoch": 3.4146341463414633,
-      "grad_norm": 6.76222038269043,
-      "learning_rate": 3.978201634877384e-05,
-      "loss": 1.1768,
       "step": 350
     },
     {
-      "epoch": 3.5121951219512195,
-      "grad_norm": 6.472099781036377,
-      "learning_rate": 3.932788374205268e-05,
-      "loss": 1.1588,
       "step": 360
     },
     {
-      "epoch": 3.6097560975609757,
-      "grad_norm": 7.446631908416748,
-      "learning_rate": 3.887375113533152e-05,
-      "loss": 1.1531,
       "step": 370
     },
     {
-      "epoch": 3.7073170731707314,
-      "grad_norm": 7.529073238372803,
-      "learning_rate": 3.8419618528610355e-05,
-      "loss": 1.1203,
       "step": 380
     },
     {
-      "epoch": 3.8048780487804876,
-      "grad_norm": 8.24229907989502,
-      "learning_rate": 3.796548592188919e-05,
-      "loss": 1.1788,
       "step": 390
     },
     {
-      "epoch": 3.902439024390244,
-      "grad_norm": 5.0005412101745605,
-      "learning_rate": 3.751135331516803e-05,
-      "loss": 1.1577,
       "step": 400
     },
     {
-      "epoch": 4.0,
-      "grad_norm": 11.378023147583008,
-      "learning_rate": 3.705722070844687e-05,
-      "loss": 1.1062,
-      "step": 410
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.5619834710743802,
-      "eval_f1": 0.5281037322147313,
-      "eval_loss": 1.0103230476379395,
-      "eval_precision": 0.5357616363900534,
-      "eval_recall": 0.5619834710743802,
-      "eval_runtime": 10.5649,
-      "eval_samples_per_second": 103.077,
-      "eval_steps_per_second": 6.531,
       "step": 410
     },
     {
-      "epoch": 4.097560975609756,
-      "grad_norm": 7.739734172821045,
-      "learning_rate": 3.6603088101725705e-05,
-      "loss": 1.076,
       "step": 420
     },
     {
-      "epoch": 4.195121951219512,
-      "grad_norm": 6.631500244140625,
-      "learning_rate": 3.614895549500454e-05,
-      "loss": 1.1469,
       "step": 430
     },
     {
-      "epoch": 4.2926829268292686,
-      "grad_norm": 9.386627197265625,
-      "learning_rate": 3.569482288828338e-05,
-      "loss": 1.0905,
       "step": 440
     },
     {
-      "epoch": 4.390243902439025,
-      "grad_norm": 11.621010780334473,
-      "learning_rate": 3.524069028156222e-05,
-      "loss": 1.1032,
       "step": 450
     },
     {
-      "epoch": 4.487804878048781,
-      "grad_norm": 8.444263458251953,
-      "learning_rate": 3.4786557674841055e-05,
-      "loss": 1.1181,
       "step": 460
     },
     {
-      "epoch": 4.585365853658536,
-      "grad_norm": 8.17673110961914,
-      "learning_rate": 3.433242506811989e-05,
-      "loss": 1.116,
       "step": 470
     },
     {
-      "epoch": 4.682926829268292,
-      "grad_norm": 6.36055326461792,
-      "learning_rate": 3.387829246139873e-05,
-      "loss": 1.0976,
       "step": 480
     },
     {
-      "epoch": 4.780487804878049,
-      "grad_norm": 6.861799240112305,
-      "learning_rate": 3.342415985467757e-05,
-      "loss": 1.0847,
       "step": 490
     },
     {
-      "epoch": 4.878048780487805,
-      "grad_norm": 8.115589141845703,
-      "learning_rate": 3.2970027247956405e-05,
-      "loss": 1.1018,
       "step": 500
     },
     {
-      "epoch": 4.975609756097561,
-      "grad_norm": 10.135653495788574,
-      "learning_rate": 3.251589464123524e-05,
-      "loss": 1.089,
       "step": 510
     },
     {
-      "epoch": 4.995121951219512,
-      "eval_accuracy": 0.5344352617079889,
-      "eval_f1": 0.5440491210548923,
-      "eval_loss": 1.0458588600158691,
-      "eval_precision": 0.5719778943634586,
-      "eval_recall": 0.5344352617079889,
-      "eval_runtime": 10.4912,
-      "eval_samples_per_second": 103.801,
-      "eval_steps_per_second": 6.577,
-      "step": 512
-    },
-    {
-      "epoch": 5.073170731707317,
-      "grad_norm": 6.753456115722656,
-      "learning_rate": 3.206176203451408e-05,
-      "loss": 1.0425,
       "step": 520
     },
     {
-      "epoch": 5.170731707317073,
-      "grad_norm": 8.520686149597168,
-      "learning_rate": 3.160762942779292e-05,
-      "loss": 1.0978,
       "step": 530
     },
     {
-      "epoch": 5.2682926829268295,
-      "grad_norm": 9.387904167175293,
-      "learning_rate": 3.1153496821071755e-05,
-      "loss": 1.0495,
       "step": 540
     },
     {
-      "epoch": 5.365853658536586,
-      "grad_norm": 9.20468807220459,
-      "learning_rate": 3.069936421435059e-05,
-      "loss": 1.117,
       "step": 550
     },
     {
-      "epoch": 5.463414634146342,
-      "grad_norm": 11.512433052062988,
-      "learning_rate": 3.0245231607629433e-05,
-      "loss": 1.0678,
       "step": 560
     },
     {
-      "epoch": 5.560975609756097,
-      "grad_norm": 8.392121315002441,
-      "learning_rate": 2.9791099000908267e-05,
-      "loss": 1.0267,
       "step": 570
     },
     {
-      "epoch": 5.658536585365853,
-      "grad_norm": 10.961865425109863,
-      "learning_rate": 2.9336966394187105e-05,
-      "loss": 1.0381,
       "step": 580
     },
     {
-      "epoch": 5.7560975609756095,
-      "grad_norm": 6.7657599449157715,
-      "learning_rate": 2.888283378746594e-05,
-      "loss": 1.0351,
       "step": 590
     },
     {
-      "epoch": 5.853658536585366,
-      "grad_norm": 10.026562690734863,
-      "learning_rate": 2.8428701180744776e-05,
-      "loss": 1.0566,
       "step": 600
     },
     {
-      "epoch": 5.951219512195122,
-      "grad_norm": 10.82862663269043,
-      "learning_rate": 2.7974568574023617e-05,
-      "loss": 1.0335,
       "step": 610
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.5748393021120294,
-      "eval_f1": 0.5696724052779626,
-      "eval_loss": 0.9780603051185608,
-      "eval_precision": 0.5821729436076757,
-      "eval_recall": 0.5748393021120294,
-      "eval_runtime": 10.5116,
-      "eval_samples_per_second": 103.6,
-      "eval_steps_per_second": 6.564,
-      "step": 615
     },
     {
-      "epoch": 6.048780487804878,
-      "grad_norm": 10.993868827819824,
-      "learning_rate": 2.7520435967302455e-05,
-      "loss": 0.9885,
       "step": 620
     },
     {
-      "epoch": 6.146341463414634,
-      "grad_norm": 7.851088523864746,
-      "learning_rate": 2.7066303360581292e-05,
-      "loss": 1.0104,
       "step": 630
     },
     {
-      "epoch": 6.2439024390243905,
-      "grad_norm": 8.290712356567383,
-      "learning_rate": 2.6612170753860126e-05,
-      "loss": 0.992,
       "step": 640
     },
     {
-      "epoch": 6.341463414634147,
-      "grad_norm": 8.147354125976562,
-      "learning_rate": 2.6158038147138964e-05,
-      "loss": 1.0323,
       "step": 650
     },
     {
-      "epoch": 6.439024390243903,
-      "grad_norm": 8.147374153137207,
-      "learning_rate": 2.5703905540417805e-05,
-      "loss": 1.0089,
       "step": 660
     },
     {
-      "epoch": 6.536585365853659,
-      "grad_norm": 13.995866775512695,
-      "learning_rate": 2.5249772933696642e-05,
-      "loss": 1.0377,
       "step": 670
     },
     {
-      "epoch": 6.634146341463414,
-      "grad_norm": 10.2506685256958,
-      "learning_rate": 2.4795640326975476e-05,
-      "loss": 0.979,
       "step": 680
     },
     {
-      "epoch": 6.7317073170731705,
-      "grad_norm": 11.913418769836426,
-      "learning_rate": 2.4341507720254317e-05,
-      "loss": 0.9912,
       "step": 690
     },
     {
-      "epoch": 6.829268292682927,
-      "grad_norm": 8.07094669342041,
-      "learning_rate": 2.388737511353315e-05,
-      "loss": 1.0496,
       "step": 700
     },
     {
-      "epoch": 6.926829268292683,
-      "grad_norm": 11.005784034729004,
-      "learning_rate": 2.343324250681199e-05,
-      "loss": 1.0139,
       "step": 710
     },
     {
-      "epoch": 6.995121951219512,
-      "eval_accuracy": 0.559228650137741,
-      "eval_f1": 0.5604831098024555,
-      "eval_loss": 0.990472674369812,
-      "eval_precision": 0.5624792636698613,
-      "eval_recall": 0.559228650137741,
-      "eval_runtime": 10.478,
-      "eval_samples_per_second": 103.932,
-      "eval_steps_per_second": 6.585,
-      "step": 717
-    },
-    {
-      "epoch": 7.024390243902439,
-      "grad_norm": 7.640585899353027,
-      "learning_rate": 2.297910990009083e-05,
-      "loss": 1.0333,
       "step": 720
     },
     {
-      "epoch": 7.121951219512195,
-      "grad_norm": 10.462299346923828,
-      "learning_rate": 2.2524977293369664e-05,
-      "loss": 0.9744,
       "step": 730
     },
     {
-      "epoch": 7.219512195121951,
-      "grad_norm": 9.705671310424805,
-      "learning_rate": 2.2070844686648505e-05,
-      "loss": 0.9582,
       "step": 740
     },
     {
-      "epoch": 7.317073170731708,
-      "grad_norm": 7.699019908905029,
-      "learning_rate": 2.161671207992734e-05,
-      "loss": 0.979,
       "step": 750
     },
     {
-      "epoch": 7.414634146341464,
-      "grad_norm": 12.271793365478516,
-      "learning_rate": 2.1162579473206176e-05,
-      "loss": 0.9407,
       "step": 760
     },
     {
-      "epoch": 7.512195121951219,
-      "grad_norm": 8.415149688720703,
-      "learning_rate": 2.0708446866485014e-05,
-      "loss": 0.9282,
       "step": 770
     },
     {
-      "epoch": 7.609756097560975,
-      "grad_norm": 10.61991024017334,
-      "learning_rate": 2.025431425976385e-05,
-      "loss": 0.9563,
       "step": 780
     },
     {
-      "epoch": 7.7073170731707314,
-      "grad_norm": 7.090912818908691,
-      "learning_rate": 1.980018165304269e-05,
-      "loss": 0.9637,
       "step": 790
     },
     {
-      "epoch": 7.804878048780488,
-      "grad_norm": 11.96972370147705,
-      "learning_rate": 1.9346049046321526e-05,
-      "loss": 0.998,
       "step": 800
     },
     {
-      "epoch": 7.902439024390244,
-      "grad_norm": 8.186046600341797,
-      "learning_rate": 1.8891916439600364e-05,
-      "loss": 0.9622,
       "step": 810
     },
     {
-      "epoch": 8.0,
-      "grad_norm": 15.831442832946777,
-      "learning_rate": 1.84377838328792e-05,
-      "loss": 0.9047,
-      "step": 820
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.5629017447199265,
-      "eval_f1": 0.5524851150741983,
-      "eval_loss": 0.9877268075942993,
-      "eval_precision": 0.5482104981099638,
-      "eval_recall": 0.5629017447199265,
-      "eval_runtime": 10.4831,
-      "eval_samples_per_second": 103.882,
-      "eval_steps_per_second": 6.582,
-      "step": 820
-    },
-    {
-      "epoch": 8.097560975609756,
-      "grad_norm": 8.30269718170166,
-      "learning_rate": 1.798365122615804e-05,
-      "loss": 0.9005,
-      "step": 830
-    },
-    {
-      "epoch": 8.195121951219512,
-      "grad_norm": 10.962409973144531,
-      "learning_rate": 1.7529518619436876e-05,
-      "loss": 0.9167,
-      "step": 840
-    },
-    {
-      "epoch": 8.292682926829269,
-      "grad_norm": 8.846582412719727,
-      "learning_rate": 1.7075386012715714e-05,
-      "loss": 0.9393,
-      "step": 850
-    },
-    {
-      "epoch": 8.390243902439025,
-      "grad_norm": 10.282524108886719,
-      "learning_rate": 1.662125340599455e-05,
-      "loss": 0.9473,
-      "step": 860
-    },
-    {
-      "epoch": 8.487804878048781,
-      "grad_norm": 11.323814392089844,
-      "learning_rate": 1.616712079927339e-05,
-      "loss": 0.8695,
-      "step": 870
-    },
-    {
-      "epoch": 8.585365853658537,
-      "grad_norm": 10.95213794708252,
-      "learning_rate": 1.5712988192552226e-05,
-      "loss": 0.9257,
-      "step": 880
-    },
-    {
-      "epoch": 8.682926829268293,
-      "grad_norm": 11.248684883117676,
-      "learning_rate": 1.5258855585831064e-05,
-      "loss": 0.8916,
-      "step": 890
-    },
-    {
-      "epoch": 8.78048780487805,
-      "grad_norm": 10.221022605895996,
-      "learning_rate": 1.48047229791099e-05,
-      "loss": 0.8961,
-      "step": 900
-    },
-    {
-      "epoch": 8.878048780487806,
-      "grad_norm": 8.226391792297363,
-      "learning_rate": 1.4350590372388739e-05,
-      "loss": 0.8783,
-      "step": 910
-    },
-    {
-      "epoch": 8.975609756097562,
-      "grad_norm": 9.135197639465332,
-      "learning_rate": 1.3896457765667576e-05,
-      "loss": 0.8856,
-      "step": 920
-    },
-    {
-      "epoch": 8.995121951219513,
-      "eval_accuracy": 0.5564738292011019,
-      "eval_f1": 0.556882933826955,
-      "eval_loss": 1.0059682130813599,
-      "eval_precision": 0.5592586252036796,
-      "eval_recall": 0.5564738292011019,
-      "eval_runtime": 10.5466,
-      "eval_samples_per_second": 103.256,
-      "eval_steps_per_second": 6.542,
-      "step": 922
-    },
-    {
-      "epoch": 9.073170731707316,
-      "grad_norm": 11.500414848327637,
-      "learning_rate": 1.3442325158946412e-05,
-      "loss": 0.8476,
-      "step": 930
-    },
-    {
-      "epoch": 9.170731707317072,
-      "grad_norm": 11.68885612487793,
-      "learning_rate": 1.2988192552225251e-05,
-      "loss": 0.869,
-      "step": 940
-    },
-    {
-      "epoch": 9.268292682926829,
-      "grad_norm": 9.877538681030273,
-      "learning_rate": 1.2534059945504087e-05,
-      "loss": 0.8572,
-      "step": 950
-    },
-    {
-      "epoch": 9.365853658536585,
-      "grad_norm": 11.605177879333496,
-      "learning_rate": 1.2079927338782924e-05,
-      "loss": 0.8434,
-      "step": 960
-    },
-    {
-      "epoch": 9.463414634146341,
-      "grad_norm": 10.330570220947266,
-      "learning_rate": 1.1625794732061762e-05,
-      "loss": 0.894,
-      "step": 970
-    },
-    {
-      "epoch": 9.560975609756097,
-      "grad_norm": 9.849478721618652,
-      "learning_rate": 1.11716621253406e-05,
-      "loss": 0.894,
-      "step": 980
-    },
-    {
-      "epoch": 9.658536585365853,
-      "grad_norm": 9.98214340209961,
-      "learning_rate": 1.0717529518619437e-05,
-      "loss": 0.8652,
-      "step": 990
-    },
-    {
-      "epoch": 9.75609756097561,
-      "grad_norm": 9.999092102050781,
-      "learning_rate": 1.0263396911898274e-05,
-      "loss": 0.8855,
-      "step": 1000
-    },
-    {
-      "epoch": 9.853658536585366,
-      "grad_norm": 10.021332740783691,
-      "learning_rate": 9.809264305177112e-06,
-      "loss": 0.8754,
-      "step": 1010
-    },
-    {
-      "epoch": 9.951219512195122,
-      "grad_norm": 10.624610900878906,
-      "learning_rate": 9.35513169845595e-06,
-      "loss": 0.8306,
-      "step": 1020
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.566574839302112,
-      "eval_f1": 0.5574087205222212,
-      "eval_loss": 0.9907031655311584,
-      "eval_precision": 0.5531200477134914,
-      "eval_recall": 0.566574839302112,
-      "eval_runtime": 10.5011,
-      "eval_samples_per_second": 103.703,
-      "eval_steps_per_second": 6.571,
-      "step": 1025
-    },
-    {
-      "epoch": 10.048780487804878,
-      "grad_norm": 9.162467956542969,
-      "learning_rate": 8.900999091734787e-06,
-      "loss": 0.8177,
-      "step": 1030
-    },
-    {
-      "epoch": 10.146341463414634,
-      "grad_norm": 9.493200302124023,
-      "learning_rate": 8.446866485013624e-06,
-      "loss": 0.7632,
-      "step": 1040
-    },
-    {
-      "epoch": 10.24390243902439,
-      "grad_norm": 9.642596244812012,
-      "learning_rate": 7.992733878292462e-06,
-      "loss": 0.7732,
-      "step": 1050
-    },
-    {
-      "epoch": 10.341463414634147,
-      "grad_norm": 11.928635597229004,
-      "learning_rate": 7.538601271571299e-06,
-      "loss": 0.7979,
-      "step": 1060
-    },
-    {
-      "epoch": 10.439024390243903,
-      "grad_norm": 9.884861946105957,
-      "learning_rate": 7.084468664850137e-06,
-      "loss": 0.834,
-      "step": 1070
-    },
-    {
-      "epoch": 10.536585365853659,
-      "grad_norm": 10.674219131469727,
-      "learning_rate": 6.6303360581289735e-06,
-      "loss": 0.83,
-      "step": 1080
-    },
-    {
-      "epoch": 10.634146341463415,
-      "grad_norm": 11.04780387878418,
-      "learning_rate": 6.176203451407812e-06,
-      "loss": 0.8157,
-      "step": 1090
-    },
-    {
-      "epoch": 10.731707317073171,
-      "grad_norm": 11.664216995239258,
-      "learning_rate": 5.7220708446866485e-06,
-      "loss": 0.8041,
-      "step": 1100
-    },
-    {
-      "epoch": 10.829268292682928,
-      "grad_norm": 11.164298057556152,
-      "learning_rate": 5.267938237965486e-06,
-      "loss": 0.7685,
-      "step": 1110
-    },
-    {
-      "epoch": 10.926829268292684,
-      "grad_norm": 11.851963996887207,
-      "learning_rate": 4.813805631244324e-06,
-      "loss": 0.8458,
-      "step": 1120
-    },
-    {
-      "epoch": 10.995121951219513,
-      "eval_accuracy": 0.5500459136822773,
-      "eval_f1": 0.5489227474870219,
-      "eval_loss": 1.0134857892990112,
-      "eval_precision": 0.5505838083040273,
-      "eval_recall": 0.5500459136822773,
-      "eval_runtime": 10.4709,
-      "eval_samples_per_second": 104.003,
-      "eval_steps_per_second": 6.59,
-      "step": 1127
-    },
-    {
-      "epoch": 11.024390243902438,
-      "grad_norm": 9.90632438659668,
-      "learning_rate": 4.359673024523161e-06,
-      "loss": 0.7881,
-      "step": 1130
-    },
-    {
-      "epoch": 11.121951219512194,
-      "grad_norm": 11.564204216003418,
-      "learning_rate": 3.9055404178019984e-06,
-      "loss": 0.7449,
-      "step": 1140
-    },
-    {
-      "epoch": 11.21951219512195,
-      "grad_norm": 10.323161125183105,
-      "learning_rate": 3.451407811080836e-06,
-      "loss": 0.7865,
-      "step": 1150
-    },
-    {
-      "epoch": 11.317073170731707,
-      "grad_norm": 11.201330184936523,
-      "learning_rate": 2.997275204359673e-06,
-      "loss": 0.781,
-      "step": 1160
-    },
-    {
-      "epoch": 11.414634146341463,
-      "grad_norm": 9.596723556518555,
-      "learning_rate": 2.5431425976385105e-06,
-      "loss": 0.7847,
-      "step": 1170
-    },
-    {
-      "epoch": 11.512195121951219,
-      "grad_norm": 10.385799407958984,
-      "learning_rate": 2.089009990917348e-06,
-      "loss": 0.8139,
-      "step": 1180
-    },
-    {
-      "epoch": 11.609756097560975,
-      "grad_norm": 12.413230895996094,
-      "learning_rate": 1.6348773841961852e-06,
-      "loss": 0.7824,
-      "step": 1190
-    },
-    {
-      "epoch": 11.707317073170731,
-      "grad_norm": 10.438215255737305,
-      "learning_rate": 1.1807447774750227e-06,
-      "loss": 0.7464,
-      "step": 1200
-    },
-    {
-      "epoch": 11.804878048780488,
-      "grad_norm": 10.087923049926758,
-      "learning_rate": 7.266121707538601e-07,
-      "loss": 0.8032,
-      "step": 1210
-    },
-    {
-      "epoch": 11.902439024390244,
-      "grad_norm": 10.667466163635254,
-      "learning_rate": 2.7247956403269756e-07,
-      "loss": 0.815,
-      "step": 1220
-    },
-    {
-      "epoch": 11.941463414634146,
-      "eval_accuracy": 0.549127640036731,
-      "eval_f1": 0.5520258447427934,
-      "eval_loss": 1.0185083150863647,
-      "eval_precision": 0.5558049078671707,
-      "eval_recall": 0.549127640036731,
-      "eval_runtime": 10.5534,
-      "eval_samples_per_second": 103.19,
-      "eval_steps_per_second": 6.538,
-      "step": 1224
-    },
-    {
-      "epoch": 11.941463414634146,
-      "step": 1224,
-      "total_flos": 6.197635483154842e+18,
-      "train_loss": 1.0363535090209612,
-      "train_runtime": 3088.0708,
-      "train_samples_per_second": 25.461,
-      "train_steps_per_second": 0.396
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1224,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 12,
   "save_steps": 500,
@@ -1033,7 +746,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.197635483154842e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5932047750229569,
+  "best_model_checkpoint": "convnextv2-base-22k-224-finetuned-tekno24/checkpoint-614",
+  "epoch": 11.956043956043956,
   "eval_steps": 500,
+  "global_step": 816,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.14652014652014653,
+      "grad_norm": 16.747648239135742,
+      "learning_rate": 6.0975609756097564e-06,
+      "loss": 1.4185,
       "step": 10
     },
     {
+      "epoch": 0.29304029304029305,
+      "grad_norm": 14.544577598571777,
+      "learning_rate": 1.2195121951219513e-05,
+      "loss": 1.4153,
       "step": 20
     },
     {
+      "epoch": 0.43956043956043955,
+      "grad_norm": 12.55716323852539,
+      "learning_rate": 1.8292682926829268e-05,
+      "loss": 1.3581,
       "step": 30
     },
     {
+      "epoch": 0.5860805860805861,
+      "grad_norm": 16.329694747924805,
+      "learning_rate": 2.378048780487805e-05,
+      "loss": 1.3421,
       "step": 40
     },
     {
+      "epoch": 0.7326007326007326,
+      "grad_norm": 9.924437522888184,
+      "learning_rate": 2.9878048780487805e-05,
+      "loss": 1.3174,
       "step": 50
     },
     {
+      "epoch": 0.8791208791208791,
+      "grad_norm": 8.243997573852539,
+      "learning_rate": 3.597560975609756e-05,
+      "loss": 1.2755,
       "step": 60
     },
     {
+      "epoch": 0.9963369963369964,
+      "eval_accuracy": 0.4903581267217631,
+      "eval_f1": 0.39101576597192117,
+      "eval_loss": 1.2008219957351685,
+      "eval_precision": 0.45771669331368264,
+      "eval_recall": 0.4903581267217631,
+      "eval_runtime": 10.5546,
+      "eval_samples_per_second": 103.178,
+      "eval_steps_per_second": 6.537,
+      "step": 68
+    },
+    {
+      "epoch": 1.0256410256410255,
+      "grad_norm": 13.558063507080078,
+      "learning_rate": 4.207317073170732e-05,
+      "loss": 1.2711,
       "step": 70
     },
     {
+      "epoch": 1.1721611721611722,
+      "grad_norm": 27.544034957885742,
+      "learning_rate": 4.817073170731707e-05,
+      "loss": 1.2731,
       "step": 80
     },
     {
+      "epoch": 1.3186813186813187,
+      "grad_norm": 12.061452865600586,
+      "learning_rate": 4.952316076294278e-05,
+      "loss": 1.2582,
       "step": 90
     },
     {
+      "epoch": 1.4652014652014653,
+      "grad_norm": 13.313647270202637,
+      "learning_rate": 4.884196185286104e-05,
+      "loss": 1.2729,
       "step": 100
     },
     {
+      "epoch": 1.6117216117216118,
+      "grad_norm": 8.85893440246582,
+      "learning_rate": 4.816076294277929e-05,
+      "loss": 1.2093,
       "step": 110
     },
     {
+      "epoch": 1.7582417582417582,
+      "grad_norm": 7.619632244110107,
+      "learning_rate": 4.747956403269755e-05,
+      "loss": 1.2445,
       "step": 120
     },
     {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 9.313189506530762,
+      "learning_rate": 4.6798365122615805e-05,
+      "loss": 1.1711,
       "step": 130
     },
     {
+      "epoch": 1.9926739926739927,
+      "eval_accuracy": 0.5353535353535354,
+      "eval_f1": 0.47656758341858724,
+      "eval_loss": 1.0650511980056763,
+      "eval_precision": 0.48653241546321574,
+      "eval_recall": 0.5353535353535354,
+      "eval_runtime": 10.5232,
+      "eval_samples_per_second": 103.486,
+      "eval_steps_per_second": 6.557,
+      "step": 136
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 9.400361061096191,
+      "learning_rate": 4.6117166212534065e-05,
+      "loss": 1.1145,
       "step": 140
     },
     {
+      "epoch": 2.197802197802198,
+      "grad_norm": 5.284915924072266,
+      "learning_rate": 4.543596730245232e-05,
+      "loss": 1.1809,
       "step": 150
     },
     {
+      "epoch": 2.3443223443223444,
+      "grad_norm": 10.18017292022705,
+      "learning_rate": 4.475476839237057e-05,
+      "loss": 1.1668,
       "step": 160
     },
     {
+      "epoch": 2.490842490842491,
+      "grad_norm": 7.79976224899292,
+      "learning_rate": 4.407356948228883e-05,
+      "loss": 1.1582,
       "step": 170
     },
     {
+      "epoch": 2.6373626373626373,
+      "grad_norm": 8.457806587219238,
+      "learning_rate": 4.339237057220708e-05,
+      "loss": 1.1628,
       "step": 180
     },
     {
+      "epoch": 2.7838827838827838,
+      "grad_norm": 6.220970630645752,
+      "learning_rate": 4.271117166212534e-05,
+      "loss": 1.2035,
       "step": 190
     },
     {
+      "epoch": 2.9304029304029307,
+      "grad_norm": 7.159059524536133,
+      "learning_rate": 4.20299727520436e-05,
+      "loss": 1.1599,
       "step": 200
     },
     {
+      "epoch": 2.989010989010989,
+      "eval_accuracy": 0.54178145087236,
+      "eval_f1": 0.5077316365087595,
+      "eval_loss": 1.0533095598220825,
+      "eval_precision": 0.5274645952658832,
+      "eval_recall": 0.54178145087236,
+      "eval_runtime": 10.5408,
+      "eval_samples_per_second": 103.313,
+      "eval_steps_per_second": 6.546,
+      "step": 204
     },
     {
+      "epoch": 3.076923076923077,
+      "grad_norm": 5.542409896850586,
+      "learning_rate": 4.1348773841961855e-05,
+      "loss": 1.1692,
       "step": 210
     },
     {
+      "epoch": 3.2234432234432235,
+      "grad_norm": 7.356290340423584,
+      "learning_rate": 4.066757493188011e-05,
+      "loss": 1.1176,
       "step": 220
     },
     {
+      "epoch": 3.36996336996337,
+      "grad_norm": 6.849288463592529,
+      "learning_rate": 3.998637602179837e-05,
+      "loss": 1.1335,
       "step": 230
     },
     {
+      "epoch": 3.5164835164835164,
+      "grad_norm": 11.968345642089844,
+      "learning_rate": 3.930517711171662e-05,
+      "loss": 1.14,
       "step": 240
     },
     {
+      "epoch": 3.663003663003663,
+      "grad_norm": 8.681733131408691,
+      "learning_rate": 3.862397820163488e-05,
+      "loss": 1.1195,
       "step": 250
     },
     {
+      "epoch": 3.8095238095238093,
+      "grad_norm": 8.258611679077148,
+      "learning_rate": 3.794277929155314e-05,
+      "loss": 1.1578,
       "step": 260
     },
     {
+      "epoch": 3.956043956043956,
+      "grad_norm": 9.197736740112305,
+      "learning_rate": 3.726158038147139e-05,
+      "loss": 1.1595,
       "step": 270
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5454545454545454,
+      "eval_f1": 0.5413509466694156,
+      "eval_loss": 1.0423349142074585,
+      "eval_precision": 0.5690587889084956,
+      "eval_recall": 0.5454545454545454,
+      "eval_runtime": 10.5435,
+      "eval_samples_per_second": 103.286,
+      "eval_steps_per_second": 6.544,
+      "step": 273
+    },
+    {
+      "epoch": 4.102564102564102,
+      "grad_norm": 7.987867832183838,
+      "learning_rate": 3.6580381471389645e-05,
+      "loss": 1.0988,
       "step": 280
     },
     {
+      "epoch": 4.249084249084249,
+      "grad_norm": 6.383251667022705,
+      "learning_rate": 3.5899182561307905e-05,
+      "loss": 1.1338,
       "step": 290
     },
     {
+      "epoch": 4.395604395604396,
+      "grad_norm": 7.749887943267822,
+      "learning_rate": 3.521798365122616e-05,
+      "loss": 1.1635,
       "step": 300
     },
     {
+      "epoch": 4.542124542124542,
+      "grad_norm": 9.830282211303711,
+      "learning_rate": 3.453678474114442e-05,
+      "loss": 1.0912,
       "step": 310
     },
     {
+      "epoch": 4.688644688644689,
+      "grad_norm": 9.785733222961426,
+      "learning_rate": 3.385558583106267e-05,
+      "loss": 1.1293,
       "step": 320
     },
     {
+      "epoch": 4.835164835164835,
+      "grad_norm": 9.794586181640625,
+      "learning_rate": 3.317438692098093e-05,
+      "loss": 1.0867,
       "step": 330
     },
     {
+      "epoch": 4.981684981684982,
+      "grad_norm": 5.60059928894043,
+      "learning_rate": 3.249318801089918e-05,
+      "loss": 1.096,
       "step": 340
     },
     {
+      "epoch": 4.996336996336996,
+      "eval_accuracy": 0.5610651974288338,
+      "eval_f1": 0.5462709659715219,
+      "eval_loss": 1.0159707069396973,
+      "eval_precision": 0.5419035604614381,
+      "eval_recall": 0.5610651974288338,
+      "eval_runtime": 10.5161,
+      "eval_samples_per_second": 103.556,
+      "eval_steps_per_second": 6.561,
+      "step": 341
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 6.809742450714111,
+      "learning_rate": 3.181198910081744e-05,
+      "loss": 1.071,
       "step": 350
     },
     {
+      "epoch": 5.274725274725275,
+      "grad_norm": 7.61679744720459,
+      "learning_rate": 3.1130790190735695e-05,
+      "loss": 1.1031,
       "step": 360
     },
     {
+      "epoch": 5.4212454212454215,
+      "grad_norm": 7.127725601196289,
+      "learning_rate": 3.0449591280653955e-05,
+      "loss": 1.0971,
       "step": 370
     },
     {
+      "epoch": 5.5677655677655675,
+      "grad_norm": 6.362829685211182,
+      "learning_rate": 2.9768392370572208e-05,
+      "loss": 1.1078,
       "step": 380
     },
     {
+      "epoch": 5.714285714285714,
+      "grad_norm": 8.149834632873535,
+      "learning_rate": 2.9087193460490464e-05,
+      "loss": 1.0871,
       "step": 390
     },
     {
+      "epoch": 5.860805860805861,
+      "grad_norm": 8.003039360046387,
+      "learning_rate": 2.840599455040872e-05,
+      "loss": 1.0592,
       "step": 400
     },
     {
+      "epoch": 5.992673992673993,
+      "eval_accuracy": 0.5766758494031221,
+      "eval_f1": 0.5414852771503386,
+      "eval_loss": 0.9847236275672913,
+      "eval_precision": 0.5484837093262834,
+      "eval_recall": 0.5766758494031221,
+      "eval_runtime": 10.5345,
+      "eval_samples_per_second": 103.374,
+      "eval_steps_per_second": 6.55,
+      "step": 409
     },
     {
+      "epoch": 6.007326007326007,
+      "grad_norm": 9.939899444580078,
+      "learning_rate": 2.772479564032698e-05,
+      "loss": 1.0573,
       "step": 410
     },
     {
+      "epoch": 6.153846153846154,
+      "grad_norm": 8.810173988342285,
+      "learning_rate": 2.7043596730245236e-05,
+      "loss": 1.038,
       "step": 420
     },
     {
+      "epoch": 6.3003663003663,
+      "grad_norm": 9.228567123413086,
+      "learning_rate": 2.6362397820163485e-05,
+      "loss": 1.0441,
       "step": 430
     },
     {
+      "epoch": 6.446886446886447,
+      "grad_norm": 10.357806205749512,
+      "learning_rate": 2.5681198910081745e-05,
+      "loss": 1.0313,
       "step": 440
     },
     {
+      "epoch": 6.593406593406593,
+      "grad_norm": 6.874061584472656,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0667,
       "step": 450
     },
     {
+      "epoch": 6.73992673992674,
+      "grad_norm": 10.741703987121582,
+      "learning_rate": 2.4318801089918257e-05,
+      "loss": 1.0353,
       "step": 460
     },
     {
+      "epoch": 6.886446886446887,
+      "grad_norm": 7.215301513671875,
+      "learning_rate": 2.3637602179836514e-05,
+      "loss": 1.0706,
       "step": 470
     },
     {
+      "epoch": 6.989010989010989,
+      "eval_accuracy": 0.588613406795225,
+      "eval_f1": 0.5835655659113839,
+      "eval_loss": 0.9867706894874573,
+      "eval_precision": 0.5861531495568983,
+      "eval_recall": 0.588613406795225,
+      "eval_runtime": 10.5429,
+      "eval_samples_per_second": 103.292,
+      "eval_steps_per_second": 6.545,
+      "step": 477
+    },
+    {
+      "epoch": 7.032967032967033,
+      "grad_norm": 9.452975273132324,
+      "learning_rate": 2.295640326975477e-05,
+      "loss": 1.1093,
       "step": 480
     },
     {
+      "epoch": 7.17948717948718,
+      "grad_norm": 5.909883499145508,
+      "learning_rate": 2.2275204359673023e-05,
+      "loss": 1.0628,
       "step": 490
     },
     {
+      "epoch": 7.326007326007326,
+      "grad_norm": 8.430510520935059,
+      "learning_rate": 2.1594005449591282e-05,
+      "loss": 1.0175,
       "step": 500
     },
     {
+      "epoch": 7.472527472527473,
+      "grad_norm": 11.566703796386719,
+      "learning_rate": 2.091280653950954e-05,
+      "loss": 0.9975,
       "step": 510
     },
     {
+      "epoch": 7.619047619047619,
+      "grad_norm": 8.561046600341797,
+      "learning_rate": 2.023160762942779e-05,
+      "loss": 1.057,
       "step": 520
     },
     {
+      "epoch": 7.7655677655677655,
+      "grad_norm": 9.214874267578125,
+      "learning_rate": 1.955040871934605e-05,
+      "loss": 1.0085,
       "step": 530
     },
     {
+      "epoch": 7.912087912087912,
+      "grad_norm": 7.050257682800293,
+      "learning_rate": 1.8869209809264307e-05,
+      "loss": 1.0404,
       "step": 540
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5867768595041323,
+      "eval_f1": 0.5736657074074295,
+      "eval_loss": 0.9758484363555908,
+      "eval_precision": 0.5694509571644558,
+      "eval_recall": 0.5867768595041323,
+      "eval_runtime": 10.5054,
+      "eval_samples_per_second": 103.661,
+      "eval_steps_per_second": 6.568,
+      "step": 546
+    },
+    {
+      "epoch": 8.058608058608058,
+      "grad_norm": 9.406164169311523,
+      "learning_rate": 1.818801089918256e-05,
+      "loss": 1.0564,
       "step": 550
     },
     {
+      "epoch": 8.205128205128204,
+      "grad_norm": 8.063167572021484,
+      "learning_rate": 1.750681198910082e-05,
+      "loss": 1.0381,
       "step": 560
     },
     {
+      "epoch": 8.351648351648352,
+      "grad_norm": 7.877150535583496,
+      "learning_rate": 1.6825613079019073e-05,
+      "loss": 0.9996,
       "step": 570
     },
     {
+      "epoch": 8.498168498168498,
+      "grad_norm": 10.49506664276123,
+      "learning_rate": 1.614441416893733e-05,
+      "loss": 0.9723,
       "step": 580
     },
     {
+      "epoch": 8.644688644688644,
+      "grad_norm": 8.74528694152832,
+      "learning_rate": 1.546321525885559e-05,
+      "loss": 1.0267,
       "step": 590
     },
     {
+      "epoch": 8.791208791208792,
+      "grad_norm": 7.0554962158203125,
+      "learning_rate": 1.4782016348773841e-05,
+      "loss": 1.0251,
       "step": 600
     },
     {
+      "epoch": 8.937728937728938,
+      "grad_norm": 7.974668502807617,
+      "learning_rate": 1.41008174386921e-05,
+      "loss": 1.0059,
       "step": 610
     },
     {
+      "epoch": 8.996336996336996,
+      "eval_accuracy": 0.5932047750229569,
+      "eval_f1": 0.5674291939014156,
+      "eval_loss": 0.9468401074409485,
+      "eval_precision": 0.5709384462011384,
+      "eval_recall": 0.5932047750229569,
+      "eval_runtime": 10.4878,
+      "eval_samples_per_second": 103.835,
+      "eval_steps_per_second": 6.579,
+      "step": 614
     },
     {
+      "epoch": 9.084249084249084,
+      "grad_norm": 8.571954727172852,
+      "learning_rate": 1.3419618528610356e-05,
+      "loss": 0.9878,
       "step": 620
     },
     {
+      "epoch": 9.23076923076923,
+      "grad_norm": 8.298359870910645,
+      "learning_rate": 1.273841961852861e-05,
+      "loss": 1.0056,
       "step": 630
     },
     {
+      "epoch": 9.377289377289378,
+      "grad_norm": 7.087368965148926,
+      "learning_rate": 1.2057220708446868e-05,
+      "loss": 1.037,
       "step": 640
     },
     {
+      "epoch": 9.523809523809524,
+      "grad_norm": 7.409104347229004,
+      "learning_rate": 1.1376021798365123e-05,
+      "loss": 0.9326,
       "step": 650
     },
     {
+      "epoch": 9.67032967032967,
+      "grad_norm": 7.1452531814575195,
+      "learning_rate": 1.0694822888283379e-05,
+      "loss": 0.9723,
       "step": 660
     },
     {
+      "epoch": 9.816849816849818,
+      "grad_norm": 8.340729713439941,
+      "learning_rate": 1.0013623978201635e-05,
+      "loss": 0.9914,
       "step": 670
     },
     {
+      "epoch": 9.963369963369964,
+      "grad_norm": 10.698880195617676,
+      "learning_rate": 9.332425068119891e-06,
+      "loss": 0.965,
       "step": 680
     },
     {
+      "epoch": 9.992673992673993,
+      "eval_accuracy": 0.5932047750229569,
+      "eval_f1": 0.5804462637419235,
+      "eval_loss": 0.9565483331680298,
+      "eval_precision": 0.5857538351608745,
+      "eval_recall": 0.5932047750229569,
+      "eval_runtime": 10.4791,
+      "eval_samples_per_second": 103.921,
+      "eval_steps_per_second": 6.585,
+      "step": 682
+    },
+    {
+      "epoch": 10.10989010989011,
+      "grad_norm": 10.67618465423584,
+      "learning_rate": 8.651226158038147e-06,
+      "loss": 0.9732,
       "step": 690
     },
     {
+      "epoch": 10.256410256410255,
+      "grad_norm": 9.102426528930664,
+      "learning_rate": 7.970027247956404e-06,
+      "loss": 0.9804,
       "step": 700
     },
     {
+      "epoch": 10.402930402930403,
+      "grad_norm": 11.115556716918945,
+      "learning_rate": 7.288828337874659e-06,
+      "loss": 0.9855,
       "step": 710
     },
     {
+      "epoch": 10.54945054945055,
+      "grad_norm": 11.00426197052002,
+      "learning_rate": 6.607629427792916e-06,
+      "loss": 0.9691,
       "step": 720
     },
     {
+      "epoch": 10.695970695970695,
+      "grad_norm": 10.043339729309082,
+      "learning_rate": 5.9264305177111724e-06,
+      "loss": 0.9365,
       "step": 730
     },
     {
+      "epoch": 10.842490842490843,
+      "grad_norm": 11.518232345581055,
+      "learning_rate": 5.245231607629428e-06,
+      "loss": 0.9659,
       "step": 740
     },
     {
+      "epoch": 10.989010989010989,
+      "grad_norm": 9.314995765686035,
+      "learning_rate": 4.564032697547684e-06,
+      "loss": 0.9362,
+      "step": 750
+    },
+    {
+      "epoch": 10.989010989010989,
+      "eval_accuracy": 0.588613406795225,
+      "eval_f1": 0.5778239696801104,
+      "eval_loss": 0.9466218948364258,
+      "eval_precision": 0.5767647827506791,
+      "eval_recall": 0.588613406795225,
+      "eval_runtime": 10.5258,
+      "eval_samples_per_second": 103.46,
+      "eval_steps_per_second": 6.555,
       "step": 750
     },
     {
+      "epoch": 11.135531135531135,
+      "grad_norm": 10.667020797729492,
+      "learning_rate": 3.88283378746594e-06,
+      "loss": 0.9564,
       "step": 760
     },
     {
+      "epoch": 11.282051282051283,
+      "grad_norm": 10.923125267028809,
+      "learning_rate": 3.2016348773841965e-06,
+      "loss": 0.9177,
       "step": 770
     },
     {
+      "epoch": 11.428571428571429,
+      "grad_norm": 9.893692016601562,
+      "learning_rate": 2.5204359673024523e-06,
+      "loss": 0.9732,
       "step": 780
     },
     {
+      "epoch": 11.575091575091575,
+      "grad_norm": 8.784825325012207,
+      "learning_rate": 1.8392370572207086e-06,
+      "loss": 0.9558,
       "step": 790
     },
     {
+      "epoch": 11.72161172161172,
+      "grad_norm": 8.990778923034668,
+      "learning_rate": 1.1580381471389646e-06,
+      "loss": 0.9656,
       "step": 800
     },
     {
+      "epoch": 11.868131868131869,
+      "grad_norm": 8.444221496582031,
+      "learning_rate": 4.768392370572207e-07,
+      "loss": 0.9334,
       "step": 810
     },
     {
+      "epoch": 11.956043956043956,
+      "eval_accuracy": 0.5858585858585859,
+      "eval_f1": 0.5699572730591373,
+      "eval_loss": 0.9441593885421753,
+      "eval_precision": 0.5692451226403554,
+      "eval_recall": 0.5858585858585859,
+      "eval_runtime": 10.5926,
+      "eval_samples_per_second": 102.808,
+      "eval_steps_per_second": 6.514,
+      "step": 816
+    },
+    {
+      "epoch": 11.956043956043956,
+      "step": 816,
+      "total_flos": 4.123334853511373e+18,
+      "train_loss": 1.090085435147379,
+      "train_runtime": 2115.1144,
+      "train_samples_per_second": 24.697,
+      "train_steps_per_second": 0.386
     }
   ],
   "logging_steps": 10,
+  "max_steps": 816,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 12,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.123334853511373e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null