🍻 cheers

Browse files

Files changed (6) hide show

README.md +5 -4
all_results.json +12 -12
eval_results.json +7 -7
runs/Aug10_02-56-03_instance-camaras/events.out.tfevents.1754795221.instance-camaras +3 -0
train_results.json +6 -6
trainer_state.json +789 -1109

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/deit-base-distilled-patch16-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -17,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 # deit-CEMEDE
-This model is a fine-tuned version of [facebook/deit-base-distilled-patch16-224](https://huggingface.co/facebook/deit-base-distilled-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9955
-- Accuracy: 0.8008
-- F1: 0.8183
 ## Model description

 license: apache-2.0
 base_model: facebook/deit-base-distilled-patch16-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # deit-CEMEDE
+This model is a fine-tuned version of [facebook/deit-base-distilled-patch16-224](https://huggingface.co/facebook/deit-base-distilled-patch16-224) on the cemede dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8585
+- Accuracy: 0.7884
+- F1: 0.7973
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.8155016642891108,
-    "eval_f1": 0.7820920610319438,
-    "eval_loss": 0.8849401473999023,
-    "eval_runtime": 12.4391,
-    "eval_samples_per_second": 169.064,
-    "eval_steps_per_second": 21.143,
-    "total_flos": 1.611433851126866e+18,
-    "train_loss": 0.3103342184309776,
-    "train_runtime": 732.7839,
-    "train_samples_per_second": 70.928,
-    "train_steps_per_second": 8.87
 }

 {
+    "epoch": 1.6923076923076923,
+    "eval_accuracy": 0.7883975273418925,
+    "eval_f1": 0.7973086083953446,
+    "eval_loss": 0.8585250973701477,
+    "eval_runtime": 12.5738,
+    "eval_samples_per_second": 167.252,
+    "eval_steps_per_second": 20.916,
+    "total_flos": 1.3637892549580186e+18,
+    "train_loss": 0.3320726641470736,
+    "train_runtime": 627.5337,
+    "train_samples_per_second": 82.824,
+    "train_steps_per_second": 10.358
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.8155016642891108,
-    "eval_f1": 0.7820920610319438,
-    "eval_loss": 0.8849401473999023,
-    "eval_runtime": 12.4391,
-    "eval_samples_per_second": 169.064,
-    "eval_steps_per_second": 21.143
 }

 {
+    "epoch": 1.6923076923076923,
+    "eval_accuracy": 0.7883975273418925,
+    "eval_f1": 0.7973086083953446,
+    "eval_loss": 0.8585250973701477,
+    "eval_runtime": 12.5738,
+    "eval_samples_per_second": 167.252,
+    "eval_steps_per_second": 20.916
 }

runs/Aug10_02-56-03_instance-camaras/events.out.tfevents.1754795221.instance-camaras ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b42c9ea95e051e5bc8d73a868483da7b840faf76679b42cce2f3e9cbfbe3051
+size 40

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "total_flos": 1.611433851126866e+18,
-    "train_loss": 0.3103342184309776,
-    "train_runtime": 732.7839,
-    "train_samples_per_second": 70.928,
-    "train_steps_per_second": 8.87
 }

 {
+    "epoch": 1.6923076923076923,
+    "total_flos": 1.3637892549580186e+18,
+    "train_loss": 0.3320726641470736,
+    "train_runtime": 627.5337,
+    "train_samples_per_second": 82.824,
+    "train_steps_per_second": 10.358
 }

trainer_state.json CHANGED Viewed

@@ -1,2102 +1,1782 @@
 {
-  "best_global_step": 1600,
-  "best_metric": 0.8849401473999023,
-  "best_model_checkpoint": "./deit-CEMEDE/checkpoint-1600",
-  "epoch": 2.0,
   "eval_steps": 100,
-  "global_step": 2600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.007692307692307693,
-      "grad_norm": 14.492234230041504,
-      "learning_rate": 0.0001997846153846154,
-      "loss": 2.7483,
       "step": 10
     },
     {
       "epoch": 0.015384615384615385,
-      "grad_norm": 9.443517684936523,
-      "learning_rate": 0.00019947692307692308,
-      "loss": 1.914,
       "step": 20
     },
     {
       "epoch": 0.023076923076923078,
-      "grad_norm": 7.049248218536377,
-      "learning_rate": 0.00019916923076923078,
-      "loss": 1.3368,
       "step": 30
     },
     {
       "epoch": 0.03076923076923077,
-      "grad_norm": 14.415254592895508,
-      "learning_rate": 0.00019886153846153848,
-      "loss": 1.4175,
       "step": 40
     },
     {
       "epoch": 0.038461538461538464,
-      "grad_norm": 4.933824062347412,
-      "learning_rate": 0.00019855384615384615,
-      "loss": 0.8836,
       "step": 50
     },
     {
       "epoch": 0.046153846153846156,
-      "grad_norm": 8.808599472045898,
-      "learning_rate": 0.00019824615384615385,
-      "loss": 0.8803,
       "step": 60
     },
     {
       "epoch": 0.05384615384615385,
-      "grad_norm": 9.65746784210205,
-      "learning_rate": 0.00019793846153846154,
-      "loss": 0.9991,
       "step": 70
     },
     {
       "epoch": 0.06153846153846154,
-      "grad_norm": 19.919265747070312,
-      "learning_rate": 0.00019763076923076924,
-      "loss": 1.039,
       "step": 80
     },
     {
       "epoch": 0.06923076923076923,
-      "grad_norm": 8.035650253295898,
-      "learning_rate": 0.0001973230769230769,
-      "loss": 0.6571,
       "step": 90
     },
     {
       "epoch": 0.07692307692307693,
-      "grad_norm": 11.841368675231934,
-      "learning_rate": 0.00019701538461538464,
-      "loss": 0.8285,
       "step": 100
     },
     {
       "epoch": 0.07692307692307693,
-      "eval_accuracy": 0.5468378506894912,
-      "eval_f1": 0.35243936126182984,
-      "eval_loss": 1.523919701576233,
-      "eval_runtime": 12.5719,
-      "eval_samples_per_second": 167.277,
-      "eval_steps_per_second": 20.92,
       "step": 100
     },
     {
       "epoch": 0.08461538461538462,
-      "grad_norm": 8.712408065795898,
-      "learning_rate": 0.00019670769230769233,
-      "loss": 0.9902,
       "step": 110
     },
     {
       "epoch": 0.09230769230769231,
-      "grad_norm": 23.094526290893555,
-      "learning_rate": 0.0001964,
-      "loss": 0.7044,
       "step": 120
     },
     {
       "epoch": 0.1,
-      "grad_norm": 15.830307960510254,
-      "learning_rate": 0.0001960923076923077,
-      "loss": 0.5335,
       "step": 130
     },
     {
       "epoch": 0.1076923076923077,
-      "grad_norm": 14.117691040039062,
-      "learning_rate": 0.0001957846153846154,
-      "loss": 0.69,
       "step": 140
     },
     {
       "epoch": 0.11538461538461539,
-      "grad_norm": 9.931026458740234,
-      "learning_rate": 0.0001954769230769231,
-      "loss": 0.7231,
       "step": 150
     },
     {
       "epoch": 0.12307692307692308,
-      "grad_norm": 4.095664978027344,
-      "learning_rate": 0.00019516923076923077,
-      "loss": 0.5577,
       "step": 160
     },
     {
       "epoch": 0.13076923076923078,
-      "grad_norm": 7.839579105377197,
-      "learning_rate": 0.00019486153846153846,
-      "loss": 0.2998,
       "step": 170
     },
     {
       "epoch": 0.13846153846153847,
-      "grad_norm": 9.043660163879395,
-      "learning_rate": 0.00019455384615384616,
-      "loss": 0.5577,
       "step": 180
     },
     {
       "epoch": 0.14615384615384616,
-      "grad_norm": 14.179769515991211,
-      "learning_rate": 0.00019424615384615386,
-      "loss": 0.8946,
       "step": 190
     },
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 5.835270881652832,
-      "learning_rate": 0.00019393846153846155,
-      "loss": 0.6238,
       "step": 200
     },
     {
       "epoch": 0.15384615384615385,
-      "eval_accuracy": 0.6880646695197337,
-      "eval_f1": 0.6395354639429841,
-      "eval_loss": 1.2642189264297485,
-      "eval_runtime": 12.5255,
-      "eval_samples_per_second": 167.898,
-      "eval_steps_per_second": 20.997,
       "step": 200
     },
     {
       "epoch": 0.16153846153846155,
-      "grad_norm": 9.955816268920898,
-      "learning_rate": 0.00019363076923076923,
-      "loss": 0.2387,
       "step": 210
     },
     {
       "epoch": 0.16923076923076924,
-      "grad_norm": 18.43828773498535,
-      "learning_rate": 0.00019332307692307695,
-      "loss": 0.9951,
       "step": 220
     },
     {
       "epoch": 0.17692307692307693,
-      "grad_norm": 12.050088882446289,
-      "learning_rate": 0.00019301538461538462,
-      "loss": 0.4487,
       "step": 230
     },
     {
       "epoch": 0.18461538461538463,
-      "grad_norm": 4.2351155281066895,
-      "learning_rate": 0.00019270769230769232,
-      "loss": 0.6186,
       "step": 240
     },
     {
       "epoch": 0.19230769230769232,
-      "grad_norm": 3.6490843296051025,
-      "learning_rate": 0.00019240000000000001,
-      "loss": 0.7701,
       "step": 250
     },
     {
       "epoch": 0.2,
-      "grad_norm": 8.663690567016602,
-      "learning_rate": 0.0001920923076923077,
-      "loss": 0.3304,
       "step": 260
     },
     {
       "epoch": 0.2076923076923077,
-      "grad_norm": 6.940672874450684,
-      "learning_rate": 0.00019178461538461538,
-      "loss": 0.622,
       "step": 270
     },
     {
       "epoch": 0.2153846153846154,
-      "grad_norm": 8.70635986328125,
-      "learning_rate": 0.00019147692307692308,
-      "loss": 0.5354,
       "step": 280
     },
     {
       "epoch": 0.2230769230769231,
-      "grad_norm": 1.5922820568084717,
-      "learning_rate": 0.00019116923076923078,
-      "loss": 0.681,
       "step": 290
     },
     {
       "epoch": 0.23076923076923078,
-      "grad_norm": 10.358661651611328,
-      "learning_rate": 0.00019086153846153847,
-      "loss": 0.3715,
       "step": 300
     },
     {
       "epoch": 0.23076923076923078,
-      "eval_accuracy": 0.6723728007608178,
-      "eval_f1": 0.5919683394883382,
-      "eval_loss": 1.1914079189300537,
-      "eval_runtime": 12.5128,
-      "eval_samples_per_second": 168.067,
-      "eval_steps_per_second": 21.018,
       "step": 300
     },
     {
       "epoch": 0.23846153846153847,
-      "grad_norm": 12.635391235351562,
-      "learning_rate": 0.00019055384615384617,
-      "loss": 0.2776,
       "step": 310
     },
     {
       "epoch": 0.24615384615384617,
-      "grad_norm": 15.975918769836426,
-      "learning_rate": 0.00019024615384615384,
-      "loss": 0.469,
       "step": 320
     },
     {
       "epoch": 0.25384615384615383,
-      "grad_norm": 21.361492156982422,
-      "learning_rate": 0.00018993846153846157,
-      "loss": 0.3723,
       "step": 330
     },
     {
       "epoch": 0.26153846153846155,
-      "grad_norm": 6.521085739135742,
-      "learning_rate": 0.00018963076923076924,
-      "loss": 0.7115,
       "step": 340
     },
     {
       "epoch": 0.2692307692307692,
-      "grad_norm": 8.805971145629883,
-      "learning_rate": 0.00018932307692307693,
-      "loss": 0.4367,
       "step": 350
     },
     {
       "epoch": 0.27692307692307694,
-      "grad_norm": 8.943021774291992,
-      "learning_rate": 0.0001890153846153846,
-      "loss": 0.737,
       "step": 360
     },
     {
       "epoch": 0.2846153846153846,
-      "grad_norm": 11.837237358093262,
-      "learning_rate": 0.00018870769230769233,
-      "loss": 0.6266,
       "step": 370
     },
     {
       "epoch": 0.2923076923076923,
-      "grad_norm": 6.2347235679626465,
-      "learning_rate": 0.0001884,
-      "loss": 0.5612,
       "step": 380
     },
     {
       "epoch": 0.3,
-      "grad_norm": 4.176232814788818,
-      "learning_rate": 0.0001880923076923077,
-      "loss": 0.5348,
       "step": 390
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 7.420060634613037,
-      "learning_rate": 0.0001877846153846154,
-      "loss": 0.4736,
       "step": 400
     },
     {
       "epoch": 0.3076923076923077,
-      "eval_accuracy": 0.7137422729434142,
-      "eval_f1": 0.6850347529661042,
-      "eval_loss": 1.140069603919983,
-      "eval_runtime": 12.5717,
-      "eval_samples_per_second": 167.281,
-      "eval_steps_per_second": 20.92,
       "step": 400
     },
     {
       "epoch": 0.3153846153846154,
-      "grad_norm": 21.14431381225586,
-      "learning_rate": 0.0001874769230769231,
-      "loss": 0.3025,
       "step": 410
     },
     {
       "epoch": 0.3230769230769231,
-      "grad_norm": 4.992921829223633,
-      "learning_rate": 0.0001871692307692308,
-      "loss": 0.4013,
       "step": 420
     },
     {
       "epoch": 0.33076923076923076,
-      "grad_norm": 2.906620740890503,
-      "learning_rate": 0.00018686153846153846,
-      "loss": 0.6153,
       "step": 430
     },
     {
       "epoch": 0.3384615384615385,
-      "grad_norm": 8.505741119384766,
-      "learning_rate": 0.00018655384615384616,
-      "loss": 0.4048,
       "step": 440
     },
     {
       "epoch": 0.34615384615384615,
-      "grad_norm": 1.9161285161972046,
-      "learning_rate": 0.00018624615384615385,
-      "loss": 0.36,
       "step": 450
     },
     {
       "epoch": 0.35384615384615387,
-      "grad_norm": 14.800432205200195,
-      "learning_rate": 0.00018593846153846155,
-      "loss": 0.557,
       "step": 460
     },
     {
       "epoch": 0.36153846153846153,
-      "grad_norm": 11.860761642456055,
-      "learning_rate": 0.00018563076923076922,
-      "loss": 0.3601,
       "step": 470
     },
     {
       "epoch": 0.36923076923076925,
-      "grad_norm": 1.1859639883041382,
-      "learning_rate": 0.00018532307692307694,
-      "loss": 0.2586,
       "step": 480
     },
     {
       "epoch": 0.3769230769230769,
-      "grad_norm": 6.978835582733154,
-      "learning_rate": 0.00018501538461538464,
-      "loss": 0.2885,
       "step": 490
     },
     {
       "epoch": 0.38461538461538464,
-      "grad_norm": 0.2397751659154892,
-      "learning_rate": 0.0001847076923076923,
-      "loss": 0.382,
       "step": 500
     },
     {
       "epoch": 0.38461538461538464,
-      "eval_accuracy": 0.6504992867332382,
-      "eval_f1": 0.6265039413087525,
-      "eval_loss": 1.5841457843780518,
-      "eval_runtime": 12.5458,
-      "eval_samples_per_second": 167.625,
-      "eval_steps_per_second": 20.963,
       "step": 500
     },
     {
       "epoch": 0.3923076923076923,
-      "grad_norm": 14.071270942687988,
-      "learning_rate": 0.0001844,
-      "loss": 0.4412,
       "step": 510
     },
     {
       "epoch": 0.4,
-      "grad_norm": 2.5233845710754395,
-      "learning_rate": 0.0001840923076923077,
-      "loss": 0.3486,
       "step": 520
     },
     {
       "epoch": 0.4076923076923077,
-      "grad_norm": 8.451884269714355,
-      "learning_rate": 0.0001837846153846154,
-      "loss": 0.3113,
       "step": 530
     },
     {
       "epoch": 0.4153846153846154,
-      "grad_norm": 6.481016159057617,
-      "learning_rate": 0.00018347692307692307,
-      "loss": 0.4551,
       "step": 540
     },
     {
       "epoch": 0.4230769230769231,
-      "grad_norm": 9.866789817810059,
-      "learning_rate": 0.00018316923076923077,
-      "loss": 0.5613,
       "step": 550
     },
     {
       "epoch": 0.4307692307692308,
-      "grad_norm": 0.32447025179862976,
-      "learning_rate": 0.00018286153846153847,
-      "loss": 0.4739,
       "step": 560
     },
     {
       "epoch": 0.43846153846153846,
-      "grad_norm": 0.5857470631599426,
-      "learning_rate": 0.00018255384615384617,
-      "loss": 0.4318,
       "step": 570
     },
     {
       "epoch": 0.4461538461538462,
-      "grad_norm": 9.131505966186523,
-      "learning_rate": 0.00018224615384615384,
-      "loss": 0.2337,
       "step": 580
     },
     {
       "epoch": 0.45384615384615384,
-      "grad_norm": 7.286001205444336,
-      "learning_rate": 0.00018193846153846153,
-      "loss": 0.2116,
       "step": 590
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 2.5808300971984863,
-      "learning_rate": 0.00018163076923076926,
-      "loss": 0.5738,
       "step": 600
     },
     {
       "epoch": 0.46153846153846156,
-      "eval_accuracy": 0.6932952924393724,
-      "eval_f1": 0.6330824959687575,
-      "eval_loss": 1.3199223279953003,
-      "eval_runtime": 12.5804,
-      "eval_samples_per_second": 167.165,
-      "eval_steps_per_second": 20.906,
       "step": 600
     },
     {
       "epoch": 0.46923076923076923,
-      "grad_norm": 1.627287745475769,
-      "learning_rate": 0.00018132307692307693,
-      "loss": 0.1588,
       "step": 610
     },
     {
       "epoch": 0.47692307692307695,
-      "grad_norm": 15.70780086517334,
-      "learning_rate": 0.00018101538461538463,
-      "loss": 0.2552,
       "step": 620
     },
     {
       "epoch": 0.4846153846153846,
-      "grad_norm": 11.650376319885254,
-      "learning_rate": 0.00018070769230769232,
-      "loss": 0.3532,
       "step": 630
     },
     {
       "epoch": 0.49230769230769234,
-      "grad_norm": 9.004545211791992,
-      "learning_rate": 0.00018040000000000002,
-      "loss": 0.3774,
       "step": 640
     },
     {
       "epoch": 0.5,
-      "grad_norm": 6.5288801193237305,
-      "learning_rate": 0.0001800923076923077,
-      "loss": 0.4177,
       "step": 650
     },
     {
       "epoch": 0.5076923076923077,
-      "grad_norm": 6.529111385345459,
-      "learning_rate": 0.0001797846153846154,
-      "loss": 0.3681,
       "step": 660
     },
     {
       "epoch": 0.5153846153846153,
-      "grad_norm": 16.29365348815918,
-      "learning_rate": 0.00017947692307692309,
-      "loss": 0.4766,
       "step": 670
     },
     {
       "epoch": 0.5230769230769231,
-      "grad_norm": 2.9953908920288086,
-      "learning_rate": 0.00017916923076923078,
-      "loss": 0.217,
       "step": 680
     },
     {
       "epoch": 0.5307692307692308,
-      "grad_norm": 9.404020309448242,
-      "learning_rate": 0.00017886153846153848,
-      "loss": 0.3664,
       "step": 690
     },
     {
       "epoch": 0.5384615384615384,
-      "grad_norm": 0.16106829047203064,
-      "learning_rate": 0.00017855384615384615,
-      "loss": 0.2276,
       "step": 700
     },
     {
       "epoch": 0.5384615384615384,
-      "eval_accuracy": 0.7517831669044223,
-      "eval_f1": 0.7259228279152882,
-      "eval_loss": 1.0970804691314697,
-      "eval_runtime": 12.6544,
-      "eval_samples_per_second": 166.187,
-      "eval_steps_per_second": 20.783,
       "step": 700
     },
     {
       "epoch": 0.5461538461538461,
-      "grad_norm": 14.301560401916504,
-      "learning_rate": 0.00017824615384615388,
-      "loss": 0.4534,
       "step": 710
     },
     {
       "epoch": 0.5538461538461539,
-      "grad_norm": 10.59310245513916,
-      "learning_rate": 0.00017793846153846155,
-      "loss": 0.2536,
       "step": 720
     },
     {
       "epoch": 0.5615384615384615,
-      "grad_norm": 6.413036346435547,
-      "learning_rate": 0.00017763076923076924,
-      "loss": 0.4327,
       "step": 730
     },
     {
       "epoch": 0.5692307692307692,
-      "grad_norm": 0.8140048384666443,
-      "learning_rate": 0.0001773230769230769,
-      "loss": 0.3722,
       "step": 740
     },
     {
       "epoch": 0.5769230769230769,
-      "grad_norm": 5.8807597160339355,
-      "learning_rate": 0.00017701538461538464,
-      "loss": 0.355,
       "step": 750
     },
     {
       "epoch": 0.5846153846153846,
-      "grad_norm": 3.7453725337982178,
-      "learning_rate": 0.0001767076923076923,
-      "loss": 0.3793,
       "step": 760
     },
     {
       "epoch": 0.5923076923076923,
-      "grad_norm": 28.321508407592773,
-      "learning_rate": 0.0001764,
-      "loss": 0.2802,
       "step": 770
     },
     {
       "epoch": 0.6,
-      "grad_norm": 10.241598129272461,
-      "learning_rate": 0.0001760923076923077,
-      "loss": 0.7753,
       "step": 780
     },
     {
       "epoch": 0.6076923076923076,
-      "grad_norm": 17.217174530029297,
-      "learning_rate": 0.0001757846153846154,
-      "loss": 0.2884,
       "step": 790
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 11.713438987731934,
-      "learning_rate": 0.0001754769230769231,
-      "loss": 0.3142,
       "step": 800
     },
     {
       "epoch": 0.6153846153846154,
-      "eval_accuracy": 0.7351402757964812,
-      "eval_f1": 0.7117245960074927,
-      "eval_loss": 1.2919145822525024,
-      "eval_runtime": 12.6264,
-      "eval_samples_per_second": 166.555,
-      "eval_steps_per_second": 20.829,
       "step": 800
     },
     {
       "epoch": 0.6230769230769231,
-      "grad_norm": 9.485101699829102,
-      "learning_rate": 0.00017516923076923077,
-      "loss": 0.3256,
       "step": 810
     },
     {
       "epoch": 0.6307692307692307,
-      "grad_norm": 4.645462512969971,
-      "learning_rate": 0.00017486153846153846,
-      "loss": 0.1156,
       "step": 820
     },
     {
       "epoch": 0.6384615384615384,
-      "grad_norm": 8.31661319732666,
-      "learning_rate": 0.00017455384615384616,
-      "loss": 0.2883,
       "step": 830
     },
     {
       "epoch": 0.6461538461538462,
-      "grad_norm": 9.54610824584961,
-      "learning_rate": 0.00017424615384615386,
-      "loss": 0.4546,
       "step": 840
     },
     {
       "epoch": 0.6538461538461539,
-      "grad_norm": 0.08736976981163025,
-      "learning_rate": 0.00017393846153846153,
-      "loss": 0.5806,
       "step": 850
     },
     {
       "epoch": 0.6615384615384615,
-      "grad_norm": 3.294229507446289,
-      "learning_rate": 0.00017363076923076925,
-      "loss": 0.4676,
       "step": 860
     },
     {
       "epoch": 0.6692307692307692,
-      "grad_norm": 2.508976936340332,
-      "learning_rate": 0.00017332307692307692,
-      "loss": 0.3833,
       "step": 870
     },
     {
       "epoch": 0.676923076923077,
-      "grad_norm": 4.155116558074951,
-      "learning_rate": 0.00017301538461538462,
-      "loss": 0.5317,
       "step": 880
     },
     {
       "epoch": 0.6846153846153846,
-      "grad_norm": 1.9500211477279663,
-      "learning_rate": 0.00017270769230769232,
-      "loss": 0.3115,
       "step": 890
     },
     {
       "epoch": 0.6923076923076923,
-      "grad_norm": 8.204526901245117,
-      "learning_rate": 0.00017240000000000002,
-      "loss": 0.1997,
       "step": 900
     },
     {
       "epoch": 0.6923076923076923,
-      "eval_accuracy": 0.698525915359011,
-      "eval_f1": 0.6896796828544773,
-      "eval_loss": 1.143184781074524,
-      "eval_runtime": 12.5409,
-      "eval_samples_per_second": 167.691,
-      "eval_steps_per_second": 20.971,
       "step": 900
     },
     {
       "epoch": 0.7,
-      "grad_norm": 0.08845722675323486,
-      "learning_rate": 0.00017209230769230771,
-      "loss": 0.3255,
       "step": 910
     },
     {
       "epoch": 0.7076923076923077,
-      "grad_norm": 0.24324318766593933,
-      "learning_rate": 0.00017178461538461538,
-      "loss": 0.1837,
       "step": 920
     },
     {
       "epoch": 0.7153846153846154,
-      "grad_norm": 9.8903169631958,
-      "learning_rate": 0.00017147692307692308,
-      "loss": 0.1985,
       "step": 930
     },
     {
       "epoch": 0.7230769230769231,
-      "grad_norm": 7.903842449188232,
-      "learning_rate": 0.00017116923076923078,
-      "loss": 0.237,
       "step": 940
     },
     {
       "epoch": 0.7307692307692307,
-      "grad_norm": 6.531442642211914,
-      "learning_rate": 0.00017086153846153848,
-      "loss": 0.2567,
       "step": 950
     },
     {
       "epoch": 0.7384615384615385,
-      "grad_norm": 10.636625289916992,
-      "learning_rate": 0.00017055384615384615,
-      "loss": 0.214,
       "step": 960
     },
     {
       "epoch": 0.7461538461538462,
-      "grad_norm": 0.12718407809734344,
-      "learning_rate": 0.00017024615384615384,
-      "loss": 0.2414,
       "step": 970
     },
     {
       "epoch": 0.7538461538461538,
-      "grad_norm": 15.172039031982422,
-      "learning_rate": 0.00016993846153846157,
-      "loss": 0.2235,
       "step": 980
     },
     {
       "epoch": 0.7615384615384615,
-      "grad_norm": 0.3109220862388611,
-      "learning_rate": 0.00016963076923076924,
-      "loss": 0.3238,
       "step": 990
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 17.5101261138916,
-      "learning_rate": 0.00016932307692307694,
-      "loss": 0.4917,
       "step": 1000
     },
     {
       "epoch": 0.7692307692307693,
-      "eval_accuracy": 0.7574893009985735,
-      "eval_f1": 0.7479705301391664,
-      "eval_loss": 1.0517505407333374,
-      "eval_runtime": 13.879,
-      "eval_samples_per_second": 151.524,
-      "eval_steps_per_second": 18.949,
       "step": 1000
     },
     {
       "epoch": 0.7769230769230769,
-      "grad_norm": 0.8310131430625916,
-      "learning_rate": 0.00016901538461538463,
-      "loss": 0.3775,
       "step": 1010
     },
     {
       "epoch": 0.7846153846153846,
-      "grad_norm": 6.707934856414795,
-      "learning_rate": 0.00016870769230769233,
-      "loss": 0.2104,
       "step": 1020
     },
     {
       "epoch": 0.7923076923076923,
-      "grad_norm": 22.98932647705078,
-      "learning_rate": 0.0001684,
-      "loss": 0.3316,
       "step": 1030
     },
     {
       "epoch": 0.8,
-      "grad_norm": 9.406743049621582,
-      "learning_rate": 0.0001680923076923077,
-      "loss": 0.3291,
       "step": 1040
     },
     {
       "epoch": 0.8076923076923077,
-      "grad_norm": 9.376912117004395,
-      "learning_rate": 0.0001677846153846154,
-      "loss": 0.1759,
       "step": 1050
     },
     {
       "epoch": 0.8153846153846154,
-      "grad_norm": 3.6835243701934814,
-      "learning_rate": 0.0001674769230769231,
-      "loss": 0.2441,
       "step": 1060
     },
     {
       "epoch": 0.823076923076923,
-      "grad_norm": 13.692422866821289,
-      "learning_rate": 0.00016716923076923076,
-      "loss": 0.4536,
       "step": 1070
     },
     {
       "epoch": 0.8307692307692308,
-      "grad_norm": 1.0375890731811523,
-      "learning_rate": 0.00016686153846153846,
-      "loss": 0.4734,
       "step": 1080
     },
     {
       "epoch": 0.8384615384615385,
-      "grad_norm": 15.942821502685547,
-      "learning_rate": 0.00016655384615384618,
-      "loss": 0.1703,
       "step": 1090
     },
     {
       "epoch": 0.8461538461538461,
-      "grad_norm": 4.353820323944092,
-      "learning_rate": 0.00016624615384615385,
-      "loss": 0.1029,
       "step": 1100
     },
     {
       "epoch": 0.8461538461538461,
-      "eval_accuracy": 0.792677127912506,
-      "eval_f1": 0.7361843876143177,
-      "eval_loss": 0.9429498314857483,
-      "eval_runtime": 12.6397,
-      "eval_samples_per_second": 166.381,
-      "eval_steps_per_second": 20.808,
       "step": 1100
     },
     {
       "epoch": 0.8538461538461538,
-      "grad_norm": 2.139413595199585,
-      "learning_rate": 0.00016593846153846155,
-      "loss": 0.3831,
       "step": 1110
     },
     {
       "epoch": 0.8615384615384616,
-      "grad_norm": 10.040633201599121,
-      "learning_rate": 0.00016563076923076922,
-      "loss": 0.3734,
       "step": 1120
     },
     {
       "epoch": 0.8692307692307693,
-      "grad_norm": 1.0804554224014282,
-      "learning_rate": 0.00016532307692307695,
-      "loss": 0.0746,
       "step": 1130
     },
     {
       "epoch": 0.8769230769230769,
-      "grad_norm": 0.1748315691947937,
-      "learning_rate": 0.00016501538461538462,
-      "loss": 0.4497,
       "step": 1140
     },
     {
       "epoch": 0.8846153846153846,
-      "grad_norm": 14.415447235107422,
-      "learning_rate": 0.00016470769230769231,
-      "loss": 0.2803,
       "step": 1150
     },
     {
       "epoch": 0.8923076923076924,
-      "grad_norm": 1.3445711135864258,
-      "learning_rate": 0.0001644,
-      "loss": 0.4024,
       "step": 1160
     },
     {
       "epoch": 0.9,
-      "grad_norm": 1.1939899921417236,
-      "learning_rate": 0.0001640923076923077,
-      "loss": 0.2185,
       "step": 1170
     },
     {
       "epoch": 0.9076923076923077,
-      "grad_norm": 5.012731075286865,
-      "learning_rate": 0.0001637846153846154,
-      "loss": 0.1712,
       "step": 1180
     },
     {
       "epoch": 0.9153846153846154,
-      "grad_norm": 0.46578100323677063,
-      "learning_rate": 0.00016347692307692308,
-      "loss": 0.2235,
       "step": 1190
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 8.191433906555176,
-      "learning_rate": 0.00016316923076923077,
-      "loss": 0.3715,
       "step": 1200
     },
     {
       "epoch": 0.9230769230769231,
-      "eval_accuracy": 0.7051830718021873,
-      "eval_f1": 0.6973363124749459,
-      "eval_loss": 1.2021244764328003,
-      "eval_runtime": 12.6278,
-      "eval_samples_per_second": 166.537,
-      "eval_steps_per_second": 20.827,
       "step": 1200
     },
     {
       "epoch": 0.9307692307692308,
-      "grad_norm": 0.06772993505001068,
-      "learning_rate": 0.00016286153846153847,
-      "loss": 0.2099,
       "step": 1210
     },
     {
       "epoch": 0.9384615384615385,
-      "grad_norm": 13.804479598999023,
-      "learning_rate": 0.00016255384615384617,
-      "loss": 0.4226,
       "step": 1220
     },
     {
       "epoch": 0.9461538461538461,
-      "grad_norm": 9.784256935119629,
-      "learning_rate": 0.00016224615384615384,
-      "loss": 0.4287,
       "step": 1230
     },
     {
       "epoch": 0.9538461538461539,
-      "grad_norm": 0.5529341101646423,
-      "learning_rate": 0.00016193846153846156,
-      "loss": 0.3275,
       "step": 1240
     },
     {
       "epoch": 0.9615384615384616,
-      "grad_norm": 1.4057235717773438,
-      "learning_rate": 0.00016163076923076923,
-      "loss": 0.3983,
       "step": 1250
     },
     {
       "epoch": 0.9692307692307692,
-      "grad_norm": 2.183885335922241,
-      "learning_rate": 0.00016132307692307693,
-      "loss": 0.1525,
       "step": 1260
     },
     {
       "epoch": 0.9769230769230769,
-      "grad_norm": 4.444169521331787,
-      "learning_rate": 0.0001610153846153846,
-      "loss": 0.3299,
       "step": 1270
     },
     {
       "epoch": 0.9846153846153847,
-      "grad_norm": 7.490978240966797,
-      "learning_rate": 0.00016070769230769233,
-      "loss": 0.3253,
       "step": 1280
     },
     {
       "epoch": 0.9923076923076923,
-      "grad_norm": 7.95802116394043,
-      "learning_rate": 0.00016040000000000002,
-      "loss": 0.1808,
       "step": 1290
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.03983300179243088,
-      "learning_rate": 0.0001600923076923077,
-      "loss": 0.5432,
       "step": 1300
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7051830718021873,
-      "eval_f1": 0.6667419004227463,
-      "eval_loss": 1.296899676322937,
-      "eval_runtime": 12.4667,
-      "eval_samples_per_second": 168.69,
-      "eval_steps_per_second": 21.096,
       "step": 1300
     },
     {
       "epoch": 1.0076923076923077,
-      "grad_norm": 1.2856322526931763,
-      "learning_rate": 0.0001597846153846154,
-      "loss": 0.3966,
       "step": 1310
     },
     {
       "epoch": 1.0153846153846153,
-      "grad_norm": 0.08759118616580963,
-      "learning_rate": 0.0001594769230769231,
-      "loss": 0.1879,
       "step": 1320
     },
     {
       "epoch": 1.023076923076923,
-      "grad_norm": 1.4174461364746094,
-      "learning_rate": 0.00015916923076923079,
-      "loss": 0.1145,
       "step": 1330
     },
     {
       "epoch": 1.0307692307692307,
-      "grad_norm": 1.3266290426254272,
-      "learning_rate": 0.00015886153846153846,
-      "loss": 0.0771,
       "step": 1340
     },
     {
       "epoch": 1.0384615384615385,
-      "grad_norm": 12.582904815673828,
-      "learning_rate": 0.00015855384615384615,
-      "loss": 0.3993,
       "step": 1350
     },
     {
       "epoch": 1.0461538461538462,
-      "grad_norm": 0.2921277582645416,
-      "learning_rate": 0.00015824615384615385,
-      "loss": 0.1994,
       "step": 1360
     },
     {
       "epoch": 1.0538461538461539,
-      "grad_norm": 8.869648933410645,
-      "learning_rate": 0.00015793846153846155,
-      "loss": 0.2719,
       "step": 1370
     },
     {
       "epoch": 1.0615384615384615,
-      "grad_norm": 0.026608692482113838,
-      "learning_rate": 0.00015763076923076924,
-      "loss": 0.1551,
       "step": 1380
     },
     {
       "epoch": 1.0692307692307692,
-      "grad_norm": 0.24334125220775604,
-      "learning_rate": 0.00015732307692307694,
-      "loss": 0.1558,
       "step": 1390
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 2.7597334384918213,
-      "learning_rate": 0.00015701538461538464,
-      "loss": 0.1645,
       "step": 1400
     },
     {
       "epoch": 1.0769230769230769,
-      "eval_accuracy": 0.750832144555397,
-      "eval_f1": 0.7742107003596032,
-      "eval_loss": 1.1917133331298828,
-      "eval_runtime": 12.6031,
-      "eval_samples_per_second": 166.864,
-      "eval_steps_per_second": 20.868,
       "step": 1400
     },
     {
       "epoch": 1.0846153846153845,
-      "grad_norm": 7.81436824798584,
-      "learning_rate": 0.0001567076923076923,
-      "loss": 0.3721,
       "step": 1410
     },
     {
       "epoch": 1.0923076923076924,
-      "grad_norm": 6.642779350280762,
-      "learning_rate": 0.0001564,
-      "loss": 0.2039,
       "step": 1420
     },
     {
       "epoch": 1.1,
-      "grad_norm": 1.3150064945220947,
-      "learning_rate": 0.0001560923076923077,
-      "loss": 0.0774,
       "step": 1430
     },
     {
       "epoch": 1.1076923076923078,
-      "grad_norm": 0.05881008133292198,
-      "learning_rate": 0.0001557846153846154,
-      "loss": 0.0806,
       "step": 1440
     },
     {
       "epoch": 1.1153846153846154,
-      "grad_norm": 0.20943497121334076,
-      "learning_rate": 0.00015547692307692307,
-      "loss": 0.0983,
       "step": 1450
     },
     {
       "epoch": 1.123076923076923,
-      "grad_norm": 0.2612471282482147,
-      "learning_rate": 0.00015516923076923077,
-      "loss": 0.2339,
       "step": 1460
     },
     {
       "epoch": 1.1307692307692307,
-      "grad_norm": 0.4519173502922058,
-      "learning_rate": 0.00015486153846153847,
-      "loss": 0.043,
       "step": 1470
     },
     {
       "epoch": 1.1384615384615384,
-      "grad_norm": 5.028959274291992,
-      "learning_rate": 0.00015455384615384616,
-      "loss": 0.1735,
       "step": 1480
     },
     {
       "epoch": 1.146153846153846,
-      "grad_norm": 6.712516784667969,
-      "learning_rate": 0.00015424615384615386,
-      "loss": 0.1878,
       "step": 1490
     },
     {
       "epoch": 1.1538461538461537,
-      "grad_norm": 0.013659660704433918,
-      "learning_rate": 0.00015393846153846153,
-      "loss": 0.1584,
       "step": 1500
     },
     {
       "epoch": 1.1538461538461537,
-      "eval_accuracy": 0.7689015691868759,
-      "eval_f1": 0.7645259140256611,
-      "eval_loss": 1.0244289636611938,
-      "eval_runtime": 12.573,
-      "eval_samples_per_second": 167.263,
-      "eval_steps_per_second": 20.918,
       "step": 1500
     },
     {
       "epoch": 1.1615384615384616,
-      "grad_norm": 0.012179275043308735,
-      "learning_rate": 0.00015363076923076926,
-      "loss": 0.0284,
       "step": 1510
     },
     {
       "epoch": 1.1692307692307693,
-      "grad_norm": 6.988743782043457,
-      "learning_rate": 0.00015332307692307693,
-      "loss": 0.1996,
       "step": 1520
     },
     {
       "epoch": 1.176923076923077,
-      "grad_norm": 1.0078998804092407,
-      "learning_rate": 0.00015301538461538462,
-      "loss": 0.1034,
       "step": 1530
     },
     {
       "epoch": 1.1846153846153846,
-      "grad_norm": 6.753546237945557,
-      "learning_rate": 0.0001527076923076923,
-      "loss": 0.2781,
       "step": 1540
     },
     {
       "epoch": 1.1923076923076923,
-      "grad_norm": 8.350870132446289,
-      "learning_rate": 0.00015240000000000002,
-      "loss": 0.1236,
       "step": 1550
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.2813374102115631,
-      "learning_rate": 0.0001520923076923077,
-      "loss": 0.1246,
       "step": 1560
     },
     {
       "epoch": 1.2076923076923076,
-      "grad_norm": 0.10124306380748749,
-      "learning_rate": 0.00015178461538461539,
-      "loss": 0.1692,
       "step": 1570
     },
     {
       "epoch": 1.2153846153846155,
-      "grad_norm": 6.230766773223877,
-      "learning_rate": 0.00015147692307692308,
-      "loss": 0.2269,
       "step": 1580
     },
     {
       "epoch": 1.2230769230769232,
-      "grad_norm": 0.22881397604942322,
-      "learning_rate": 0.00015116923076923078,
-      "loss": 0.1601,
       "step": 1590
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 3.512399196624756,
-      "learning_rate": 0.00015086153846153848,
-      "loss": 0.0873,
       "step": 1600
     },
     {
       "epoch": 1.2307692307692308,
-      "eval_accuracy": 0.8155016642891108,
-      "eval_f1": 0.7820920610319438,
-      "eval_loss": 0.8849401473999023,
-      "eval_runtime": 12.3964,
-      "eval_samples_per_second": 169.647,
-      "eval_steps_per_second": 21.216,
       "step": 1600
     },
     {
       "epoch": 1.2384615384615385,
-      "grad_norm": 0.2611481249332428,
-      "learning_rate": 0.00015055384615384615,
-      "loss": 0.2379,
       "step": 1610
     },
     {
       "epoch": 1.2461538461538462,
-      "grad_norm": 0.1190253347158432,
-      "learning_rate": 0.00015024615384615385,
-      "loss": 0.0495,
       "step": 1620
     },
     {
       "epoch": 1.2538461538461538,
-      "grad_norm": 0.01619214005768299,
-      "learning_rate": 0.00014993846153846154,
-      "loss": 0.0515,
       "step": 1630
     },
     {
       "epoch": 1.2615384615384615,
-      "grad_norm": 0.008227836340665817,
-      "learning_rate": 0.00014963076923076924,
-      "loss": 0.0454,
       "step": 1640
     },
     {
       "epoch": 1.2692307692307692,
-      "grad_norm": 6.544041633605957,
-      "learning_rate": 0.0001493230769230769,
-      "loss": 0.1042,
       "step": 1650
     },
     {
       "epoch": 1.2769230769230768,
-      "grad_norm": 11.813011169433594,
-      "learning_rate": 0.00014901538461538463,
-      "loss": 0.3294,
       "step": 1660
     },
     {
       "epoch": 1.2846153846153845,
-      "grad_norm": 0.6227591633796692,
-      "learning_rate": 0.00014870769230769233,
-      "loss": 0.2643,
       "step": 1670
     },
     {
       "epoch": 1.2923076923076924,
-      "grad_norm": 5.635829925537109,
-      "learning_rate": 0.0001484,
-      "loss": 0.1771,
       "step": 1680
     },
     {
       "epoch": 1.3,
-      "grad_norm": 2.552438259124756,
-      "learning_rate": 0.0001480923076923077,
-      "loss": 0.0987,
       "step": 1690
     },
     {
       "epoch": 1.3076923076923077,
-      "grad_norm": 0.07186438143253326,
-      "learning_rate": 0.0001477846153846154,
-      "loss": 0.3077,
       "step": 1700
     },
     {
       "epoch": 1.3076923076923077,
-      "eval_accuracy": 0.7822158820732287,
-      "eval_f1": 0.725669962539516,
-      "eval_loss": 0.9735142588615417,
-      "eval_runtime": 12.5089,
-      "eval_samples_per_second": 168.12,
-      "eval_steps_per_second": 21.025,
       "step": 1700
     },
     {
       "epoch": 1.3153846153846154,
-      "grad_norm": 2.4193100929260254,
-      "learning_rate": 0.0001474769230769231,
-      "loss": 0.2109,
       "step": 1710
     },
     {
       "epoch": 1.323076923076923,
-      "grad_norm": 0.001091918908059597,
-      "learning_rate": 0.00014716923076923076,
-      "loss": 0.1222,
       "step": 1720
     },
     {
       "epoch": 1.3307692307692307,
-      "grad_norm": 15.755866050720215,
-      "learning_rate": 0.00014686153846153846,
-      "loss": 0.3006,
       "step": 1730
     },
     {
       "epoch": 1.3384615384615386,
-      "grad_norm": 16.329692840576172,
-      "learning_rate": 0.00014655384615384616,
-      "loss": 0.1837,
       "step": 1740
     },
     {
       "epoch": 1.3461538461538463,
-      "grad_norm": 6.158926963806152,
-      "learning_rate": 0.00014624615384615386,
-      "loss": 0.1682,
       "step": 1750
     },
     {
       "epoch": 1.353846153846154,
-      "grad_norm": 8.750590324401855,
-      "learning_rate": 0.00014593846153846153,
-      "loss": 0.2625,
       "step": 1760
     },
     {
       "epoch": 1.3615384615384616,
-      "grad_norm": 2.014807939529419,
-      "learning_rate": 0.00014563076923076922,
-      "loss": 0.242,
       "step": 1770
     },
     {
       "epoch": 1.3692307692307693,
-      "grad_norm": 0.013187545351684093,
-      "learning_rate": 0.00014532307692307695,
-      "loss": 0.1397,
       "step": 1780
     },
     {
       "epoch": 1.376923076923077,
-      "grad_norm": 2.364464044570923,
-      "learning_rate": 0.00014501538461538462,
-      "loss": 0.2673,
       "step": 1790
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 1.5568692684173584,
-      "learning_rate": 0.00014470769230769232,
-      "loss": 0.0167,
       "step": 1800
     },
     {
       "epoch": 1.3846153846153846,
-      "eval_accuracy": 0.7622444127436995,
-      "eval_f1": 0.7753703057047507,
-      "eval_loss": 1.1507965326309204,
-      "eval_runtime": 12.5241,
-      "eval_samples_per_second": 167.916,
-      "eval_steps_per_second": 20.999,
       "step": 1800
     },
     {
       "epoch": 1.3923076923076922,
-      "grad_norm": 4.34848690032959,
-      "learning_rate": 0.0001444,
-      "loss": 0.0429,
       "step": 1810
     },
     {
       "epoch": 1.4,
-      "grad_norm": 0.049348413944244385,
-      "learning_rate": 0.0001440923076923077,
-      "loss": 0.1613,
       "step": 1820
     },
     {
       "epoch": 1.4076923076923076,
-      "grad_norm": 6.783623695373535,
-      "learning_rate": 0.00014378461538461538,
-      "loss": 0.316,
       "step": 1830
     },
     {
       "epoch": 1.4153846153846155,
-      "grad_norm": 21.144811630249023,
-      "learning_rate": 0.00014347692307692308,
-      "loss": 0.2016,
       "step": 1840
     },
     {
       "epoch": 1.4230769230769231,
-      "grad_norm": 2.688338041305542,
-      "learning_rate": 0.00014316923076923078,
-      "loss": 0.1888,
       "step": 1850
     },
     {
       "epoch": 1.4307692307692308,
-      "grad_norm": 0.6251327395439148,
-      "learning_rate": 0.00014286153846153847,
-      "loss": 0.1055,
       "step": 1860
     },
     {
       "epoch": 1.4384615384615385,
-      "grad_norm": 0.1399720460176468,
-      "learning_rate": 0.00014255384615384617,
-      "loss": 0.1032,
       "step": 1870
     },
     {
       "epoch": 1.4461538461538461,
-      "grad_norm": 0.18685415387153625,
-      "learning_rate": 0.00014224615384615384,
-      "loss": 0.2334,
       "step": 1880
     },
     {
       "epoch": 1.4538461538461538,
-      "grad_norm": 14.955801010131836,
-      "learning_rate": 0.00014193846153846156,
-      "loss": 0.0856,
       "step": 1890
     },
     {
       "epoch": 1.4615384615384617,
-      "grad_norm": 0.0011694247368723154,
-      "learning_rate": 0.00014163076923076924,
-      "loss": 0.0593,
       "step": 1900
     },
     {
       "epoch": 1.4615384615384617,
-      "eval_accuracy": 0.7727056585829767,
-      "eval_f1": 0.7687850851462801,
-      "eval_loss": 1.259105920791626,
-      "eval_runtime": 12.4837,
-      "eval_samples_per_second": 168.46,
-      "eval_steps_per_second": 21.068,
       "step": 1900
     },
     {
       "epoch": 1.4692307692307693,
-      "grad_norm": 0.0023549695033580065,
-      "learning_rate": 0.00014132307692307693,
-      "loss": 0.2332,
       "step": 1910
     },
     {
       "epoch": 1.476923076923077,
-      "grad_norm": 0.06210291385650635,
-      "learning_rate": 0.0001410153846153846,
-      "loss": 0.0498,
       "step": 1920
     },
     {
       "epoch": 1.4846153846153847,
-      "grad_norm": 0.007511141709983349,
-      "learning_rate": 0.00014070769230769233,
-      "loss": 0.0331,
       "step": 1930
     },
     {
       "epoch": 1.4923076923076923,
-      "grad_norm": 6.702728748321533,
-      "learning_rate": 0.0001404,
-      "loss": 0.182,
       "step": 1940
     },
     {
       "epoch": 1.5,
-      "grad_norm": 3.9564318656921387,
-      "learning_rate": 0.0001400923076923077,
-      "loss": 0.1,
       "step": 1950
     },
     {
       "epoch": 1.5076923076923077,
-      "grad_norm": 0.6039676070213318,
-      "learning_rate": 0.0001397846153846154,
-      "loss": 0.0499,
       "step": 1960
     },
     {
       "epoch": 1.5153846153846153,
-      "grad_norm": 0.0027682275976985693,
-      "learning_rate": 0.0001394769230769231,
-      "loss": 0.0046,
       "step": 1970
     },
     {
       "epoch": 1.523076923076923,
-      "grad_norm": 13.363993644714355,
-      "learning_rate": 0.0001391692307692308,
-      "loss": 0.1627,
       "step": 1980
     },
     {
       "epoch": 1.5307692307692307,
-      "grad_norm": 0.38019949197769165,
-      "learning_rate": 0.00013886153846153846,
-      "loss": 0.1781,
       "step": 1990
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 0.7138615846633911,
-      "learning_rate": 0.00013855384615384615,
-      "loss": 0.3321,
       "step": 2000
     },
     {
       "epoch": 1.5384615384615383,
-      "eval_accuracy": 0.7836424155967665,
-      "eval_f1": 0.8206327189662326,
-      "eval_loss": 1.0946073532104492,
-      "eval_runtime": 12.5872,
-      "eval_samples_per_second": 167.074,
-      "eval_steps_per_second": 20.894,
       "step": 2000
     },
     {
       "epoch": 1.546153846153846,
-      "grad_norm": 0.12101047486066818,
-      "learning_rate": 0.00013824615384615385,
-      "loss": 0.0212,
       "step": 2010
     },
     {
       "epoch": 1.5538461538461539,
-      "grad_norm": 0.27666324377059937,
-      "learning_rate": 0.00013793846153846155,
-      "loss": 0.0318,
       "step": 2020
     },
     {
       "epoch": 1.5615384615384615,
-      "grad_norm": 0.14969737827777863,
-      "learning_rate": 0.00013763076923076922,
-      "loss": 0.1535,
       "step": 2030
     },
     {
       "epoch": 1.5692307692307692,
-      "grad_norm": 0.11491697281599045,
       "learning_rate": 0.00013732307692307694,
-      "loss": 0.0937,
       "step": 2040
     },
     {
       "epoch": 1.5769230769230769,
-      "grad_norm": 0.007214740384370089,
       "learning_rate": 0.00013701538461538461,
-      "loss": 0.1818,
       "step": 2050
     },
     {
       "epoch": 1.5846153846153848,
-      "grad_norm": 0.01648704707622528,
       "learning_rate": 0.0001367076923076923,
-      "loss": 0.1719,
       "step": 2060
     },
     {
       "epoch": 1.5923076923076924,
-      "grad_norm": 0.04609803482890129,
       "learning_rate": 0.0001364,
-      "loss": 0.2252,
       "step": 2070
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.1964152753353119,
       "learning_rate": 0.0001360923076923077,
-      "loss": 0.0656,
       "step": 2080
     },
     {
       "epoch": 1.6076923076923078,
-      "grad_norm": 15.397407531738281,
       "learning_rate": 0.0001357846153846154,
-      "loss": 0.2084,
       "step": 2090
     },
     {
       "epoch": 1.6153846153846154,
-      "grad_norm": 15.927462577819824,
       "learning_rate": 0.00013547692307692307,
-      "loss": 0.1713,
       "step": 2100
     },
     {
       "epoch": 1.6153846153846154,
-      "eval_accuracy": 0.7546362339514978,
-      "eval_f1": 0.7967976441768924,
-      "eval_loss": 1.5009040832519531,
-      "eval_runtime": 12.5576,
-      "eval_samples_per_second": 167.468,
-      "eval_steps_per_second": 20.943,
       "step": 2100
     },
     {
       "epoch": 1.623076923076923,
-      "grad_norm": 0.049132537096738815,
       "learning_rate": 0.00013516923076923077,
-      "loss": 0.0538,
       "step": 2110
     },
     {
       "epoch": 1.6307692307692307,
-      "grad_norm": 0.4282131791114807,
       "learning_rate": 0.00013486153846153847,
-      "loss": 0.1949,
       "step": 2120
     },
     {
       "epoch": 1.6384615384615384,
-      "grad_norm": 0.4743361175060272,
       "learning_rate": 0.00013455384615384617,
-      "loss": 0.1656,
       "step": 2130
     },
     {
       "epoch": 1.646153846153846,
-      "grad_norm": 0.011881379410624504,
       "learning_rate": 0.00013424615384615384,
-      "loss": 0.2567,
       "step": 2140
     },
     {
       "epoch": 1.6538461538461537,
-      "grad_norm": 0.5166123509407043,
       "learning_rate": 0.00013393846153846153,
-      "loss": 0.1373,
       "step": 2150
     },
     {
       "epoch": 1.6615384615384614,
-      "grad_norm": 7.127758026123047,
       "learning_rate": 0.00013363076923076926,
-      "loss": 0.113,
       "step": 2160
     },
     {
       "epoch": 1.669230769230769,
-      "grad_norm": 13.634576797485352,
       "learning_rate": 0.00013332307692307693,
-      "loss": 0.2203,
       "step": 2170
     },
     {
       "epoch": 1.676923076923077,
-      "grad_norm": 3.4795382022857666,
       "learning_rate": 0.00013301538461538463,
-      "loss": 0.0577,
       "step": 2180
     },
     {
       "epoch": 1.6846153846153846,
-      "grad_norm": 0.1704314947128296,
       "learning_rate": 0.00013270769230769232,
-      "loss": 0.3477,
       "step": 2190
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 4.465692520141602,
       "learning_rate": 0.00013240000000000002,
-      "loss": 0.3072,
       "step": 2200
     },
     {
       "epoch": 1.6923076923076923,
-      "eval_accuracy": 0.797432239657632,
-      "eval_f1": 0.8187976499019674,
-      "eval_loss": 1.1053212881088257,
-      "eval_runtime": 12.422,
-      "eval_samples_per_second": 169.297,
-      "eval_steps_per_second": 21.172,
       "step": 2200
     },
     {
-      "epoch": 1.7,
-      "grad_norm": 0.04337165132164955,
-      "learning_rate": 0.0001320923076923077,
-      "loss": 0.1805,
-      "step": 2210
-    },
-    {
-      "epoch": 1.7076923076923078,
-      "grad_norm": 0.1556902378797531,
-      "learning_rate": 0.0001317846153846154,
-      "loss": 0.0158,
-      "step": 2220
-    },
-    {
-      "epoch": 1.7153846153846155,
-      "grad_norm": 7.362657070159912,
-      "learning_rate": 0.00013147692307692308,
-      "loss": 0.294,
-      "step": 2230
-    },
-    {
-      "epoch": 1.7230769230769232,
-      "grad_norm": 0.4276955723762512,
-      "learning_rate": 0.00013116923076923078,
-      "loss": 0.1368,
-      "step": 2240
-    },
-    {
-      "epoch": 1.7307692307692308,
-      "grad_norm": 7.7706427574157715,
-      "learning_rate": 0.00013086153846153845,
-      "loss": 0.0855,
-      "step": 2250
-    },
-    {
-      "epoch": 1.7384615384615385,
-      "grad_norm": 0.010043763555586338,
-      "learning_rate": 0.00013055384615384615,
-      "loss": 0.1108,
-      "step": 2260
-    },
-    {
-      "epoch": 1.7461538461538462,
-      "grad_norm": 0.09377148002386093,
-      "learning_rate": 0.00013024615384615387,
-      "loss": 0.3113,
-      "step": 2270
-    },
-    {
-      "epoch": 1.7538461538461538,
-      "grad_norm": 3.6055455207824707,
-      "learning_rate": 0.00012993846153846154,
-      "loss": 0.128,
-      "step": 2280
-    },
-    {
-      "epoch": 1.7615384615384615,
-      "grad_norm": 2.1152894496917725,
-      "learning_rate": 0.00012963076923076924,
-      "loss": 0.1954,
-      "step": 2290
-    },
-    {
-      "epoch": 1.7692307692307692,
-      "grad_norm": 0.0025315466336905956,
-      "learning_rate": 0.0001293230769230769,
-      "loss": 0.1457,
-      "step": 2300
-    },
-    {
-      "epoch": 1.7692307692307692,
-      "eval_accuracy": 0.7841179267712791,
-      "eval_f1": 0.8178538109762332,
-      "eval_loss": 1.0606149435043335,
-      "eval_runtime": 12.6141,
-      "eval_samples_per_second": 166.718,
-      "eval_steps_per_second": 20.85,
-      "step": 2300
-    },
-    {
-      "epoch": 1.7769230769230768,
-      "grad_norm": 0.02707645110785961,
-      "learning_rate": 0.00012901538461538464,
-      "loss": 0.0758,
-      "step": 2310
-    },
-    {
-      "epoch": 1.7846153846153845,
-      "grad_norm": 0.06029946357011795,
-      "learning_rate": 0.0001287076923076923,
-      "loss": 0.1275,
-      "step": 2320
-    },
-    {
-      "epoch": 1.7923076923076922,
-      "grad_norm": 0.21329770982265472,
-      "learning_rate": 0.0001284,
-      "loss": 0.0112,
-      "step": 2330
-    },
-    {
-      "epoch": 1.8,
-      "grad_norm": 0.9335693120956421,
-      "learning_rate": 0.0001280923076923077,
-      "loss": 0.2588,
-      "step": 2340
-    },
-    {
-      "epoch": 1.8076923076923077,
-      "grad_norm": 6.8204474449157715,
-      "learning_rate": 0.0001277846153846154,
-      "loss": 0.1611,
-      "step": 2350
-    },
-    {
-      "epoch": 1.8153846153846154,
-      "grad_norm": 0.023739751428365707,
-      "learning_rate": 0.0001274769230769231,
-      "loss": 0.0495,
-      "step": 2360
-    },
-    {
-      "epoch": 1.823076923076923,
-      "grad_norm": 15.699667930603027,
-      "learning_rate": 0.00012716923076923077,
-      "loss": 0.1245,
-      "step": 2370
-    },
-    {
-      "epoch": 1.830769230769231,
-      "grad_norm": 0.019991083070635796,
-      "learning_rate": 0.00012686153846153846,
-      "loss": 0.0221,
-      "step": 2380
-    },
-    {
-      "epoch": 1.8384615384615386,
-      "grad_norm": 0.24979303777217865,
-      "learning_rate": 0.00012655384615384616,
-      "loss": 0.1426,
-      "step": 2390
-    },
-    {
-      "epoch": 1.8461538461538463,
-      "grad_norm": 0.05418672040104866,
-      "learning_rate": 0.00012624615384615386,
-      "loss": 0.1211,
-      "step": 2400
-    },
-    {
-      "epoch": 1.8461538461538463,
-      "eval_accuracy": 0.8145506419400856,
-      "eval_f1": 0.8214275708995336,
-      "eval_loss": 0.933445394039154,
-      "eval_runtime": 12.5308,
-      "eval_samples_per_second": 167.826,
-      "eval_steps_per_second": 20.988,
-      "step": 2400
-    },
-    {
-      "epoch": 1.853846153846154,
-      "grad_norm": 0.018888354301452637,
-      "learning_rate": 0.00012593846153846153,
-      "loss": 0.0065,
-      "step": 2410
-    },
-    {
-      "epoch": 1.8615384615384616,
-      "grad_norm": 0.14981931447982788,
-      "learning_rate": 0.00012563076923076925,
-      "loss": 0.0036,
-      "step": 2420
-    },
-    {
-      "epoch": 1.8692307692307693,
-      "grad_norm": 0.1521558165550232,
-      "learning_rate": 0.00012532307692307692,
-      "loss": 0.0123,
-      "step": 2430
-    },
-    {
-      "epoch": 1.876923076923077,
-      "grad_norm": 0.6288071870803833,
-      "learning_rate": 0.00012501538461538462,
-      "loss": 0.0052,
-      "step": 2440
-    },
-    {
-      "epoch": 1.8846153846153846,
-      "grad_norm": 8.094133377075195,
-      "learning_rate": 0.0001247076923076923,
-      "loss": 0.2472,
-      "step": 2450
-    },
-    {
-      "epoch": 1.8923076923076922,
-      "grad_norm": 0.015556249767541885,
-      "learning_rate": 0.00012440000000000002,
-      "loss": 0.0531,
-      "step": 2460
-    },
-    {
-      "epoch": 1.9,
-      "grad_norm": 0.05205320566892624,
-      "learning_rate": 0.0001240923076923077,
-      "loss": 0.1907,
-      "step": 2470
-    },
-    {
-      "epoch": 1.9076923076923076,
-      "grad_norm": 6.338665962219238,
-      "learning_rate": 0.00012378461538461538,
-      "loss": 0.1587,
-      "step": 2480
-    },
-    {
-      "epoch": 1.9153846153846152,
-      "grad_norm": 0.4923330545425415,
-      "learning_rate": 0.00012347692307692308,
-      "loss": 0.0978,
-      "step": 2490
-    },
-    {
-      "epoch": 1.9230769230769231,
-      "grad_norm": 2.8340303897857666,
-      "learning_rate": 0.00012316923076923078,
-      "loss": 0.0175,
-      "step": 2500
-    },
-    {
-      "epoch": 1.9230769230769231,
-      "eval_accuracy": 0.734189253447456,
-      "eval_f1": 0.77245031199361,
-      "eval_loss": 1.9268134832382202,
-      "eval_runtime": 12.5739,
-      "eval_samples_per_second": 167.251,
-      "eval_steps_per_second": 20.916,
-      "step": 2500
-    },
-    {
-      "epoch": 1.9307692307692308,
-      "grad_norm": 7.629446029663086,
-      "learning_rate": 0.00012286153846153847,
-      "loss": 0.2534,
-      "step": 2510
-    },
-    {
-      "epoch": 1.9384615384615385,
-      "grad_norm": 0.5628572702407837,
-      "learning_rate": 0.00012255384615384614,
-      "loss": 0.1828,
-      "step": 2520
-    },
-    {
-      "epoch": 1.9461538461538461,
-      "grad_norm": 0.007969832979142666,
-      "learning_rate": 0.00012224615384615384,
-      "loss": 0.1046,
-      "step": 2530
-    },
-    {
-      "epoch": 1.953846153846154,
-      "grad_norm": 4.393219947814941,
-      "learning_rate": 0.00012193846153846154,
-      "loss": 0.221,
-      "step": 2540
-    },
-    {
-      "epoch": 1.9615384615384617,
-      "grad_norm": 2.58774995803833,
-      "learning_rate": 0.00012163076923076924,
-      "loss": 0.0651,
-      "step": 2550
-    },
-    {
-      "epoch": 1.9692307692307693,
-      "grad_norm": 0.01533615030348301,
-      "learning_rate": 0.00012132307692307693,
-      "loss": 0.3142,
-      "step": 2560
-    },
-    {
-      "epoch": 1.976923076923077,
-      "grad_norm": 0.04511953145265579,
-      "learning_rate": 0.00012101538461538462,
-      "loss": 0.0437,
-      "step": 2570
-    },
-    {
-      "epoch": 1.9846153846153847,
-      "grad_norm": 4.066844940185547,
-      "learning_rate": 0.00012070769230769232,
-      "loss": 0.1857,
-      "step": 2580
-    },
-    {
-      "epoch": 1.9923076923076923,
-      "grad_norm": 0.030109547078609467,
-      "learning_rate": 0.0001204,
-      "loss": 0.2628,
-      "step": 2590
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 13.797858238220215,
-      "learning_rate": 0.00012009230769230771,
-      "loss": 0.0539,
-      "step": 2600
-    },
-    {
-      "epoch": 2.0,
-      "eval_accuracy": 0.81169757489301,
-      "eval_f1": 0.7984725776961168,
-      "eval_loss": 0.9400935769081116,
-      "eval_runtime": 12.4311,
-      "eval_samples_per_second": 169.173,
-      "eval_steps_per_second": 21.157,
-      "step": 2600
-    },
-    {
-      "epoch": 2.0,
-      "step": 2600,
-      "total_flos": 1.611433851126866e+18,
-      "train_loss": 0.3103342184309776,
-      "train_runtime": 732.7839,
-      "train_samples_per_second": 70.928,
-      "train_steps_per_second": 8.87
     }
   ],
   "logging_steps": 10,
@@ -2108,7 +1788,7 @@
     "EarlyStoppingCallback": {
       "args": {
         "early_stopping_patience": 10,
-        "early_stopping_threshold": 0.0002
       },
       "attributes": {
         "early_stopping_patience_counter": 10
@@ -2125,7 +1805,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.611433851126866e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1200,
+  "best_metric": 0.8585250973701477,
+  "best_model_checkpoint": "./deit-CEMEDE/checkpoint-1200",
+  "epoch": 1.6923076923076923,
   "eval_steps": 100,
+  "global_step": 2200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.007692307692307693,
+      "grad_norm": 18.197193145751953,
+      "learning_rate": 0.00019975384615384615,
+      "loss": 2.5816,
       "step": 10
     },
     {
       "epoch": 0.015384615384615385,
+      "grad_norm": 8.680727005004883,
+      "learning_rate": 0.00019944615384615385,
+      "loss": 1.8162,
       "step": 20
     },
     {
       "epoch": 0.023076923076923078,
+      "grad_norm": 12.35321044921875,
+      "learning_rate": 0.00019913846153846155,
+      "loss": 1.3586,
       "step": 30
     },
     {
       "epoch": 0.03076923076923077,
+      "grad_norm": 16.556589126586914,
+      "learning_rate": 0.00019883076923076924,
+      "loss": 1.3773,
       "step": 40
     },
     {
       "epoch": 0.038461538461538464,
+      "grad_norm": 7.4731059074401855,
+      "learning_rate": 0.0001985230769230769,
+      "loss": 0.833,
       "step": 50
     },
     {
       "epoch": 0.046153846153846156,
+      "grad_norm": 16.327470779418945,
+      "learning_rate": 0.00019821538461538464,
+      "loss": 0.861,
       "step": 60
     },
     {
       "epoch": 0.05384615384615385,
+      "grad_norm": 6.821540832519531,
+      "learning_rate": 0.00019790769230769234,
+      "loss": 1.0562,
       "step": 70
     },
     {
       "epoch": 0.06153846153846154,
+      "grad_norm": 11.482409477233887,
+      "learning_rate": 0.0001976,
+      "loss": 1.0553,
       "step": 80
     },
     {
       "epoch": 0.06923076923076923,
+      "grad_norm": 7.535261154174805,
+      "learning_rate": 0.0001972923076923077,
+      "loss": 0.5367,
       "step": 90
     },
     {
       "epoch": 0.07692307692307693,
+      "grad_norm": 8.011478424072266,
+      "learning_rate": 0.0001969846153846154,
+      "loss": 0.5433,
       "step": 100
     },
     {
       "epoch": 0.07692307692307693,
+      "eval_accuracy": 0.6338563956252972,
+      "eval_f1": 0.43161314039771254,
+      "eval_loss": 1.4162613153457642,
+      "eval_runtime": 12.991,
+      "eval_samples_per_second": 161.882,
+      "eval_steps_per_second": 20.245,
       "step": 100
     },
     {
       "epoch": 0.08461538461538462,
+      "grad_norm": 6.010300159454346,
+      "learning_rate": 0.0001966769230769231,
+      "loss": 0.9265,
       "step": 110
     },
     {
       "epoch": 0.09230769230769231,
+      "grad_norm": 11.949559211730957,
+      "learning_rate": 0.00019636923076923077,
+      "loss": 0.4836,
       "step": 120
     },
     {
       "epoch": 0.1,
+      "grad_norm": 12.648119926452637,
+      "learning_rate": 0.00019606153846153847,
+      "loss": 0.7105,
       "step": 130
     },
     {
       "epoch": 0.1076923076923077,
+      "grad_norm": 11.041376113891602,
+      "learning_rate": 0.00019575384615384616,
+      "loss": 0.7821,
       "step": 140
     },
     {
       "epoch": 0.11538461538461539,
+      "grad_norm": 21.592378616333008,
+      "learning_rate": 0.00019544615384615386,
+      "loss": 0.5134,
       "step": 150
     },
     {
       "epoch": 0.12307692307692308,
+      "grad_norm": 9.74736499786377,
+      "learning_rate": 0.00019513846153846156,
+      "loss": 0.5469,
       "step": 160
     },
     {
       "epoch": 0.13076923076923078,
+      "grad_norm": 12.262529373168945,
+      "learning_rate": 0.00019483076923076923,
+      "loss": 0.392,
       "step": 170
     },
     {
       "epoch": 0.13846153846153847,
+      "grad_norm": 9.946588516235352,
+      "learning_rate": 0.00019452307692307695,
+      "loss": 0.5524,
       "step": 180
     },
     {
       "epoch": 0.14615384615384616,
+      "grad_norm": 18.688274383544922,
+      "learning_rate": 0.00019421538461538462,
+      "loss": 0.6801,
       "step": 190
     },
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 3.1866862773895264,
+      "learning_rate": 0.00019390769230769232,
+      "loss": 0.8153,
       "step": 200
     },
     {
       "epoch": 0.15384615384615385,
+      "eval_accuracy": 0.7013789824060865,
+      "eval_f1": 0.6079592746324705,
+      "eval_loss": 1.2107399702072144,
+      "eval_runtime": 12.8177,
+      "eval_samples_per_second": 164.07,
+      "eval_steps_per_second": 20.518,
       "step": 200
     },
     {
       "epoch": 0.16153846153846155,
+      "grad_norm": 10.409411430358887,
+      "learning_rate": 0.00019360000000000002,
+      "loss": 0.3139,
       "step": 210
     },
     {
       "epoch": 0.16923076923076924,
+      "grad_norm": 10.94472599029541,
+      "learning_rate": 0.00019329230769230771,
+      "loss": 0.7899,
       "step": 220
     },
     {
       "epoch": 0.17692307692307693,
+      "grad_norm": 13.132795333862305,
+      "learning_rate": 0.00019298461538461538,
+      "loss": 0.6232,
       "step": 230
     },
     {
       "epoch": 0.18461538461538463,
+      "grad_norm": 5.178615093231201,
+      "learning_rate": 0.00019267692307692308,
+      "loss": 0.6606,
       "step": 240
     },
     {
       "epoch": 0.19230769230769232,
+      "grad_norm": 3.8530232906341553,
+      "learning_rate": 0.00019236923076923078,
+      "loss": 0.648,
       "step": 250
     },
     {
       "epoch": 0.2,
+      "grad_norm": 9.361835479736328,
+      "learning_rate": 0.00019206153846153848,
+      "loss": 0.3533,
       "step": 260
     },
     {
       "epoch": 0.2076923076923077,
+      "grad_norm": 7.445398330688477,
+      "learning_rate": 0.00019175384615384617,
+      "loss": 0.5113,
       "step": 270
     },
     {
       "epoch": 0.2153846153846154,
+      "grad_norm": 10.053826332092285,
+      "learning_rate": 0.00019144615384615384,
+      "loss": 0.6366,
       "step": 280
     },
     {
       "epoch": 0.2230769230769231,
+      "grad_norm": 9.240071296691895,
+      "learning_rate": 0.00019113846153846157,
+      "loss": 0.7002,
       "step": 290
     },
     {
       "epoch": 0.23076923076923078,
+      "grad_norm": 2.5356545448303223,
+      "learning_rate": 0.00019083076923076924,
+      "loss": 0.4572,
       "step": 300
     },
     {
       "epoch": 0.23076923076923078,
+      "eval_accuracy": 0.7513076557299097,
+      "eval_f1": 0.675000963253108,
+      "eval_loss": 0.9055613279342651,
+      "eval_runtime": 12.7209,
+      "eval_samples_per_second": 165.319,
+      "eval_steps_per_second": 20.675,
       "step": 300
     },
     {
       "epoch": 0.23846153846153847,
+      "grad_norm": 5.946889400482178,
+      "learning_rate": 0.00019052307692307694,
+      "loss": 0.1694,
       "step": 310
     },
     {
       "epoch": 0.24615384615384617,
+      "grad_norm": 3.9482967853546143,
+      "learning_rate": 0.0001902153846153846,
+      "loss": 0.1883,
       "step": 320
     },
     {
       "epoch": 0.25384615384615383,
+      "grad_norm": 10.08955192565918,
+      "learning_rate": 0.00018990769230769233,
+      "loss": 0.2619,
       "step": 330
     },
     {
       "epoch": 0.26153846153846155,
+      "grad_norm": 6.082069396972656,
+      "learning_rate": 0.0001896,
+      "loss": 0.3425,
       "step": 340
     },
     {
       "epoch": 0.2692307692307692,
+      "grad_norm": 21.109539031982422,
+      "learning_rate": 0.0001892923076923077,
+      "loss": 0.4289,
       "step": 350
     },
     {
       "epoch": 0.27692307692307694,
+      "grad_norm": 12.561626434326172,
+      "learning_rate": 0.0001889846153846154,
+      "loss": 0.4526,
       "step": 360
     },
     {
       "epoch": 0.2846153846153846,
+      "grad_norm": 18.23844337463379,
+      "learning_rate": 0.0001886769230769231,
+      "loss": 0.6775,
       "step": 370
     },
     {
       "epoch": 0.2923076923076923,
+      "grad_norm": 14.852152824401855,
+      "learning_rate": 0.0001883692307692308,
+      "loss": 0.6215,
       "step": 380
     },
     {
       "epoch": 0.3,
+      "grad_norm": 4.879684925079346,
+      "learning_rate": 0.00018806153846153846,
+      "loss": 0.5646,
       "step": 390
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 11.373760223388672,
+      "learning_rate": 0.00018775384615384616,
+      "loss": 0.5055,
       "step": 400
     },
     {
       "epoch": 0.3076923076923077,
+      "eval_accuracy": 0.6571564431764146,
+      "eval_f1": 0.5795112999251144,
+      "eval_loss": 1.2328877449035645,
+      "eval_runtime": 12.9793,
+      "eval_samples_per_second": 162.027,
+      "eval_steps_per_second": 20.263,
       "step": 400
     },
     {
       "epoch": 0.3153846153846154,
+      "grad_norm": 17.832473754882812,
+      "learning_rate": 0.00018744615384615386,
+      "loss": 0.5483,
       "step": 410
     },
     {
       "epoch": 0.3230769230769231,
+      "grad_norm": 7.938933372497559,
+      "learning_rate": 0.00018713846153846155,
+      "loss": 0.4665,
       "step": 420
     },
     {
       "epoch": 0.33076923076923076,
+      "grad_norm": 0.892392098903656,
+      "learning_rate": 0.00018683076923076922,
+      "loss": 0.4319,
       "step": 430
     },
     {
       "epoch": 0.3384615384615385,
+      "grad_norm": 12.021994590759277,
+      "learning_rate": 0.00018652307692307695,
+      "loss": 0.2883,
       "step": 440
     },
     {
       "epoch": 0.34615384615384615,
+      "grad_norm": 8.725289344787598,
+      "learning_rate": 0.00018621538461538462,
+      "loss": 0.3389,
       "step": 450
     },
     {
       "epoch": 0.35384615384615387,
+      "grad_norm": 13.443779945373535,
+      "learning_rate": 0.00018590769230769231,
+      "loss": 0.5416,
       "step": 460
     },
     {
       "epoch": 0.36153846153846153,
+      "grad_norm": 5.893988132476807,
+      "learning_rate": 0.0001856,
+      "loss": 0.3084,
       "step": 470
     },
     {
       "epoch": 0.36923076923076925,
+      "grad_norm": 2.6127381324768066,
+      "learning_rate": 0.0001852923076923077,
+      "loss": 0.3881,
       "step": 480
     },
     {
       "epoch": 0.3769230769230769,
+      "grad_norm": 4.684244155883789,
+      "learning_rate": 0.0001849846153846154,
+      "loss": 0.2972,
       "step": 490
     },
     {
       "epoch": 0.38461538461538464,
+      "grad_norm": 3.0813324451446533,
+      "learning_rate": 0.00018467692307692308,
+      "loss": 0.5404,
       "step": 500
     },
     {
       "epoch": 0.38461538461538464,
+      "eval_accuracy": 0.7156443176414645,
+      "eval_f1": 0.656711194356937,
+      "eval_loss": 1.1346296072006226,
+      "eval_runtime": 12.7812,
+      "eval_samples_per_second": 164.538,
+      "eval_steps_per_second": 20.577,
       "step": 500
     },
     {
       "epoch": 0.3923076923076923,
+      "grad_norm": 7.389800548553467,
+      "learning_rate": 0.00018436923076923077,
+      "loss": 0.3531,
       "step": 510
     },
     {
       "epoch": 0.4,
+      "grad_norm": 6.2316060066223145,
+      "learning_rate": 0.00018406153846153847,
+      "loss": 0.4253,
       "step": 520
     },
     {
       "epoch": 0.4076923076923077,
+      "grad_norm": 13.33460807800293,
+      "learning_rate": 0.00018375384615384617,
+      "loss": 0.23,
       "step": 530
     },
     {
       "epoch": 0.4153846153846154,
+      "grad_norm": 6.275513172149658,
+      "learning_rate": 0.00018344615384615384,
+      "loss": 0.6893,
       "step": 540
     },
     {
       "epoch": 0.4230769230769231,
+      "grad_norm": 7.9323649406433105,
+      "learning_rate": 0.00018313846153846154,
+      "loss": 0.5152,
       "step": 550
     },
     {
       "epoch": 0.4307692307692308,
+      "grad_norm": 0.08034035563468933,
+      "learning_rate": 0.00018283076923076926,
+      "loss": 0.3934,
       "step": 560
     },
     {
       "epoch": 0.43846153846153846,
+      "grad_norm": 0.45259109139442444,
+      "learning_rate": 0.00018252307692307693,
+      "loss": 0.332,
       "step": 570
     },
     {
       "epoch": 0.4461538461538462,
+      "grad_norm": 8.854157447814941,
+      "learning_rate": 0.00018221538461538463,
+      "loss": 0.321,
       "step": 580
     },
     {
       "epoch": 0.45384615384615384,
+      "grad_norm": 6.054807662963867,
+      "learning_rate": 0.00018190769230769233,
+      "loss": 0.2757,
       "step": 590
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 0.04787035658955574,
+      "learning_rate": 0.00018160000000000002,
+      "loss": 0.3872,
       "step": 600
     },
     {
       "epoch": 0.46153846153846156,
+      "eval_accuracy": 0.7689015691868759,
+      "eval_f1": 0.6869204779737752,
+      "eval_loss": 1.0171802043914795,
+      "eval_runtime": 12.8764,
+      "eval_samples_per_second": 163.322,
+      "eval_steps_per_second": 20.425,
       "step": 600
     },
     {
       "epoch": 0.46923076923076923,
+      "grad_norm": 1.1864789724349976,
+      "learning_rate": 0.0001812923076923077,
+      "loss": 0.0565,
       "step": 610
     },
     {
       "epoch": 0.47692307692307695,
+      "grad_norm": 0.6733745336532593,
+      "learning_rate": 0.0001809846153846154,
+      "loss": 0.2029,
       "step": 620
     },
     {
       "epoch": 0.4846153846153846,
+      "grad_norm": 5.898662090301514,
+      "learning_rate": 0.0001806769230769231,
+      "loss": 0.3849,
       "step": 630
     },
     {
       "epoch": 0.49230769230769234,
+      "grad_norm": 11.095335006713867,
+      "learning_rate": 0.00018036923076923079,
+      "loss": 0.3647,
       "step": 640
     },
     {
       "epoch": 0.5,
+      "grad_norm": 1.633670687675476,
+      "learning_rate": 0.00018006153846153846,
+      "loss": 0.3256,
       "step": 650
     },
     {
       "epoch": 0.5076923076923077,
+      "grad_norm": 0.15434664487838745,
+      "learning_rate": 0.00017975384615384615,
+      "loss": 0.1804,
       "step": 660
     },
     {
       "epoch": 0.5153846153846153,
+      "grad_norm": 21.246501922607422,
+      "learning_rate": 0.00017944615384615385,
+      "loss": 0.5879,
       "step": 670
     },
     {
       "epoch": 0.5230769230769231,
+      "grad_norm": 4.079148769378662,
+      "learning_rate": 0.00017913846153846155,
+      "loss": 0.406,
       "step": 680
     },
     {
       "epoch": 0.5307692307692308,
+      "grad_norm": 14.820666313171387,
+      "learning_rate": 0.00017883076923076924,
+      "loss": 0.3732,
       "step": 690
     },
     {
       "epoch": 0.5384615384615384,
+      "grad_norm": 2.049006223678589,
+      "learning_rate": 0.00017852307692307692,
+      "loss": 0.2404,
       "step": 700
     },
     {
       "epoch": 0.5384615384615384,
+      "eval_accuracy": 0.7299096528768426,
+      "eval_f1": 0.7135465992080591,
+      "eval_loss": 1.1938942670822144,
+      "eval_runtime": 13.2482,
+      "eval_samples_per_second": 158.739,
+      "eval_steps_per_second": 19.852,
       "step": 700
     },
     {
       "epoch": 0.5461538461538461,
+      "grad_norm": 0.3764440715312958,
+      "learning_rate": 0.00017821538461538464,
+      "loss": 0.4883,
       "step": 710
     },
     {
       "epoch": 0.5538461538461539,
+      "grad_norm": 10.493640899658203,
+      "learning_rate": 0.0001779076923076923,
+      "loss": 0.3606,
       "step": 720
     },
     {
       "epoch": 0.5615384615384615,
+      "grad_norm": 5.019975662231445,
+      "learning_rate": 0.0001776,
+      "loss": 0.5277,
       "step": 730
     },
     {
       "epoch": 0.5692307692307692,
+      "grad_norm": 1.2601099014282227,
+      "learning_rate": 0.00017729230769230768,
+      "loss": 0.2193,
       "step": 740
     },
     {
       "epoch": 0.5769230769230769,
+      "grad_norm": 5.463764667510986,
+      "learning_rate": 0.0001769846153846154,
+      "loss": 0.3176,
       "step": 750
     },
     {
       "epoch": 0.5846153846153846,
+      "grad_norm": 3.235102653503418,
+      "learning_rate": 0.0001766769230769231,
+      "loss": 0.413,
       "step": 760
     },
     {
       "epoch": 0.5923076923076923,
+      "grad_norm": 2.2732224464416504,
+      "learning_rate": 0.00017636923076923077,
+      "loss": 0.2794,
       "step": 770
     },
     {
       "epoch": 0.6,
+      "grad_norm": 13.89130973815918,
+      "learning_rate": 0.00017606153846153847,
+      "loss": 0.7099,
       "step": 780
     },
     {
       "epoch": 0.6076923076923076,
+      "grad_norm": 11.57028865814209,
+      "learning_rate": 0.00017575384615384616,
+      "loss": 0.2651,
       "step": 790
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 8.592397689819336,
+      "learning_rate": 0.00017544615384615386,
+      "loss": 0.3426,
       "step": 800
     },
     {
       "epoch": 0.6153846153846154,
+      "eval_accuracy": 0.7123157394198764,
+      "eval_f1": 0.7012828617998541,
+      "eval_loss": 1.3790241479873657,
+      "eval_runtime": 13.256,
+      "eval_samples_per_second": 158.645,
+      "eval_steps_per_second": 19.84,
       "step": 800
     },
     {
       "epoch": 0.6230769230769231,
+      "grad_norm": 3.83967924118042,
+      "learning_rate": 0.00017513846153846153,
+      "loss": 0.2772,
       "step": 810
     },
     {
       "epoch": 0.6307692307692307,
+      "grad_norm": 7.842036247253418,
+      "learning_rate": 0.00017483076923076923,
+      "loss": 0.0811,
       "step": 820
     },
     {
       "epoch": 0.6384615384615384,
+      "grad_norm": 8.102109909057617,
+      "learning_rate": 0.00017452307692307693,
+      "loss": 0.284,
       "step": 830
     },
     {
       "epoch": 0.6461538461538462,
+      "grad_norm": 3.7149875164031982,
+      "learning_rate": 0.00017421538461538462,
+      "loss": 0.2836,
       "step": 840
     },
     {
       "epoch": 0.6538461538461539,
+      "grad_norm": 1.5214999914169312,
+      "learning_rate": 0.00017390769230769232,
+      "loss": 0.5645,
       "step": 850
     },
     {
       "epoch": 0.6615384615384615,
+      "grad_norm": 2.1466846466064453,
+      "learning_rate": 0.00017360000000000002,
+      "loss": 0.2513,
       "step": 860
     },
     {
       "epoch": 0.6692307692307692,
+      "grad_norm": 3.5235519409179688,
+      "learning_rate": 0.00017329230769230772,
+      "loss": 0.2663,
       "step": 870
     },
     {
       "epoch": 0.676923076923077,
+      "grad_norm": 14.82608699798584,
+      "learning_rate": 0.00017298461538461539,
+      "loss": 0.6103,
       "step": 880
     },
     {
       "epoch": 0.6846153846153846,
+      "grad_norm": 6.010519504547119,
+      "learning_rate": 0.00017267692307692308,
+      "loss": 0.3315,
       "step": 890
     },
     {
       "epoch": 0.6923076923076923,
+      "grad_norm": 4.174232006072998,
+      "learning_rate": 0.00017236923076923078,
+      "loss": 0.3455,
       "step": 900
     },
     {
       "epoch": 0.6923076923076923,
+      "eval_accuracy": 0.722301474084641,
+      "eval_f1": 0.6945099209124845,
+      "eval_loss": 1.2071079015731812,
+      "eval_runtime": 13.1782,
+      "eval_samples_per_second": 159.582,
+      "eval_steps_per_second": 19.957,
       "step": 900
     },
     {
       "epoch": 0.7,
+      "grad_norm": 0.17157310247421265,
+      "learning_rate": 0.00017206153846153848,
+      "loss": 0.5492,
       "step": 910
     },
     {
       "epoch": 0.7076923076923077,
+      "grad_norm": 1.049086570739746,
+      "learning_rate": 0.00017175384615384615,
+      "loss": 0.1558,
       "step": 920
     },
     {
       "epoch": 0.7153846153846154,
+      "grad_norm": 9.643935203552246,
+      "learning_rate": 0.00017144615384615385,
+      "loss": 0.2683,
       "step": 930
     },
     {
       "epoch": 0.7230769230769231,
+      "grad_norm": 4.239430904388428,
+      "learning_rate": 0.00017113846153846154,
+      "loss": 0.0683,
       "step": 940
     },
     {
       "epoch": 0.7307692307692307,
+      "grad_norm": 12.830389976501465,
+      "learning_rate": 0.00017083076923076924,
+      "loss": 0.3568,
       "step": 950
     },
     {
       "epoch": 0.7384615384615385,
+      "grad_norm": 11.543557167053223,
+      "learning_rate": 0.00017052307692307694,
+      "loss": 0.37,
       "step": 960
     },
     {
       "epoch": 0.7461538461538462,
+      "grad_norm": 0.12294139713048935,
+      "learning_rate": 0.0001702153846153846,
+      "loss": 0.2944,
       "step": 970
     },
     {
       "epoch": 0.7538461538461538,
+      "grad_norm": 3.925886631011963,
+      "learning_rate": 0.00016990769230769233,
+      "loss": 0.1135,
       "step": 980
     },
     {
       "epoch": 0.7615384615384615,
+      "grad_norm": 0.4756164848804474,
+      "learning_rate": 0.0001696,
+      "loss": 0.3048,
       "step": 990
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 9.28410816192627,
+      "learning_rate": 0.0001692923076923077,
+      "loss": 0.3843,
       "step": 1000
     },
     {
       "epoch": 0.7692307692307693,
+      "eval_accuracy": 0.5981930575368521,
+      "eval_f1": 0.6507281627404139,
+      "eval_loss": 2.4214253425598145,
+      "eval_runtime": 13.0632,
+      "eval_samples_per_second": 160.986,
+      "eval_steps_per_second": 20.133,
       "step": 1000
     },
     {
       "epoch": 0.7769230769230769,
+      "grad_norm": 2.1016364097595215,
+      "learning_rate": 0.0001689846153846154,
+      "loss": 0.5929,
       "step": 1010
     },
     {
       "epoch": 0.7846153846153846,
+      "grad_norm": 13.423405647277832,
+      "learning_rate": 0.0001686769230769231,
+      "loss": 0.2179,
       "step": 1020
     },
     {
       "epoch": 0.7923076923076923,
+      "grad_norm": 15.832393646240234,
+      "learning_rate": 0.00016836923076923076,
+      "loss": 0.3779,
       "step": 1030
     },
     {
       "epoch": 0.8,
+      "grad_norm": 4.272373199462891,
+      "learning_rate": 0.00016806153846153846,
+      "loss": 0.2062,
       "step": 1040
     },
     {
       "epoch": 0.8076923076923077,
+      "grad_norm": 19.82012939453125,
+      "learning_rate": 0.00016775384615384616,
+      "loss": 0.3419,
       "step": 1050
     },
     {
       "epoch": 0.8153846153846154,
+      "grad_norm": 1.0584157705307007,
+      "learning_rate": 0.00016744615384615386,
+      "loss": 0.2643,
       "step": 1060
     },
     {
       "epoch": 0.823076923076923,
+      "grad_norm": 8.123514175415039,
+      "learning_rate": 0.00016713846153846155,
+      "loss": 0.3832,
       "step": 1070
     },
     {
       "epoch": 0.8307692307692308,
+      "grad_norm": 0.30591386556625366,
+      "learning_rate": 0.00016683076923076922,
+      "loss": 0.3147,
       "step": 1080
     },
     {
       "epoch": 0.8384615384615385,
+      "grad_norm": 11.121192932128906,
+      "learning_rate": 0.00016652307692307695,
+      "loss": 0.2886,
       "step": 1090
     },
     {
       "epoch": 0.8461538461538461,
+      "grad_norm": 2.2156481742858887,
+      "learning_rate": 0.00016621538461538462,
+      "loss": 0.1851,
       "step": 1100
     },
     {
       "epoch": 0.8461538461538461,
+      "eval_accuracy": 0.7617689015691869,
+      "eval_f1": 0.7712739901548827,
+      "eval_loss": 0.9814907312393188,
+      "eval_runtime": 12.9429,
+      "eval_samples_per_second": 162.483,
+      "eval_steps_per_second": 20.32,
       "step": 1100
     },
     {
       "epoch": 0.8538461538461538,
+      "grad_norm": 4.73284912109375,
+      "learning_rate": 0.00016590769230769232,
+      "loss": 0.4132,
       "step": 1110
     },
     {
       "epoch": 0.8615384615384616,
+      "grad_norm": 8.023744583129883,
+      "learning_rate": 0.0001656,
+      "loss": 0.2097,
       "step": 1120
     },
     {
       "epoch": 0.8692307692307693,
+      "grad_norm": 0.5264157652854919,
+      "learning_rate": 0.0001652923076923077,
+      "loss": 0.2644,
       "step": 1130
     },
     {
       "epoch": 0.8769230769230769,
+      "grad_norm": 0.09222064912319183,
+      "learning_rate": 0.00016498461538461538,
+      "loss": 0.3584,
       "step": 1140
     },
     {
       "epoch": 0.8846153846153846,
+      "grad_norm": 5.8107757568359375,
+      "learning_rate": 0.00016467692307692308,
+      "loss": 0.1727,
       "step": 1150
     },
     {
       "epoch": 0.8923076923076924,
+      "grad_norm": 0.7490300536155701,
+      "learning_rate": 0.00016436923076923078,
+      "loss": 0.3538,
       "step": 1160
     },
     {
       "epoch": 0.9,
+      "grad_norm": 12.119208335876465,
+      "learning_rate": 0.00016406153846153847,
+      "loss": 0.1684,
       "step": 1170
     },
     {
       "epoch": 0.9076923076923077,
+      "grad_norm": 6.949498176574707,
+      "learning_rate": 0.00016375384615384617,
+      "loss": 0.2705,
       "step": 1180
     },
     {
       "epoch": 0.9153846153846154,
+      "grad_norm": 7.305801868438721,
+      "learning_rate": 0.00016344615384615384,
+      "loss": 0.226,
       "step": 1190
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 5.5069684982299805,
+      "learning_rate": 0.00016313846153846154,
+      "loss": 0.1783,
       "step": 1200
     },
     {
       "epoch": 0.9230769230769231,
+      "eval_accuracy": 0.7883975273418925,
+      "eval_f1": 0.7973086083953446,
+      "eval_loss": 0.8585250973701477,
+      "eval_runtime": 12.7217,
+      "eval_samples_per_second": 165.309,
+      "eval_steps_per_second": 20.673,
       "step": 1200
     },
     {
       "epoch": 0.9307692307692308,
+      "grad_norm": 0.19160787761211395,
+      "learning_rate": 0.00016283076923076924,
+      "loss": 0.2238,
       "step": 1210
     },
     {
       "epoch": 0.9384615384615385,
+      "grad_norm": 8.888996124267578,
+      "learning_rate": 0.00016252307692307693,
+      "loss": 0.3376,
       "step": 1220
     },
     {
       "epoch": 0.9461538461538461,
+      "grad_norm": 0.8629558086395264,
+      "learning_rate": 0.0001622153846153846,
+      "loss": 0.1931,
       "step": 1230
     },
     {
       "epoch": 0.9538461538461539,
+      "grad_norm": 9.519225120544434,
+      "learning_rate": 0.00016190769230769233,
+      "loss": 0.4684,
       "step": 1240
     },
     {
       "epoch": 0.9615384615384616,
+      "grad_norm": 14.200179100036621,
+      "learning_rate": 0.00016160000000000002,
+      "loss": 0.4139,
       "step": 1250
     },
     {
       "epoch": 0.9692307692307692,
+      "grad_norm": 7.553689479827881,
+      "learning_rate": 0.0001612923076923077,
+      "loss": 0.0796,
       "step": 1260
     },
     {
       "epoch": 0.9769230769230769,
+      "grad_norm": 0.355137437582016,
+      "learning_rate": 0.0001609846153846154,
+      "loss": 0.2785,
       "step": 1270
     },
     {
       "epoch": 0.9846153846153847,
+      "grad_norm": 10.454266548156738,
+      "learning_rate": 0.0001606769230769231,
+      "loss": 0.2214,
       "step": 1280
     },
     {
       "epoch": 0.9923076923076923,
+      "grad_norm": 4.790037631988525,
+      "learning_rate": 0.0001603692307692308,
+      "loss": 0.2865,
       "step": 1290
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.6874844431877136,
+      "learning_rate": 0.00016006153846153846,
+      "loss": 0.2812,
       "step": 1300
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7394198763670946,
+      "eval_f1": 0.7475294511131121,
+      "eval_loss": 1.416084885597229,
+      "eval_runtime": 12.6074,
+      "eval_samples_per_second": 166.807,
+      "eval_steps_per_second": 20.861,
       "step": 1300
     },
     {
       "epoch": 1.0076923076923077,
+      "grad_norm": 27.64440155029297,
+      "learning_rate": 0.00015975384615384615,
+      "loss": 0.3337,
       "step": 1310
     },
     {
       "epoch": 1.0153846153846153,
+      "grad_norm": 6.039366722106934,
+      "learning_rate": 0.00015944615384615385,
+      "loss": 0.1274,
       "step": 1320
     },
     {
       "epoch": 1.023076923076923,
+      "grad_norm": 2.63989520072937,
+      "learning_rate": 0.00015913846153846155,
+      "loss": 0.1286,
       "step": 1330
     },
     {
       "epoch": 1.0307692307692307,
+      "grad_norm": 0.025664901360869408,
+      "learning_rate": 0.00015883076923076922,
+      "loss": 0.0268,
       "step": 1340
     },
     {
       "epoch": 1.0384615384615385,
+      "grad_norm": 0.7110622525215149,
+      "learning_rate": 0.00015852307692307692,
+      "loss": 0.2141,
       "step": 1350
     },
     {
       "epoch": 1.0461538461538462,
+      "grad_norm": 0.16841351985931396,
+      "learning_rate": 0.00015821538461538464,
+      "loss": 0.1706,
       "step": 1360
     },
     {
       "epoch": 1.0538461538461539,
+      "grad_norm": 2.8135828971862793,
+      "learning_rate": 0.0001579076923076923,
+      "loss": 0.213,
       "step": 1370
     },
     {
       "epoch": 1.0615384615384615,
+      "grad_norm": 6.7190937995910645,
+      "learning_rate": 0.0001576,
+      "loss": 0.1559,
       "step": 1380
     },
     {
       "epoch": 1.0692307692307692,
+      "grad_norm": 1.2817728519439697,
+      "learning_rate": 0.0001572923076923077,
+      "loss": 0.1296,
       "step": 1390
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 8.388606071472168,
+      "learning_rate": 0.0001569846153846154,
+      "loss": 0.0788,
       "step": 1400
     },
     {
       "epoch": 1.0769230769230769,
+      "eval_accuracy": 0.7769852591535901,
+      "eval_f1": 0.7855219452383467,
+      "eval_loss": 1.0477243661880493,
+      "eval_runtime": 12.6229,
+      "eval_samples_per_second": 166.602,
+      "eval_steps_per_second": 20.835,
       "step": 1400
     },
     {
       "epoch": 1.0846153846153845,
+      "grad_norm": 9.62314510345459,
+      "learning_rate": 0.00015667692307692307,
+      "loss": 0.421,
       "step": 1410
     },
     {
       "epoch": 1.0923076923076924,
+      "grad_norm": 6.402166366577148,
+      "learning_rate": 0.00015636923076923077,
+      "loss": 0.1328,
       "step": 1420
     },
     {
       "epoch": 1.1,
+      "grad_norm": 3.701634168624878,
+      "learning_rate": 0.00015606153846153847,
+      "loss": 0.0716,
       "step": 1430
     },
     {
       "epoch": 1.1076923076923078,
+      "grad_norm": 0.01674058847129345,
+      "learning_rate": 0.00015575384615384617,
+      "loss": 0.0287,
       "step": 1440
     },
     {
       "epoch": 1.1153846153846154,
+      "grad_norm": 1.9546364545822144,
+      "learning_rate": 0.00015544615384615386,
+      "loss": 0.2283,
       "step": 1450
     },
     {
       "epoch": 1.123076923076923,
+      "grad_norm": 14.071533203125,
+      "learning_rate": 0.00015513846153846153,
+      "loss": 0.3448,
       "step": 1460
     },
     {
       "epoch": 1.1307692307692307,
+      "grad_norm": 4.5133585929870605,
+      "learning_rate": 0.00015483076923076926,
+      "loss": 0.0917,
       "step": 1470
     },
     {
       "epoch": 1.1384615384615384,
+      "grad_norm": 1.5091907978057861,
+      "learning_rate": 0.00015452307692307693,
+      "loss": 0.2924,
       "step": 1480
     },
     {
       "epoch": 1.146153846153846,
+      "grad_norm": 0.01831883378326893,
+      "learning_rate": 0.00015421538461538463,
+      "loss": 0.167,
       "step": 1490
     },
     {
       "epoch": 1.1538461538461537,
+      "grad_norm": 0.15469826757907867,
+      "learning_rate": 0.0001539076923076923,
+      "loss": 0.1853,
       "step": 1500
     },
     {
       "epoch": 1.1538461538461537,
+      "eval_accuracy": 0.7788873038516405,
+      "eval_f1": 0.7907369196346151,
+      "eval_loss": 1.0843039751052856,
+      "eval_runtime": 12.9085,
+      "eval_samples_per_second": 162.916,
+      "eval_steps_per_second": 20.374,
       "step": 1500
     },
     {
       "epoch": 1.1615384615384616,
+      "grad_norm": 0.009273377247154713,
+      "learning_rate": 0.00015360000000000002,
+      "loss": 0.133,
       "step": 1510
     },
     {
       "epoch": 1.1692307692307693,
+      "grad_norm": 19.926687240600586,
+      "learning_rate": 0.0001532923076923077,
+      "loss": 0.1644,
       "step": 1520
     },
     {
       "epoch": 1.176923076923077,
+      "grad_norm": 2.141300678253174,
+      "learning_rate": 0.0001529846153846154,
+      "loss": 0.2778,
       "step": 1530
     },
     {
       "epoch": 1.1846153846153846,
+      "grad_norm": 9.439351081848145,
+      "learning_rate": 0.00015267692307692309,
+      "loss": 0.1928,
       "step": 1540
     },
     {
       "epoch": 1.1923076923076923,
+      "grad_norm": 2.3497989177703857,
+      "learning_rate": 0.00015236923076923078,
+      "loss": 0.0872,
       "step": 1550
     },
     {
       "epoch": 1.2,
+      "grad_norm": 0.3300742506980896,
+      "learning_rate": 0.00015206153846153848,
+      "loss": 0.0773,
       "step": 1560
     },
     {
       "epoch": 1.2076923076923076,
+      "grad_norm": 4.574916839599609,
+      "learning_rate": 0.00015175384615384615,
+      "loss": 0.1768,
       "step": 1570
     },
     {
       "epoch": 1.2153846153846155,
+      "grad_norm": 2.860717535018921,
+      "learning_rate": 0.00015144615384615385,
+      "loss": 0.1335,
       "step": 1580
     },
     {
       "epoch": 1.2230769230769232,
+      "grad_norm": 0.060734041035175323,
+      "learning_rate": 0.00015113846153846154,
+      "loss": 0.1425,
       "step": 1590
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 2.519880533218384,
+      "learning_rate": 0.00015083076923076924,
+      "loss": 0.0463,
       "step": 1600
     },
     {
       "epoch": 1.2307692307692308,
+      "eval_accuracy": 0.785544460294817,
+      "eval_f1": 0.7421672482958516,
+      "eval_loss": 1.1819196939468384,
+      "eval_runtime": 12.7239,
+      "eval_samples_per_second": 165.279,
+      "eval_steps_per_second": 20.67,
       "step": 1600
     },
     {
       "epoch": 1.2384615384615385,
+      "grad_norm": 0.014092416502535343,
+      "learning_rate": 0.0001505230769230769,
+      "loss": 0.347,
       "step": 1610
     },
     {
       "epoch": 1.2461538461538462,
+      "grad_norm": 0.021726811304688454,
+      "learning_rate": 0.00015021538461538464,
+      "loss": 0.1134,
       "step": 1620
     },
     {
       "epoch": 1.2538461538461538,
+      "grad_norm": 0.019754081964492798,
+      "learning_rate": 0.0001499076923076923,
+      "loss": 0.1126,
       "step": 1630
     },
     {
       "epoch": 1.2615384615384615,
+      "grad_norm": 0.018249794840812683,
+      "learning_rate": 0.0001496,
+      "loss": 0.0706,
       "step": 1640
     },
     {
       "epoch": 1.2692307692307692,
+      "grad_norm": 0.013677536509931087,
+      "learning_rate": 0.0001492923076923077,
+      "loss": 0.0554,
       "step": 1650
     },
     {
       "epoch": 1.2769230769230768,
+      "grad_norm": 11.756999969482422,
+      "learning_rate": 0.0001489846153846154,
+      "loss": 0.3888,
       "step": 1660
     },
     {
       "epoch": 1.2846153846153845,
+      "grad_norm": 0.5001311898231506,
+      "learning_rate": 0.0001486769230769231,
+      "loss": 0.3604,
       "step": 1670
     },
     {
       "epoch": 1.2923076923076924,
+      "grad_norm": 4.095685005187988,
+      "learning_rate": 0.00014836923076923077,
+      "loss": 0.0589,
       "step": 1680
     },
     {
       "epoch": 1.3,
+      "grad_norm": 0.42667385935783386,
+      "learning_rate": 0.00014806153846153846,
+      "loss": 0.1972,
       "step": 1690
     },
     {
       "epoch": 1.3076923076923077,
+      "grad_norm": 0.4370737075805664,
+      "learning_rate": 0.00014775384615384616,
+      "loss": 0.1846,
       "step": 1700
     },
     {
       "epoch": 1.3076923076923077,
+      "eval_accuracy": 0.7936281502615311,
+      "eval_f1": 0.7834925540357461,
+      "eval_loss": 0.9226651191711426,
+      "eval_runtime": 13.0044,
+      "eval_samples_per_second": 161.714,
+      "eval_steps_per_second": 20.224,
       "step": 1700
     },
     {
       "epoch": 1.3153846153846154,
+      "grad_norm": 2.9129936695098877,
+      "learning_rate": 0.00014744615384615386,
+      "loss": 0.0855,
       "step": 1710
     },
     {
       "epoch": 1.323076923076923,
+      "grad_norm": 0.003025891724973917,
+      "learning_rate": 0.00014713846153846153,
+      "loss": 0.1383,
       "step": 1720
     },
     {
       "epoch": 1.3307692307692307,
+      "grad_norm": 20.243345260620117,
+      "learning_rate": 0.00014683076923076923,
+      "loss": 0.3327,
       "step": 1730
     },
     {
       "epoch": 1.3384615384615386,
+      "grad_norm": 0.08103461563587189,
+      "learning_rate": 0.00014652307692307695,
+      "loss": 0.0665,
       "step": 1740
     },
     {
       "epoch": 1.3461538461538463,
+      "grad_norm": 7.912471771240234,
+      "learning_rate": 0.00014621538461538462,
+      "loss": 0.2611,
       "step": 1750
     },
     {
       "epoch": 1.353846153846154,
+      "grad_norm": 3.1439859867095947,
+      "learning_rate": 0.00014590769230769232,
+      "loss": 0.148,
       "step": 1760
     },
     {
       "epoch": 1.3615384615384616,
+      "grad_norm": 0.005958245135843754,
+      "learning_rate": 0.00014560000000000002,
+      "loss": 0.2973,
       "step": 1770
     },
     {
       "epoch": 1.3692307692307693,
+      "grad_norm": 0.0040934206917881966,
+      "learning_rate": 0.0001452923076923077,
+      "loss": 0.0725,
       "step": 1780
     },
     {
       "epoch": 1.376923076923077,
+      "grad_norm": 0.35973867774009705,
+      "learning_rate": 0.00014498461538461538,
+      "loss": 0.2344,
       "step": 1790
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 1.3999979496002197,
+      "learning_rate": 0.00014467692307692308,
+      "loss": 0.0886,
       "step": 1800
     },
     {
       "epoch": 1.3846153846153846,
+      "eval_accuracy": 0.755587256300523,
+      "eval_f1": 0.760332968619484,
+      "eval_loss": 1.336824655532837,
+      "eval_runtime": 13.0885,
+      "eval_samples_per_second": 160.676,
+      "eval_steps_per_second": 20.094,
       "step": 1800
     },
     {
       "epoch": 1.3923076923076922,
+      "grad_norm": 12.196135520935059,
+      "learning_rate": 0.00014436923076923078,
+      "loss": 0.1538,
       "step": 1810
     },
     {
       "epoch": 1.4,
+      "grad_norm": 0.052580125629901886,
+      "learning_rate": 0.00014406153846153848,
+      "loss": 0.287,
       "step": 1820
     },
     {
       "epoch": 1.4076923076923076,
+      "grad_norm": 15.731462478637695,
+      "learning_rate": 0.00014375384615384615,
+      "loss": 0.2438,
       "step": 1830
     },
     {
       "epoch": 1.4153846153846155,
+      "grad_norm": 1.4881103038787842,
+      "learning_rate": 0.00014344615384615384,
+      "loss": 0.0786,
       "step": 1840
     },
     {
       "epoch": 1.4230769230769231,
+      "grad_norm": 0.061750538647174835,
+      "learning_rate": 0.00014313846153846157,
+      "loss": 0.1427,
       "step": 1850
     },
     {
       "epoch": 1.4307692307692308,
+      "grad_norm": 0.21189741790294647,
+      "learning_rate": 0.00014283076923076924,
+      "loss": 0.1164,
       "step": 1860
     },
     {
       "epoch": 1.4384615384615385,
+      "grad_norm": 0.04826455935835838,
+      "learning_rate": 0.00014252307692307693,
+      "loss": 0.0384,
       "step": 1870
     },
     {
       "epoch": 1.4461538461538461,
+      "grad_norm": 1.3123809099197388,
+      "learning_rate": 0.0001422153846153846,
+      "loss": 0.4418,
       "step": 1880
     },
     {
       "epoch": 1.4538461538461538,
+      "grad_norm": 14.41169548034668,
+      "learning_rate": 0.00014190769230769233,
+      "loss": 0.0724,
       "step": 1890
     },
     {
       "epoch": 1.4615384615384617,
+      "grad_norm": 0.010243662633001804,
+      "learning_rate": 0.0001416,
+      "loss": 0.1971,
       "step": 1900
     },
     {
       "epoch": 1.4615384615384617,
+      "eval_accuracy": 0.7527341892534475,
+      "eval_f1": 0.7412732500492302,
+      "eval_loss": 1.3275840282440186,
+      "eval_runtime": 13.034,
+      "eval_samples_per_second": 161.348,
+      "eval_steps_per_second": 20.178,
       "step": 1900
     },
     {
       "epoch": 1.4692307692307693,
+      "grad_norm": 0.004571467638015747,
+      "learning_rate": 0.0001412923076923077,
+      "loss": 0.2237,
       "step": 1910
     },
     {
       "epoch": 1.476923076923077,
+      "grad_norm": 0.652137279510498,
+      "learning_rate": 0.0001409846153846154,
+      "loss": 0.1416,
       "step": 1920
     },
     {
       "epoch": 1.4846153846153847,
+      "grad_norm": 1.6183210611343384,
+      "learning_rate": 0.0001406769230769231,
+      "loss": 0.1199,
       "step": 1930
     },
     {
       "epoch": 1.4923076923076923,
+      "grad_norm": 6.971846103668213,
+      "learning_rate": 0.0001403692307692308,
+      "loss": 0.1777,
       "step": 1940
     },
     {
       "epoch": 1.5,
+      "grad_norm": 1.2869207859039307,
+      "learning_rate": 0.00014006153846153846,
+      "loss": 0.1312,
       "step": 1950
     },
     {
       "epoch": 1.5076923076923077,
+      "grad_norm": 11.167072296142578,
+      "learning_rate": 0.00013975384615384616,
+      "loss": 0.1798,
       "step": 1960
     },
     {
       "epoch": 1.5153846153846153,
+      "grad_norm": 3.460939407348633,
+      "learning_rate": 0.00013944615384615385,
+      "loss": 0.0561,
       "step": 1970
     },
     {
       "epoch": 1.523076923076923,
+      "grad_norm": 13.122215270996094,
+      "learning_rate": 0.00013913846153846155,
+      "loss": 0.3705,
       "step": 1980
     },
     {
       "epoch": 1.5307692307692307,
+      "grad_norm": 0.06862486898899078,
+      "learning_rate": 0.00013883076923076922,
+      "loss": 0.0927,
       "step": 1990
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 0.11031440645456314,
+      "learning_rate": 0.00013852307692307695,
+      "loss": 0.2069,
       "step": 2000
     },
     {
       "epoch": 1.5384615384615383,
+      "eval_accuracy": 0.7727056585829767,
+      "eval_f1": 0.7804628247388471,
+      "eval_loss": 1.3338302373886108,
+      "eval_runtime": 12.9099,
+      "eval_samples_per_second": 162.898,
+      "eval_steps_per_second": 20.372,
       "step": 2000
     },
     {
       "epoch": 1.546153846153846,
+      "grad_norm": 0.09383740276098251,
+      "learning_rate": 0.00013821538461538462,
+      "loss": 0.1164,
       "step": 2010
     },
     {
       "epoch": 1.5538461538461539,
+      "grad_norm": 0.005354443099349737,
+      "learning_rate": 0.0001379076923076923,
+      "loss": 0.1628,
       "step": 2020
     },
     {
       "epoch": 1.5615384615384615,
+      "grad_norm": 0.48392564058303833,
+      "learning_rate": 0.00013759999999999998,
+      "loss": 0.107,
       "step": 2030
     },
     {
       "epoch": 1.5692307692307692,
+      "grad_norm": 0.013797705993056297,
       "learning_rate": 0.00013732307692307694,
+      "loss": 0.1443,
       "step": 2040
     },
     {
       "epoch": 1.5769230769230769,
+      "grad_norm": 0.0021225737873464823,
       "learning_rate": 0.00013701538461538461,
+      "loss": 0.0892,
       "step": 2050
     },
     {
       "epoch": 1.5846153846153848,
+      "grad_norm": 0.409858763217926,
       "learning_rate": 0.0001367076923076923,
+      "loss": 0.1198,
       "step": 2060
     },
     {
       "epoch": 1.5923076923076924,
+      "grad_norm": 0.07346770912408829,
       "learning_rate": 0.0001364,
+      "loss": 0.1431,
       "step": 2070
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.07542140781879425,
       "learning_rate": 0.0001360923076923077,
+      "loss": 0.0692,
       "step": 2080
     },
     {
       "epoch": 1.6076923076923078,
+      "grad_norm": 12.474515914916992,
       "learning_rate": 0.0001357846153846154,
+      "loss": 0.2697,
       "step": 2090
     },
     {
       "epoch": 1.6153846153846154,
+      "grad_norm": 1.3258837461471558,
       "learning_rate": 0.00013547692307692307,
+      "loss": 0.1479,
       "step": 2100
     },
     {
       "epoch": 1.6153846153846154,
+      "eval_accuracy": 0.7717546362339515,
+      "eval_f1": 0.8021104948644624,
+      "eval_loss": 1.2605870962142944,
+      "eval_runtime": 12.6589,
+      "eval_samples_per_second": 166.128,
+      "eval_steps_per_second": 20.776,
       "step": 2100
     },
     {
       "epoch": 1.623076923076923,
+      "grad_norm": 0.09133293479681015,
       "learning_rate": 0.00013516923076923077,
+      "loss": 0.0579,
       "step": 2110
     },
     {
       "epoch": 1.6307692307692307,
+      "grad_norm": 0.13408294320106506,
       "learning_rate": 0.00013486153846153847,
+      "loss": 0.1774,
       "step": 2120
     },
     {
       "epoch": 1.6384615384615384,
+      "grad_norm": 0.02371808886528015,
       "learning_rate": 0.00013455384615384617,
+      "loss": 0.1071,
       "step": 2130
     },
     {
       "epoch": 1.646153846153846,
+      "grad_norm": 0.03445754200220108,
       "learning_rate": 0.00013424615384615384,
+      "loss": 0.063,
       "step": 2140
     },
     {
       "epoch": 1.6538461538461537,
+      "grad_norm": 11.491479873657227,
       "learning_rate": 0.00013393846153846153,
+      "loss": 0.1706,
       "step": 2150
     },
     {
       "epoch": 1.6615384615384614,
+      "grad_norm": 5.018512725830078,
       "learning_rate": 0.00013363076923076926,
+      "loss": 0.126,
       "step": 2160
     },
     {
       "epoch": 1.669230769230769,
+      "grad_norm": 0.008263733237981796,
       "learning_rate": 0.00013332307692307693,
+      "loss": 0.1425,
       "step": 2170
     },
     {
       "epoch": 1.676923076923077,
+      "grad_norm": 1.61963951587677,
       "learning_rate": 0.00013301538461538463,
+      "loss": 0.2236,
       "step": 2180
     },
     {
       "epoch": 1.6846153846153846,
+      "grad_norm": 0.2399456948041916,
       "learning_rate": 0.00013270769230769232,
+      "loss": 0.2712,
       "step": 2190
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 16.2120418548584,
       "learning_rate": 0.00013240000000000002,
+      "loss": 0.1076,
       "step": 2200
     },
     {
       "epoch": 1.6923076923076923,
+      "eval_accuracy": 0.8007608178792202,
+      "eval_f1": 0.8183142194677944,
+      "eval_loss": 0.9954975247383118,
+      "eval_runtime": 12.719,
+      "eval_samples_per_second": 165.344,
+      "eval_steps_per_second": 20.678,
       "step": 2200
     },
     {
+      "epoch": 1.6923076923076923,
+      "step": 2200,
+      "total_flos": 1.3637892549580186e+18,
+      "train_loss": 0.3320726641470736,
+      "train_runtime": 627.5337,
+      "train_samples_per_second": 82.824,
+      "train_steps_per_second": 10.358
     }
   ],
   "logging_steps": 10,
     "EarlyStoppingCallback": {
       "args": {
         "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0001
       },
       "attributes": {
         "early_stopping_patience_counter": 10
       "attributes": {}
     }
   },
+  "total_flos": 1.3637892549580186e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null