Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +11 -6
eval_results.json +6 -6
model.safetensors +1 -1
runs/Jan10_17-02-19_d30be481abf6/events.out.tfevents.1736542147.d30be481abf6.3489.5 +3 -0
runs/Jan10_20-53-50_d30be481abf6/events.out.tfevents.1736542449.d30be481abf6.3489.6 +3 -0
train_results.json +6 -6
trainer_state.json +927 -501
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,13 @@
 {
-    "epoch": 20.0,
-    "total_flos": 1.2269789449924608e+18,
-    "train_loss": 8.366611099243164,
-    "train_runtime": 1658.1045,
-    "train_samples_per_second": 41.759,
-    "train_steps_per_second": 0.084
 }

 {
+    "epoch": 100.0,
+    "eval_accuracy": 0.7954939341421143,
+    "eval_loss": 0.8635059595108032,
+    "eval_runtime": 20.1007,
+    "eval_samples_per_second": 57.411,
+    "eval_steps_per_second": 0.497,
+    "total_flos": 6.134894724962304e+18,
+    "train_loss": 3.4289448138645717,
+    "train_runtime": 8283.6476,
+    "train_samples_per_second": 41.793,
+    "train_steps_per_second": 0.085
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 27.0,
-    "eval_accuracy": 0.42857142857142855,
-    "eval_loss": 2.1981732845306396,
-    "eval_runtime": 1.4229,
-    "eval_samples_per_second": 44.275,
-    "eval_steps_per_second": 11.244
 }

 {
+    "epoch": 100.0,
+    "eval_accuracy": 0.7954939341421143,
+    "eval_loss": 0.8635059595108032,
+    "eval_runtime": 20.1007,
+    "eval_samples_per_second": 57.411,
+    "eval_steps_per_second": 0.497
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c717f0038a6816912731c1b8fd868289ea37b3f4b3420b7567c0c3655ddcba7
 size 78658852

 version https://git-lfs.github.com/spec/v1
+oid sha256:55a03acd8c0bad8dacd709687a5e47875bceea009c5507ad4867468667b387b4
 size 78658852

runs/Jan10_17-02-19_d30be481abf6/events.out.tfevents.1736542147.d30be481abf6.3489.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a94820334bf537e2fa83f350b280dbd175864c36047bb05bf4df7a7d4621379
+size 411

runs/Jan10_20-53-50_d30be481abf6/events.out.tfevents.1736542449.d30be481abf6.3489.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69e07875b82ac7207520ff12ce58f96c6d6f0cdcbb3366e79868a41686eb07ef
+size 8807

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 20.0,
-    "total_flos": 1.2269789449924608e+18,
-    "train_loss": 8.366611099243164,
-    "train_runtime": 1658.1045,
-    "train_samples_per_second": 41.759,
-    "train_steps_per_second": 0.084
 }

 {
+    "epoch": 100.0,
+    "total_flos": 6.134894724962304e+18,
+    "train_loss": 3.4289448138645717,
+    "train_runtime": 8283.6476,
+    "train_samples_per_second": 41.793,
+    "train_steps_per_second": 0.085
 }

trainer_state.json CHANGED Viewed

@@ -1,985 +1,1411 @@
 {
-  "best_metric": 0.7140381282495667,
-  "best_model_checkpoint": "cvt-13-normal/checkpoint-483",
-  "epoch": 70.42857142857143,
   "eval_steps": 500,
-  "global_step": 493,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5441941074523396,
-      "eval_loss": 1.7207281589508057,
-      "eval_runtime": 17.8598,
-      "eval_samples_per_second": 64.614,
-      "eval_steps_per_second": 0.56,
       "step": 7
     },
     {
       "epoch": 1.4285714285714286,
-      "grad_norm": 5.889595031738281,
-      "learning_rate": 4.2857142857142855e-06,
-      "loss": 7.8206,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5476603119584056,
-      "eval_loss": 1.7008943557739258,
-      "eval_runtime": 17.8351,
-      "eval_samples_per_second": 64.704,
-      "eval_steps_per_second": 0.561,
       "step": 14
     },
     {
       "epoch": 2.857142857142857,
-      "grad_norm": 5.1420416831970215,
-      "learning_rate": 8.571428571428571e-06,
-      "loss": 7.8605,
       "step": 20
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5476603119584056,
-      "eval_loss": 1.6983410120010376,
-      "eval_runtime": 18.0689,
-      "eval_samples_per_second": 63.867,
-      "eval_steps_per_second": 0.553,
       "step": 21
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5493934142114385,
-      "eval_loss": 1.6871569156646729,
-      "eval_runtime": 17.8993,
-      "eval_samples_per_second": 64.472,
-      "eval_steps_per_second": 0.559,
       "step": 28
     },
     {
       "epoch": 4.285714285714286,
-      "grad_norm": 7.019086837768555,
-      "learning_rate": 1.2857142857142857e-05,
-      "loss": 7.6321,
       "step": 30
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5528596187175043,
-      "eval_loss": 1.6777015924453735,
-      "eval_runtime": 17.7744,
-      "eval_samples_per_second": 64.925,
-      "eval_steps_per_second": 0.563,
       "step": 35
     },
     {
       "epoch": 5.714285714285714,
-      "grad_norm": 7.464715003967285,
-      "learning_rate": 1.7142857142857142e-05,
-      "loss": 7.6979,
       "step": 40
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5537261698440208,
-      "eval_loss": 1.6649365425109863,
-      "eval_runtime": 18.063,
-      "eval_samples_per_second": 63.888,
-      "eval_steps_per_second": 0.554,
       "step": 42
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5545927209705372,
-      "eval_loss": 1.645348072052002,
-      "eval_runtime": 17.915,
-      "eval_samples_per_second": 64.415,
-      "eval_steps_per_second": 0.558,
       "step": 49
     },
     {
       "epoch": 7.142857142857143,
-      "grad_norm": 5.575019359588623,
-      "learning_rate": 2.1428571428571428e-05,
-      "loss": 7.6676,
       "step": 50
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5589254766031195,
-      "eval_loss": 1.62311589717865,
-      "eval_runtime": 18.2755,
-      "eval_samples_per_second": 63.145,
-      "eval_steps_per_second": 0.547,
       "step": 56
     },
     {
       "epoch": 8.571428571428571,
-      "grad_norm": 5.814152717590332,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 7.5464,
       "step": 60
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.5597920277296361,
-      "eval_loss": 1.6006678342819214,
-      "eval_runtime": 17.9099,
-      "eval_samples_per_second": 64.434,
-      "eval_steps_per_second": 0.558,
       "step": 63
     },
     {
       "epoch": 10.0,
-      "grad_norm": 13.754400253295898,
-      "learning_rate": 3e-05,
-      "loss": 7.5915,
       "step": 70
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.5675909878682842,
-      "eval_loss": 1.5768613815307617,
-      "eval_runtime": 17.9864,
-      "eval_samples_per_second": 64.16,
-      "eval_steps_per_second": 0.556,
       "step": 70
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.5701906412478336,
-      "eval_loss": 1.5586786270141602,
-      "eval_runtime": 17.9226,
-      "eval_samples_per_second": 64.388,
-      "eval_steps_per_second": 0.558,
       "step": 77
     },
     {
       "epoch": 11.428571428571429,
-      "grad_norm": 5.879215717315674,
-      "learning_rate": 2.9523809523809523e-05,
-      "loss": 7.402,
       "step": 80
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.5788561525129983,
-      "eval_loss": 1.536378264427185,
-      "eval_runtime": 17.7909,
-      "eval_samples_per_second": 64.865,
-      "eval_steps_per_second": 0.562,
       "step": 84
     },
     {
       "epoch": 12.857142857142858,
-      "grad_norm": 6.11987829208374,
-      "learning_rate": 2.904761904761905e-05,
-      "loss": 7.3927,
       "step": 90
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.5901213171577123,
-      "eval_loss": 1.5154387950897217,
-      "eval_runtime": 18.0226,
-      "eval_samples_per_second": 64.031,
-      "eval_steps_per_second": 0.555,
       "step": 91
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.5909878682842288,
-      "eval_loss": 1.4974240064620972,
-      "eval_runtime": 18.0511,
-      "eval_samples_per_second": 63.93,
-      "eval_steps_per_second": 0.554,
       "step": 98
     },
     {
       "epoch": 14.285714285714286,
-      "grad_norm": 5.535419940948486,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 7.3485,
       "step": 100
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.598786828422877,
-      "eval_loss": 1.4781272411346436,
-      "eval_runtime": 17.949,
-      "eval_samples_per_second": 64.293,
-      "eval_steps_per_second": 0.557,
       "step": 105
     },
     {
       "epoch": 15.714285714285714,
-      "grad_norm": 5.653200626373291,
-      "learning_rate": 2.8095238095238096e-05,
-      "loss": 7.2043,
       "step": 110
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.6005199306759099,
-      "eval_loss": 1.45522141456604,
-      "eval_runtime": 17.8923,
-      "eval_samples_per_second": 64.497,
-      "eval_steps_per_second": 0.559,
       "step": 112
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.608318890814558,
-      "eval_loss": 1.4350148439407349,
-      "eval_runtime": 17.9807,
-      "eval_samples_per_second": 64.18,
-      "eval_steps_per_second": 0.556,
       "step": 119
     },
     {
       "epoch": 17.142857142857142,
-      "grad_norm": 7.7084059715271,
-      "learning_rate": 2.761904761904762e-05,
-      "loss": 7.1885,
       "step": 120
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.6143847487001733,
-      "eval_loss": 1.4141334295272827,
-      "eval_runtime": 18.3637,
-      "eval_samples_per_second": 62.841,
-      "eval_steps_per_second": 0.545,
       "step": 126
     },
     {
       "epoch": 18.571428571428573,
-      "grad_norm": 6.948986530303955,
-      "learning_rate": 2.7142857142857144e-05,
-      "loss": 6.9858,
       "step": 130
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.6135181975736569,
-      "eval_loss": 1.401322364807129,
-      "eval_runtime": 17.9636,
-      "eval_samples_per_second": 64.241,
-      "eval_steps_per_second": 0.557,
       "step": 133
     },
     {
       "epoch": 20.0,
-      "grad_norm": 15.973128318786621,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 7.0214,
       "step": 140
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.6187175043327556,
-      "eval_loss": 1.3919869661331177,
-      "eval_runtime": 18.3811,
-      "eval_samples_per_second": 62.782,
-      "eval_steps_per_second": 0.544,
       "step": 140
     },
     {
       "epoch": 21.0,
-      "eval_accuracy": 0.6247833622183708,
-      "eval_loss": 1.3702974319458008,
-      "eval_runtime": 18.2422,
-      "eval_samples_per_second": 63.26,
-      "eval_steps_per_second": 0.548,
       "step": 147
     },
     {
       "epoch": 21.428571428571427,
-      "grad_norm": 7.672400951385498,
-      "learning_rate": 2.6190476190476192e-05,
-      "loss": 6.8722,
       "step": 150
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.6273830155979203,
-      "eval_loss": 1.3540722131729126,
-      "eval_runtime": 18.1835,
-      "eval_samples_per_second": 63.464,
-      "eval_steps_per_second": 0.55,
       "step": 154
     },
     {
       "epoch": 22.857142857142858,
-      "grad_norm": 6.436771392822266,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 6.8852,
       "step": 160
     },
     {
       "epoch": 23.0,
-      "eval_accuracy": 0.6325823223570191,
-      "eval_loss": 1.3347454071044922,
-      "eval_runtime": 18.055,
-      "eval_samples_per_second": 63.916,
-      "eval_steps_per_second": 0.554,
       "step": 161
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.634315424610052,
-      "eval_loss": 1.3246690034866333,
-      "eval_runtime": 18.2576,
-      "eval_samples_per_second": 63.207,
-      "eval_steps_per_second": 0.548,
       "step": 168
     },
     {
       "epoch": 24.285714285714285,
-      "grad_norm": 6.365950584411621,
-      "learning_rate": 2.523809523809524e-05,
-      "loss": 6.7711,
       "step": 170
     },
     {
       "epoch": 25.0,
-      "eval_accuracy": 0.6403812824956673,
-      "eval_loss": 1.3150994777679443,
-      "eval_runtime": 18.317,
-      "eval_samples_per_second": 63.002,
-      "eval_steps_per_second": 0.546,
       "step": 175
     },
     {
       "epoch": 25.714285714285715,
-      "grad_norm": 6.6363525390625,
-      "learning_rate": 2.4761904761904762e-05,
-      "loss": 6.7634,
       "step": 180
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.6429809358752167,
-      "eval_loss": 1.293558955192566,
-      "eval_runtime": 17.8053,
-      "eval_samples_per_second": 64.812,
-      "eval_steps_per_second": 0.562,
       "step": 182
     },
     {
       "epoch": 27.0,
-      "eval_accuracy": 0.6403812824956673,
-      "eval_loss": 1.2807742357254028,
-      "eval_runtime": 17.8786,
-      "eval_samples_per_second": 64.547,
-      "eval_steps_per_second": 0.559,
       "step": 189
     },
     {
       "epoch": 27.142857142857142,
-      "grad_norm": 6.076549530029297,
-      "learning_rate": 2.4285714285714288e-05,
-      "loss": 6.7208,
       "step": 190
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.6421143847487002,
-      "eval_loss": 1.2911421060562134,
-      "eval_runtime": 18.0286,
-      "eval_samples_per_second": 64.009,
-      "eval_steps_per_second": 0.555,
       "step": 196
     },
     {
       "epoch": 28.571428571428573,
-      "grad_norm": 7.341259479522705,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 6.7227,
       "step": 200
     },
     {
       "epoch": 29.0,
-      "eval_accuracy": 0.6412478336221837,
-      "eval_loss": 1.2630300521850586,
-      "eval_runtime": 18.2787,
-      "eval_samples_per_second": 63.134,
-      "eval_steps_per_second": 0.547,
       "step": 203
     },
     {
       "epoch": 30.0,
-      "grad_norm": 20.281497955322266,
-      "learning_rate": 2.3333333333333336e-05,
-      "loss": 6.5104,
       "step": 210
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.6490467937608319,
-      "eval_loss": 1.2508955001831055,
-      "eval_runtime": 17.7789,
-      "eval_samples_per_second": 64.908,
-      "eval_steps_per_second": 0.562,
       "step": 210
     },
     {
       "epoch": 31.0,
-      "eval_accuracy": 0.6507798960138648,
-      "eval_loss": 1.2419097423553467,
-      "eval_runtime": 17.7997,
-      "eval_samples_per_second": 64.832,
-      "eval_steps_per_second": 0.562,
       "step": 217
     },
     {
       "epoch": 31.428571428571427,
-      "grad_norm": 5.900386333465576,
-      "learning_rate": 2.2857142857142858e-05,
-      "loss": 6.5766,
       "step": 220
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.6516464471403813,
-      "eval_loss": 1.2375727891921997,
-      "eval_runtime": 17.8795,
-      "eval_samples_per_second": 64.543,
-      "eval_steps_per_second": 0.559,
       "step": 224
     },
     {
       "epoch": 32.857142857142854,
-      "grad_norm": 5.9472551345825195,
-      "learning_rate": 2.238095238095238e-05,
-      "loss": 6.4044,
       "step": 230
     },
     {
       "epoch": 33.0,
-      "eval_accuracy": 0.6499133448873483,
-      "eval_loss": 1.2272541522979736,
-      "eval_runtime": 17.9919,
-      "eval_samples_per_second": 64.14,
-      "eval_steps_per_second": 0.556,
       "step": 231
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.6559792027729636,
-      "eval_loss": 1.2196742296218872,
-      "eval_runtime": 17.8267,
-      "eval_samples_per_second": 64.734,
-      "eval_steps_per_second": 0.561,
       "step": 238
     },
     {
       "epoch": 34.285714285714285,
-      "grad_norm": 6.831246376037598,
-      "learning_rate": 2.1904761904761903e-05,
-      "loss": 6.5076,
       "step": 240
     },
     {
       "epoch": 35.0,
-      "eval_accuracy": 0.6603119584055459,
-      "eval_loss": 1.2083369493484497,
-      "eval_runtime": 17.9273,
-      "eval_samples_per_second": 64.371,
-      "eval_steps_per_second": 0.558,
       "step": 245
     },
     {
       "epoch": 35.714285714285715,
-      "grad_norm": 7.716729164123535,
-      "learning_rate": 2.1428571428571428e-05,
-      "loss": 6.3117,
       "step": 250
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.6689774696707106,
-      "eval_loss": 1.1937824487686157,
-      "eval_runtime": 18.0584,
-      "eval_samples_per_second": 63.904,
-      "eval_steps_per_second": 0.554,
       "step": 252
     },
     {
       "epoch": 37.0,
-      "eval_accuracy": 0.6759098786828422,
-      "eval_loss": 1.186074137687683,
-      "eval_runtime": 17.9647,
-      "eval_samples_per_second": 64.237,
-      "eval_steps_per_second": 0.557,
       "step": 259
     },
     {
       "epoch": 37.142857142857146,
-      "grad_norm": 6.573192596435547,
-      "learning_rate": 2.095238095238095e-05,
-      "loss": 6.3993,
       "step": 260
     },
     {
       "epoch": 38.0,
-      "eval_accuracy": 0.6767764298093587,
-      "eval_loss": 1.1791296005249023,
-      "eval_runtime": 17.8936,
-      "eval_samples_per_second": 64.492,
       "eval_steps_per_second": 0.559,
       "step": 266
     },
     {
       "epoch": 38.57142857142857,
-      "grad_norm": 6.08190393447876,
-      "learning_rate": 2.0476190476190476e-05,
-      "loss": 6.3086,
       "step": 270
     },
     {
       "epoch": 39.0,
-      "eval_accuracy": 0.6663778162911612,
-      "eval_loss": 1.182248592376709,
-      "eval_runtime": 18.2175,
-      "eval_samples_per_second": 63.346,
-      "eval_steps_per_second": 0.549,
       "step": 273
     },
     {
       "epoch": 40.0,
-      "grad_norm": 22.630414962768555,
-      "learning_rate": 1.9999999999999998e-05,
-      "loss": 6.1463,
       "step": 280
     },
     {
       "epoch": 40.0,
-      "eval_accuracy": 0.6733102253032929,
-      "eval_loss": 1.171223759651184,
-      "eval_runtime": 17.9372,
-      "eval_samples_per_second": 64.335,
-      "eval_steps_per_second": 0.557,
       "step": 280
     },
     {
       "epoch": 41.0,
-      "eval_accuracy": 0.6741767764298093,
-      "eval_loss": 1.1596518754959106,
-      "eval_runtime": 17.9876,
-      "eval_samples_per_second": 64.155,
-      "eval_steps_per_second": 0.556,
       "step": 287
     },
     {
       "epoch": 41.42857142857143,
-      "grad_norm": 6.7577290534973145,
-      "learning_rate": 1.9523809523809524e-05,
-      "loss": 6.167,
       "step": 290
     },
     {
       "epoch": 42.0,
-      "eval_accuracy": 0.682842287694974,
-      "eval_loss": 1.1458425521850586,
-      "eval_runtime": 18.1717,
-      "eval_samples_per_second": 63.505,
-      "eval_steps_per_second": 0.55,
       "step": 294
     },
     {
       "epoch": 42.857142857142854,
-      "grad_norm": 6.671822547912598,
-      "learning_rate": 1.9047619047619046e-05,
-      "loss": 6.1862,
       "step": 300
     },
     {
       "epoch": 43.0,
-      "eval_accuracy": 0.6845753899480069,
-      "eval_loss": 1.1359864473342896,
-      "eval_runtime": 17.8165,
-      "eval_samples_per_second": 64.771,
-      "eval_steps_per_second": 0.561,
       "step": 301
     },
     {
       "epoch": 44.0,
-      "eval_accuracy": 0.6811091854419411,
-      "eval_loss": 1.1295443773269653,
-      "eval_runtime": 18.1519,
-      "eval_samples_per_second": 63.575,
-      "eval_steps_per_second": 0.551,
       "step": 308
     },
     {
       "epoch": 44.285714285714285,
-      "grad_norm": 6.430041790008545,
-      "learning_rate": 1.8571428571428572e-05,
-      "loss": 6.2483,
       "step": 310
     },
     {
       "epoch": 45.0,
-      "eval_accuracy": 0.6776429809358753,
-      "eval_loss": 1.1391350030899048,
-      "eval_runtime": 17.7669,
-      "eval_samples_per_second": 64.952,
-      "eval_steps_per_second": 0.563,
       "step": 315
     },
     {
       "epoch": 45.714285714285715,
-      "grad_norm": 6.411828994750977,
-      "learning_rate": 1.8095238095238094e-05,
-      "loss": 6.1589,
       "step": 320
     },
     {
       "epoch": 46.0,
-      "eval_accuracy": 0.6837088388214905,
-      "eval_loss": 1.122534990310669,
-      "eval_runtime": 17.9067,
-      "eval_samples_per_second": 64.445,
-      "eval_steps_per_second": 0.558,
       "step": 322
     },
     {
       "epoch": 47.0,
-      "eval_accuracy": 0.6932409012131716,
-      "eval_loss": 1.112987995147705,
-      "eval_runtime": 18.1695,
-      "eval_samples_per_second": 63.513,
-      "eval_steps_per_second": 0.55,
       "step": 329
     },
     {
       "epoch": 47.142857142857146,
-      "grad_norm": 9.403596878051758,
-      "learning_rate": 1.761904761904762e-05,
-      "loss": 6.0494,
       "step": 330
     },
     {
       "epoch": 48.0,
-      "eval_accuracy": 0.6854419410745234,
-      "eval_loss": 1.1091946363449097,
-      "eval_runtime": 18.1367,
-      "eval_samples_per_second": 63.628,
-      "eval_steps_per_second": 0.551,
       "step": 336
     },
     {
       "epoch": 48.57142857142857,
-      "grad_norm": 6.834399700164795,
-      "learning_rate": 1.7142857142857142e-05,
-      "loss": 6.0085,
       "step": 340
     },
     {
       "epoch": 49.0,
-      "eval_accuracy": 0.6949740034662045,
-      "eval_loss": 1.103259801864624,
-      "eval_runtime": 18.1084,
-      "eval_samples_per_second": 63.728,
-      "eval_steps_per_second": 0.552,
       "step": 343
     },
     {
       "epoch": 50.0,
-      "grad_norm": 15.006871223449707,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 5.9398,
       "step": 350
     },
     {
       "epoch": 50.0,
-      "eval_accuracy": 0.6915077989601387,
-      "eval_loss": 1.1018480062484741,
-      "eval_runtime": 18.1373,
-      "eval_samples_per_second": 63.626,
-      "eval_steps_per_second": 0.551,
       "step": 350
     },
     {
       "epoch": 51.0,
-      "eval_accuracy": 0.6889081455805892,
-      "eval_loss": 1.1009267568588257,
-      "eval_runtime": 17.9979,
-      "eval_samples_per_second": 64.118,
-      "eval_steps_per_second": 0.556,
       "step": 357
     },
     {
       "epoch": 51.42857142857143,
-      "grad_norm": 8.054534912109375,
-      "learning_rate": 1.619047619047619e-05,
-      "loss": 5.9514,
       "step": 360
     },
     {
       "epoch": 52.0,
-      "eval_accuracy": 0.6941074523396881,
-      "eval_loss": 1.090258002281189,
-      "eval_runtime": 17.9851,
-      "eval_samples_per_second": 64.164,
-      "eval_steps_per_second": 0.556,
       "step": 364
     },
     {
       "epoch": 52.857142857142854,
-      "grad_norm": 6.628889560699463,
-      "learning_rate": 1.5714285714285715e-05,
-      "loss": 5.8988,
       "step": 370
     },
     {
       "epoch": 53.0,
-      "eval_accuracy": 0.6949740034662045,
-      "eval_loss": 1.0866734981536865,
-      "eval_runtime": 18.0959,
-      "eval_samples_per_second": 63.771,
-      "eval_steps_per_second": 0.553,
       "step": 371
     },
     {
       "epoch": 54.0,
-      "eval_accuracy": 0.6967071057192374,
-      "eval_loss": 1.0808851718902588,
-      "eval_runtime": 18.2093,
-      "eval_samples_per_second": 63.374,
-      "eval_steps_per_second": 0.549,
       "step": 378
     },
     {
       "epoch": 54.285714285714285,
-      "grad_norm": 8.836517333984375,
-      "learning_rate": 1.5238095238095238e-05,
-      "loss": 5.8841,
       "step": 380
     },
     {
       "epoch": 55.0,
-      "eval_accuracy": 0.6915077989601387,
-      "eval_loss": 1.0933481454849243,
-      "eval_runtime": 17.7944,
-      "eval_samples_per_second": 64.852,
-      "eval_steps_per_second": 0.562,
       "step": 385
     },
     {
       "epoch": 55.714285714285715,
-      "grad_norm": 7.778214931488037,
-      "learning_rate": 1.4761904761904761e-05,
-      "loss": 5.8698,
       "step": 390
     },
     {
       "epoch": 56.0,
-      "eval_accuracy": 0.6975736568457539,
-      "eval_loss": 1.08028244972229,
-      "eval_runtime": 17.9491,
-      "eval_samples_per_second": 64.293,
-      "eval_steps_per_second": 0.557,
       "step": 392
     },
     {
       "epoch": 57.0,
-      "eval_accuracy": 0.6993067590987868,
-      "eval_loss": 1.0766432285308838,
-      "eval_runtime": 17.9076,
-      "eval_samples_per_second": 64.442,
-      "eval_steps_per_second": 0.558,
       "step": 399
     },
     {
       "epoch": 57.142857142857146,
-      "grad_norm": 6.896730899810791,
-      "learning_rate": 1.4285714285714285e-05,
-      "loss": 5.8995,
       "step": 400
     },
     {
       "epoch": 58.0,
-      "eval_accuracy": 0.6949740034662045,
-      "eval_loss": 1.0741863250732422,
-      "eval_runtime": 17.9818,
-      "eval_samples_per_second": 64.176,
-      "eval_steps_per_second": 0.556,
       "step": 406
     },
     {
       "epoch": 58.57142857142857,
-      "grad_norm": 9.20103931427002,
-      "learning_rate": 1.380952380952381e-05,
-      "loss": 5.7637,
       "step": 410
     },
     {
       "epoch": 59.0,
-      "eval_accuracy": 0.7010398613518197,
-      "eval_loss": 1.0637978315353394,
-      "eval_runtime": 18.161,
-      "eval_samples_per_second": 63.543,
-      "eval_steps_per_second": 0.551,
       "step": 413
     },
     {
       "epoch": 60.0,
-      "grad_norm": 30.250612258911133,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 5.8425,
       "step": 420
     },
     {
       "epoch": 60.0,
-      "eval_accuracy": 0.7036395147313691,
-      "eval_loss": 1.0613973140716553,
-      "eval_runtime": 18.3413,
-      "eval_samples_per_second": 62.918,
-      "eval_steps_per_second": 0.545,
       "step": 420
     },
     {
       "epoch": 61.0,
-      "eval_accuracy": 0.7027729636048526,
-      "eval_loss": 1.052578330039978,
-      "eval_runtime": 18.0527,
-      "eval_samples_per_second": 63.924,
-      "eval_steps_per_second": 0.554,
       "step": 427
     },
     {
       "epoch": 61.42857142857143,
-      "grad_norm": 6.542630672454834,
-      "learning_rate": 1.2857142857142857e-05,
-      "loss": 5.7953,
       "step": 430
     },
     {
       "epoch": 62.0,
-      "eval_accuracy": 0.7097053726169844,
-      "eval_loss": 1.0465185642242432,
-      "eval_runtime": 17.8725,
-      "eval_samples_per_second": 64.569,
-      "eval_steps_per_second": 0.56,
       "step": 434
     },
     {
       "epoch": 62.857142857142854,
-      "grad_norm": 7.69216775894165,
-      "learning_rate": 1.2380952380952381e-05,
-      "loss": 5.7288,
       "step": 440
     },
     {
       "epoch": 63.0,
-      "eval_accuracy": 0.707105719237435,
-      "eval_loss": 1.0427676439285278,
-      "eval_runtime": 17.9866,
-      "eval_samples_per_second": 64.159,
-      "eval_steps_per_second": 0.556,
       "step": 441
     },
     {
       "epoch": 64.0,
-      "eval_accuracy": 0.7079722703639515,
-      "eval_loss": 1.0372076034545898,
-      "eval_runtime": 18.052,
-      "eval_samples_per_second": 63.926,
-      "eval_steps_per_second": 0.554,
       "step": 448
     },
     {
       "epoch": 64.28571428571429,
-      "grad_norm": 7.137964248657227,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 5.6821,
       "step": 450
     },
     {
       "epoch": 65.0,
-      "eval_accuracy": 0.7027729636048526,
-      "eval_loss": 1.03859543800354,
-      "eval_runtime": 18.0567,
-      "eval_samples_per_second": 63.91,
-      "eval_steps_per_second": 0.554,
       "step": 455
     },
     {
       "epoch": 65.71428571428571,
-      "grad_norm": 7.532965660095215,
-      "learning_rate": 1.1428571428571429e-05,
-      "loss": 5.7068,
       "step": 460
     },
     {
       "epoch": 66.0,
-      "eval_accuracy": 0.707105719237435,
-      "eval_loss": 1.0439196825027466,
-      "eval_runtime": 18.1635,
-      "eval_samples_per_second": 63.534,
       "eval_steps_per_second": 0.551,
       "step": 462
     },
     {
       "epoch": 67.0,
-      "eval_accuracy": 0.7062391681109186,
-      "eval_loss": 1.0294309854507446,
-      "eval_runtime": 17.9083,
-      "eval_samples_per_second": 64.44,
-      "eval_steps_per_second": 0.558,
       "step": 469
     },
     {
       "epoch": 67.14285714285714,
-      "grad_norm": 6.9406609535217285,
-      "learning_rate": 1.0952380952380951e-05,
-      "loss": 5.716,
       "step": 470
     },
     {
       "epoch": 68.0,
-      "eval_accuracy": 0.708838821490468,
-      "eval_loss": 1.0337029695510864,
-      "eval_runtime": 17.7972,
-      "eval_samples_per_second": 64.842,
-      "eval_steps_per_second": 0.562,
       "step": 476
     },
     {
       "epoch": 68.57142857142857,
-      "grad_norm": 7.802277088165283,
-      "learning_rate": 1.0476190476190475e-05,
-      "loss": 5.7033,
       "step": 480
     },
     {
       "epoch": 69.0,
-      "eval_accuracy": 0.7140381282495667,
-      "eval_loss": 1.0229322910308838,
-      "eval_runtime": 18.0063,
-      "eval_samples_per_second": 64.089,
-      "eval_steps_per_second": 0.555,
       "step": 483
     },
     {
       "epoch": 70.0,
-      "grad_norm": 19.770496368408203,
-      "learning_rate": 9.999999999999999e-06,
-      "loss": 5.6381,
       "step": 490
     },
     {
       "epoch": 70.0,
-      "eval_accuracy": 0.7140381282495667,
-      "eval_loss": 1.022310733795166,
-      "eval_runtime": 17.7667,
-      "eval_samples_per_second": 64.953,
-      "eval_steps_per_second": 0.563,
       "step": 490
     }
   ],
   "logging_steps": 10,
@@ -994,12 +1420,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.294426307473613e+18,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7954939341421143,
+  "best_model_checkpoint": "cvt-13-normal/checkpoint-700",
+  "epoch": 100.0,
   "eval_steps": 500,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7105719237435009,
+      "eval_loss": 1.0209927558898926,
+      "eval_runtime": 17.9138,
+      "eval_samples_per_second": 64.419,
+      "eval_steps_per_second": 0.558,
       "step": 7
     },
     {
       "epoch": 1.4285714285714286,
+      "grad_norm": 7.967917442321777,
+      "learning_rate": 4.285714285714285e-05,
+      "loss": 5.5642,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7097053726169844,
+      "eval_loss": 1.0071666240692139,
+      "eval_runtime": 17.7355,
+      "eval_samples_per_second": 65.067,
+      "eval_steps_per_second": 0.564,
       "step": 14
     },
     {
       "epoch": 2.857142857142857,
+      "grad_norm": 8.133280754089355,
+      "learning_rate": 8.57142857142857e-05,
+      "loss": 5.662,
       "step": 20
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.708838821490468,
+      "eval_loss": 1.0150678157806396,
+      "eval_runtime": 17.8577,
+      "eval_samples_per_second": 64.622,
+      "eval_steps_per_second": 0.56,
       "step": 21
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7140381282495667,
+      "eval_loss": 1.0016363859176636,
+      "eval_runtime": 17.837,
+      "eval_samples_per_second": 64.697,
+      "eval_steps_per_second": 0.561,
       "step": 28
     },
     {
       "epoch": 4.285714285714286,
+      "grad_norm": 8.433135986328125,
+      "learning_rate": 0.00012857142857142855,
+      "loss": 5.381,
       "step": 30
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7123050259965338,
+      "eval_loss": 1.0119163990020752,
+      "eval_runtime": 17.7345,
+      "eval_samples_per_second": 65.071,
+      "eval_steps_per_second": 0.564,
       "step": 35
     },
     {
       "epoch": 5.714285714285714,
+      "grad_norm": 9.856744766235352,
+      "learning_rate": 0.0001714285714285714,
+      "loss": 5.3348,
       "step": 40
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.720103986135182,
+      "eval_loss": 0.9661750793457031,
+      "eval_runtime": 17.9039,
+      "eval_samples_per_second": 64.455,
+      "eval_steps_per_second": 0.559,
       "step": 42
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7261698440207972,
+      "eval_loss": 0.9513705372810364,
+      "eval_runtime": 17.8649,
+      "eval_samples_per_second": 64.596,
+      "eval_steps_per_second": 0.56,
       "step": 49
     },
     {
       "epoch": 7.142857142857143,
+      "grad_norm": 10.7362699508667,
+      "learning_rate": 0.00021428571428571427,
+      "loss": 5.2423,
       "step": 50
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7105719237435009,
+      "eval_loss": 0.9588707685470581,
+      "eval_runtime": 17.8964,
+      "eval_samples_per_second": 64.482,
+      "eval_steps_per_second": 0.559,
       "step": 56
     },
     {
       "epoch": 8.571428571428571,
+      "grad_norm": 11.099422454833984,
+      "learning_rate": 0.0002571428571428571,
+      "loss": 5.0251,
       "step": 60
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.7279029462738301,
+      "eval_loss": 0.908963680267334,
+      "eval_runtime": 17.9404,
+      "eval_samples_per_second": 64.324,
+      "eval_steps_per_second": 0.557,
       "step": 63
     },
     {
       "epoch": 10.0,
+      "grad_norm": 16.643394470214844,
+      "learning_rate": 0.0003,
+      "loss": 5.0547,
       "step": 70
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.7123050259965338,
+      "eval_loss": 0.9352001547813416,
+      "eval_runtime": 18.2788,
+      "eval_samples_per_second": 63.133,
+      "eval_steps_per_second": 0.547,
       "step": 70
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.6993067590987868,
+      "eval_loss": 1.0062916278839111,
+      "eval_runtime": 17.9901,
+      "eval_samples_per_second": 64.146,
+      "eval_steps_per_second": 0.556,
       "step": 77
     },
     {
       "epoch": 11.428571428571429,
+      "grad_norm": 9.376890182495117,
+      "learning_rate": 0.0002952380952380952,
+      "loss": 4.8246,
       "step": 80
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.7105719237435009,
+      "eval_loss": 0.9190986752510071,
+      "eval_runtime": 18.1793,
+      "eval_samples_per_second": 63.479,
+      "eval_steps_per_second": 0.55,
       "step": 84
     },
     {
       "epoch": 12.857142857142858,
+      "grad_norm": 7.629549026489258,
+      "learning_rate": 0.00029047619047619045,
+      "loss": 4.7811,
       "step": 90
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.7123050259965338,
+      "eval_loss": 0.9947251677513123,
+      "eval_runtime": 17.9036,
+      "eval_samples_per_second": 64.456,
+      "eval_steps_per_second": 0.559,
       "step": 91
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.7175043327556326,
+      "eval_loss": 0.9671235084533691,
+      "eval_runtime": 18.1306,
+      "eval_samples_per_second": 63.649,
+      "eval_steps_per_second": 0.552,
       "step": 98
     },
     {
       "epoch": 14.285714285714286,
+      "grad_norm": 13.771581649780273,
+      "learning_rate": 0.0002857142857142857,
+      "loss": 4.8234,
       "step": 100
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.7235701906412478,
+      "eval_loss": 0.9055125117301941,
+      "eval_runtime": 18.3144,
+      "eval_samples_per_second": 63.01,
+      "eval_steps_per_second": 0.546,
       "step": 105
     },
     {
       "epoch": 15.714285714285714,
+      "grad_norm": 9.288651466369629,
+      "learning_rate": 0.0002809523809523809,
+      "loss": 4.4787,
       "step": 110
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.744367417677643,
+      "eval_loss": 0.8837802410125732,
+      "eval_runtime": 18.2071,
+      "eval_samples_per_second": 63.382,
+      "eval_steps_per_second": 0.549,
       "step": 112
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.729636048526863,
+      "eval_loss": 0.9059325456619263,
+      "eval_runtime": 18.0331,
+      "eval_samples_per_second": 63.994,
+      "eval_steps_per_second": 0.555,
       "step": 119
     },
     {
       "epoch": 17.142857142857142,
+      "grad_norm": 8.790782928466797,
+      "learning_rate": 0.00027619047619047615,
+      "loss": 4.39,
       "step": 120
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.7461005199306759,
+      "eval_loss": 0.8639523983001709,
+      "eval_runtime": 18.0609,
+      "eval_samples_per_second": 63.895,
+      "eval_steps_per_second": 0.554,
       "step": 126
     },
     {
       "epoch": 18.571428571428573,
+      "grad_norm": 7.883941650390625,
+      "learning_rate": 0.0002714285714285714,
+      "loss": 4.1424,
       "step": 130
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.7487001733102253,
+      "eval_loss": 0.8660562634468079,
+      "eval_runtime": 17.7478,
+      "eval_samples_per_second": 65.022,
+      "eval_steps_per_second": 0.563,
       "step": 133
     },
     {
       "epoch": 20.0,
+      "grad_norm": 21.828325271606445,
+      "learning_rate": 0.0002666666666666666,
+      "loss": 4.1065,
       "step": 140
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.7305025996533796,
+      "eval_loss": 0.9056758284568787,
+      "eval_runtime": 17.8484,
+      "eval_samples_per_second": 64.656,
+      "eval_steps_per_second": 0.56,
       "step": 140
     },
     {
       "epoch": 21.0,
+      "eval_accuracy": 0.7348353552859619,
+      "eval_loss": 0.8865219354629517,
+      "eval_runtime": 18.0329,
+      "eval_samples_per_second": 63.994,
+      "eval_steps_per_second": 0.555,
       "step": 147
     },
     {
       "epoch": 21.428571428571427,
+      "grad_norm": 7.540792465209961,
+      "learning_rate": 0.00026190476190476186,
+      "loss": 4.0844,
       "step": 150
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.7391681109185442,
+      "eval_loss": 0.8928019404411316,
+      "eval_runtime": 17.9197,
+      "eval_samples_per_second": 64.398,
+      "eval_steps_per_second": 0.558,
       "step": 154
     },
     {
       "epoch": 22.857142857142858,
+      "grad_norm": 14.240620613098145,
+      "learning_rate": 0.0002571428571428571,
+      "loss": 3.9835,
       "step": 160
     },
     {
       "epoch": 23.0,
+      "eval_accuracy": 0.7538994800693241,
+      "eval_loss": 0.8675404787063599,
+      "eval_runtime": 18.0176,
+      "eval_samples_per_second": 64.048,
+      "eval_steps_per_second": 0.555,
       "step": 161
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.755632582322357,
+      "eval_loss": 0.8828888535499573,
+      "eval_runtime": 17.7466,
+      "eval_samples_per_second": 65.027,
+      "eval_steps_per_second": 0.563,
       "step": 168
     },
     {
       "epoch": 24.285714285714285,
+      "grad_norm": 8.749543190002441,
+      "learning_rate": 0.0002523809523809524,
+      "loss": 3.8199,
       "step": 170
     },
     {
       "epoch": 25.0,
+      "eval_accuracy": 0.7616984402079723,
+      "eval_loss": 0.8176947832107544,
+      "eval_runtime": 17.983,
+      "eval_samples_per_second": 64.172,
+      "eval_steps_per_second": 0.556,
       "step": 175
     },
     {
       "epoch": 25.714285714285715,
+      "grad_norm": 9.475801467895508,
+      "learning_rate": 0.00024761904761904757,
+      "loss": 3.7898,
       "step": 180
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.7461005199306759,
+      "eval_loss": 0.8885547518730164,
+      "eval_runtime": 18.0273,
+      "eval_samples_per_second": 64.014,
+      "eval_steps_per_second": 0.555,
       "step": 182
     },
     {
       "epoch": 27.0,
+      "eval_accuracy": 0.7461005199306759,
+      "eval_loss": 0.9394861459732056,
+      "eval_runtime": 18.1419,
+      "eval_samples_per_second": 63.61,
+      "eval_steps_per_second": 0.551,
       "step": 189
     },
     {
       "epoch": 27.142857142857142,
+      "grad_norm": 7.944543361663818,
+      "learning_rate": 0.00024285714285714283,
+      "loss": 3.7734,
       "step": 190
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.7608318890814558,
+      "eval_loss": 0.8348239064216614,
+      "eval_runtime": 17.9109,
+      "eval_samples_per_second": 64.43,
+      "eval_steps_per_second": 0.558,
       "step": 196
     },
     {
       "epoch": 28.571428571428573,
+      "grad_norm": 9.20173168182373,
+      "learning_rate": 0.00023809523809523807,
+      "loss": 3.7835,
       "step": 200
     },
     {
       "epoch": 29.0,
+      "eval_accuracy": 0.75736568457539,
+      "eval_loss": 0.836903989315033,
+      "eval_runtime": 18.1677,
+      "eval_samples_per_second": 63.519,
+      "eval_steps_per_second": 0.55,
       "step": 203
     },
     {
       "epoch": 30.0,
+      "grad_norm": 17.463150024414062,
+      "learning_rate": 0.0002333333333333333,
+      "loss": 3.6414,
       "step": 210
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.7660311958405546,
+      "eval_loss": 0.8668186664581299,
+      "eval_runtime": 17.8247,
+      "eval_samples_per_second": 64.742,
+      "eval_steps_per_second": 0.561,
       "step": 210
     },
     {
       "epoch": 31.0,
+      "eval_accuracy": 0.7599653379549394,
+      "eval_loss": 0.8909233808517456,
+      "eval_runtime": 18.1581,
+      "eval_samples_per_second": 63.553,
+      "eval_steps_per_second": 0.551,
       "step": 217
     },
     {
       "epoch": 31.428571428571427,
+      "grad_norm": 13.756216049194336,
+      "learning_rate": 0.00022857142857142854,
+      "loss": 3.5076,
       "step": 220
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.7495667244367418,
+      "eval_loss": 0.8795309066772461,
+      "eval_runtime": 17.8514,
+      "eval_samples_per_second": 64.645,
+      "eval_steps_per_second": 0.56,
       "step": 224
     },
     {
       "epoch": 32.857142857142854,
+      "grad_norm": 9.03218936920166,
+      "learning_rate": 0.0002238095238095238,
+      "loss": 3.5447,
       "step": 230
     },
     {
       "epoch": 33.0,
+      "eval_accuracy": 0.7538994800693241,
+      "eval_loss": 0.9227800369262695,
+      "eval_runtime": 17.9657,
+      "eval_samples_per_second": 64.233,
+      "eval_steps_per_second": 0.557,
       "step": 231
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.7521663778162911,
+      "eval_loss": 0.8850377798080444,
+      "eval_runtime": 17.9906,
+      "eval_samples_per_second": 64.144,
+      "eval_steps_per_second": 0.556,
       "step": 238
     },
     {
       "epoch": 34.285714285714285,
+      "grad_norm": 7.675583839416504,
+      "learning_rate": 0.000219047619047619,
+      "loss": 3.5344,
       "step": 240
     },
     {
       "epoch": 35.0,
+      "eval_accuracy": 0.7651646447140381,
+      "eval_loss": 0.8584573864936829,
+      "eval_runtime": 18.1255,
+      "eval_samples_per_second": 63.667,
+      "eval_steps_per_second": 0.552,
       "step": 245
     },
     {
       "epoch": 35.714285714285715,
+      "grad_norm": 7.848378658294678,
+      "learning_rate": 0.00021428571428571427,
+      "loss": 3.3678,
       "step": 250
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.75736568457539,
+      "eval_loss": 0.8631114959716797,
+      "eval_runtime": 18.0275,
+      "eval_samples_per_second": 64.013,
+      "eval_steps_per_second": 0.555,
       "step": 252
     },
     {
       "epoch": 37.0,
+      "eval_accuracy": 0.770363951473137,
+      "eval_loss": 0.8675860166549683,
+      "eval_runtime": 18.0196,
+      "eval_samples_per_second": 64.042,
+      "eval_steps_per_second": 0.555,
       "step": 259
     },
     {
       "epoch": 37.142857142857146,
+      "grad_norm": 9.06800651550293,
+      "learning_rate": 0.00020952380952380948,
+      "loss": 3.4061,
       "step": 260
     },
     {
       "epoch": 38.0,
+      "eval_accuracy": 0.7616984402079723,
+      "eval_loss": 0.9131080508232117,
+      "eval_runtime": 17.9025,
+      "eval_samples_per_second": 64.46,
       "eval_steps_per_second": 0.559,
       "step": 266
     },
     {
       "epoch": 38.57142857142857,
+      "grad_norm": 11.665525436401367,
+      "learning_rate": 0.00020476190476190475,
+      "loss": 3.3177,
       "step": 270
     },
     {
       "epoch": 39.0,
+      "eval_accuracy": 0.7677642980935875,
+      "eval_loss": 0.8631002902984619,
+      "eval_runtime": 17.9771,
+      "eval_samples_per_second": 64.193,
+      "eval_steps_per_second": 0.556,
       "step": 273
     },
     {
       "epoch": 40.0,
+      "grad_norm": 15.023707389831543,
+      "learning_rate": 0.00019999999999999998,
+      "loss": 3.2767,
       "step": 280
     },
     {
       "epoch": 40.0,
+      "eval_accuracy": 0.7642980935875217,
+      "eval_loss": 0.8802210092544556,
+      "eval_runtime": 17.9247,
+      "eval_samples_per_second": 64.381,
+      "eval_steps_per_second": 0.558,
       "step": 280
     },
     {
       "epoch": 41.0,
+      "eval_accuracy": 0.7677642980935875,
+      "eval_loss": 0.8518037796020508,
+      "eval_runtime": 18.183,
+      "eval_samples_per_second": 63.466,
+      "eval_steps_per_second": 0.55,
       "step": 287
     },
     {
       "epoch": 41.42857142857143,
+      "grad_norm": 8.431020736694336,
+      "learning_rate": 0.00019523809523809522,
+      "loss": 3.1992,
       "step": 290
     },
     {
       "epoch": 42.0,
+      "eval_accuracy": 0.75736568457539,
+      "eval_loss": 0.923156201839447,
+      "eval_runtime": 18.0318,
+      "eval_samples_per_second": 63.998,
+      "eval_steps_per_second": 0.555,
       "step": 294
     },
     {
       "epoch": 42.857142857142854,
+      "grad_norm": 8.130815505981445,
+      "learning_rate": 0.00019047619047619045,
+      "loss": 3.2743,
       "step": 300
     },
     {
       "epoch": 43.0,
+      "eval_accuracy": 0.7521663778162911,
+      "eval_loss": 0.9305623173713684,
+      "eval_runtime": 17.9901,
+      "eval_samples_per_second": 64.146,
+      "eval_steps_per_second": 0.556,
       "step": 301
     },
     {
       "epoch": 44.0,
+      "eval_accuracy": 0.7755632582322357,
+      "eval_loss": 0.8419708013534546,
+      "eval_runtime": 17.9031,
+      "eval_samples_per_second": 64.458,
+      "eval_steps_per_second": 0.559,
       "step": 308
     },
     {
       "epoch": 44.285714285714285,
+      "grad_norm": 9.007019996643066,
+      "learning_rate": 0.00018571428571428572,
+      "loss": 3.1704,
       "step": 310
     },
     {
       "epoch": 45.0,
+      "eval_accuracy": 0.7564991334488734,
+      "eval_loss": 0.8801714777946472,
+      "eval_runtime": 17.8984,
+      "eval_samples_per_second": 64.475,
+      "eval_steps_per_second": 0.559,
       "step": 315
     },
     {
       "epoch": 45.714285714285715,
+      "grad_norm": 8.079572677612305,
+      "learning_rate": 0.00018095238095238093,
+      "loss": 3.2466,
       "step": 320
     },
     {
       "epoch": 46.0,
+      "eval_accuracy": 0.7677642980935875,
+      "eval_loss": 0.878183901309967,
+      "eval_runtime": 18.135,
+      "eval_samples_per_second": 63.634,
+      "eval_steps_per_second": 0.551,
       "step": 322
     },
     {
       "epoch": 47.0,
+      "eval_accuracy": 0.7746967071057193,
+      "eval_loss": 0.844364583492279,
+      "eval_runtime": 18.003,
+      "eval_samples_per_second": 64.1,
+      "eval_steps_per_second": 0.555,
       "step": 329
     },
     {
       "epoch": 47.142857142857146,
+      "grad_norm": 6.920067310333252,
+      "learning_rate": 0.0001761904761904762,
+      "loss": 3.0879,
       "step": 330
     },
     {
       "epoch": 48.0,
+      "eval_accuracy": 0.7694974003466204,
+      "eval_loss": 0.8579216003417969,
+      "eval_runtime": 17.8532,
+      "eval_samples_per_second": 64.638,
+      "eval_steps_per_second": 0.56,
       "step": 336
     },
     {
       "epoch": 48.57142857142857,
+      "grad_norm": 6.670530796051025,
+      "learning_rate": 0.0001714285714285714,
+      "loss": 3.1677,
       "step": 340
     },
     {
       "epoch": 49.0,
+      "eval_accuracy": 0.7712305025996534,
+      "eval_loss": 0.858402669429779,
+      "eval_runtime": 17.75,
+      "eval_samples_per_second": 65.014,
+      "eval_steps_per_second": 0.563,
       "step": 343
     },
     {
       "epoch": 50.0,
+      "grad_norm": 13.106241226196289,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 3.0965,
       "step": 350
     },
     {
       "epoch": 50.0,
+      "eval_accuracy": 0.7755632582322357,
+      "eval_loss": 0.8400810956954956,
+      "eval_runtime": 18.0075,
+      "eval_samples_per_second": 64.084,
+      "eval_steps_per_second": 0.555,
       "step": 350
     },
     {
       "epoch": 51.0,
+      "eval_accuracy": 0.7651646447140381,
+      "eval_loss": 0.8724238872528076,
+      "eval_runtime": 18.0097,
+      "eval_samples_per_second": 64.077,
+      "eval_steps_per_second": 0.555,
       "step": 357
     },
     {
       "epoch": 51.42857142857143,
+      "grad_norm": 8.85236930847168,
+      "learning_rate": 0.00016190476190476187,
+      "loss": 3.0611,
       "step": 360
     },
     {
       "epoch": 52.0,
+      "eval_accuracy": 0.7807625649913345,
+      "eval_loss": 0.8638470768928528,
+      "eval_runtime": 18.0439,
+      "eval_samples_per_second": 63.955,
+      "eval_steps_per_second": 0.554,
       "step": 364
     },
     {
       "epoch": 52.857142857142854,
+      "grad_norm": 7.648194789886475,
+      "learning_rate": 0.00015714285714285713,
+      "loss": 3.0204,
       "step": 370
     },
     {
       "epoch": 53.0,
+      "eval_accuracy": 0.7660311958405546,
+      "eval_loss": 0.9167099595069885,
+      "eval_runtime": 17.9056,
+      "eval_samples_per_second": 64.449,
+      "eval_steps_per_second": 0.558,
       "step": 371
     },
     {
       "epoch": 54.0,
+      "eval_accuracy": 0.7738301559792028,
+      "eval_loss": 0.8322371244430542,
+      "eval_runtime": 17.9741,
+      "eval_samples_per_second": 64.204,
+      "eval_steps_per_second": 0.556,
       "step": 378
     },
     {
       "epoch": 54.285714285714285,
+      "grad_norm": 6.742936611175537,
+      "learning_rate": 0.00015238095238095237,
+      "loss": 2.9704,
       "step": 380
     },
     {
       "epoch": 55.0,
+      "eval_accuracy": 0.7642980935875217,
+      "eval_loss": 0.8577215671539307,
+      "eval_runtime": 18.0258,
+      "eval_samples_per_second": 64.019,
+      "eval_steps_per_second": 0.555,
       "step": 385
     },
     {
       "epoch": 55.714285714285715,
+      "grad_norm": 6.2735395431518555,
+      "learning_rate": 0.0001476190476190476,
+      "loss": 2.939,
       "step": 390
     },
     {
       "epoch": 56.0,
+      "eval_accuracy": 0.7859618717504333,
+      "eval_loss": 0.8296905755996704,
+      "eval_runtime": 18.0649,
+      "eval_samples_per_second": 63.881,
+      "eval_steps_per_second": 0.554,
       "step": 392
     },
     {
       "epoch": 57.0,
+      "eval_accuracy": 0.7686308492201039,
+      "eval_loss": 0.874596893787384,
+      "eval_runtime": 17.9658,
+      "eval_samples_per_second": 64.233,
+      "eval_steps_per_second": 0.557,
       "step": 399
     },
     {
       "epoch": 57.142857142857146,
+      "grad_norm": 6.44887113571167,
+      "learning_rate": 0.00014285714285714284,
+      "loss": 3.0341,
       "step": 400
     },
     {
       "epoch": 58.0,
+      "eval_accuracy": 0.7824956672443674,
+      "eval_loss": 0.8620171546936035,
+      "eval_runtime": 17.939,
+      "eval_samples_per_second": 64.329,
+      "eval_steps_per_second": 0.557,
       "step": 406
     },
     {
       "epoch": 58.57142857142857,
+      "grad_norm": 6.199102401733398,
+      "learning_rate": 0.00013809523809523808,
+      "loss": 2.8997,
       "step": 410
     },
     {
       "epoch": 59.0,
+      "eval_accuracy": 0.75736568457539,
+      "eval_loss": 0.8835130333900452,
+      "eval_runtime": 18.2434,
+      "eval_samples_per_second": 63.256,
+      "eval_steps_per_second": 0.548,
       "step": 413
     },
     {
       "epoch": 60.0,
+      "grad_norm": 27.795392990112305,
+      "learning_rate": 0.0001333333333333333,
+      "loss": 3.0187,
       "step": 420
     },
     {
       "epoch": 60.0,
+      "eval_accuracy": 0.7694974003466204,
+      "eval_loss": 0.9018464684486389,
+      "eval_runtime": 18.2513,
+      "eval_samples_per_second": 63.228,
+      "eval_steps_per_second": 0.548,
       "step": 420
     },
     {
       "epoch": 61.0,
+      "eval_accuracy": 0.7772963604852686,
+      "eval_loss": 0.8939943909645081,
+      "eval_runtime": 18.1365,
+      "eval_samples_per_second": 63.629,
+      "eval_steps_per_second": 0.551,
       "step": 427
     },
     {
       "epoch": 61.42857142857143,
+      "grad_norm": 10.215301513671875,
+      "learning_rate": 0.00012857142857142855,
+      "loss": 2.9316,
       "step": 430
     },
     {
       "epoch": 62.0,
+      "eval_accuracy": 0.7712305025996534,
+      "eval_loss": 0.8858510851860046,
+      "eval_runtime": 18.1655,
+      "eval_samples_per_second": 63.527,
+      "eval_steps_per_second": 0.55,
       "step": 434
     },
     {
       "epoch": 62.857142857142854,
+      "grad_norm": 5.105686187744141,
+      "learning_rate": 0.00012380952380952378,
+      "loss": 2.8746,
       "step": 440
     },
     {
       "epoch": 63.0,
+      "eval_accuracy": 0.7764298093587522,
+      "eval_loss": 0.8661392331123352,
+      "eval_runtime": 17.9626,
+      "eval_samples_per_second": 64.245,
+      "eval_steps_per_second": 0.557,
       "step": 441
     },
     {
       "epoch": 64.0,
+      "eval_accuracy": 0.7712305025996534,
+      "eval_loss": 0.8916440010070801,
+      "eval_runtime": 17.94,
+      "eval_samples_per_second": 64.326,
+      "eval_steps_per_second": 0.557,
       "step": 448
     },
     {
       "epoch": 64.28571428571429,
+      "grad_norm": 9.268267631530762,
+      "learning_rate": 0.00011904761904761903,
+      "loss": 2.817,
       "step": 450
     },
     {
       "epoch": 65.0,
+      "eval_accuracy": 0.7781629116117851,
+      "eval_loss": 0.8645418286323547,
+      "eval_runtime": 18.2441,
+      "eval_samples_per_second": 63.253,
+      "eval_steps_per_second": 0.548,
       "step": 455
     },
     {
       "epoch": 65.71428571428571,
+      "grad_norm": 6.703152179718018,
+      "learning_rate": 0.00011428571428571427,
+      "loss": 2.7593,
       "step": 460
     },
     {
       "epoch": 66.0,
+      "eval_accuracy": 0.7686308492201039,
+      "eval_loss": 0.8828719854354858,
+      "eval_runtime": 18.1608,
+      "eval_samples_per_second": 63.543,
       "eval_steps_per_second": 0.551,
       "step": 462
     },
     {
       "epoch": 67.0,
+      "eval_accuracy": 0.7790294627383015,
+      "eval_loss": 0.8883015513420105,
+      "eval_runtime": 18.1166,
+      "eval_samples_per_second": 63.698,
+      "eval_steps_per_second": 0.552,
       "step": 469
     },
     {
       "epoch": 67.14285714285714,
+      "grad_norm": 5.34393310546875,
+      "learning_rate": 0.0001095238095238095,
+      "loss": 2.9212,
       "step": 470
     },
     {
       "epoch": 68.0,
+      "eval_accuracy": 0.7824956672443674,
+      "eval_loss": 0.8507192134857178,
+      "eval_runtime": 18.0504,
+      "eval_samples_per_second": 63.932,
+      "eval_steps_per_second": 0.554,
       "step": 476
     },
     {
       "epoch": 68.57142857142857,
+      "grad_norm": 6.5966668128967285,
+      "learning_rate": 0.00010476190476190474,
+      "loss": 2.8659,
       "step": 480
     },
     {
       "epoch": 69.0,
+      "eval_accuracy": 0.7876949740034662,
+      "eval_loss": 0.8553578853607178,
+      "eval_runtime": 18.0681,
+      "eval_samples_per_second": 63.869,
+      "eval_steps_per_second": 0.553,
       "step": 483
     },
     {
       "epoch": 70.0,
+      "grad_norm": 22.730220794677734,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 2.9068,
       "step": 490
     },
     {
       "epoch": 70.0,
+      "eval_accuracy": 0.7764298093587522,
+      "eval_loss": 0.8812502026557922,
+      "eval_runtime": 17.9671,
+      "eval_samples_per_second": 64.229,
+      "eval_steps_per_second": 0.557,
       "step": 490
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.7859618717504333,
+      "eval_loss": 0.8555229902267456,
+      "eval_runtime": 18.0711,
+      "eval_samples_per_second": 63.859,
+      "eval_steps_per_second": 0.553,
+      "step": 497
+    },
+    {
+      "epoch": 71.42857142857143,
+      "grad_norm": 5.773199558258057,
+      "learning_rate": 9.523809523809523e-05,
+      "loss": 2.8334,
+      "step": 500
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.7790294627383015,
+      "eval_loss": 0.8665823340415955,
+      "eval_runtime": 18.4819,
+      "eval_samples_per_second": 62.439,
+      "eval_steps_per_second": 0.541,
+      "step": 504
+    },
+    {
+      "epoch": 72.85714285714286,
+      "grad_norm": 6.063803672790527,
+      "learning_rate": 9.047619047619046e-05,
+      "loss": 2.7322,
+      "step": 510
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.7824956672443674,
+      "eval_loss": 0.8682228922843933,
+      "eval_runtime": 18.1239,
+      "eval_samples_per_second": 63.673,
+      "eval_steps_per_second": 0.552,
+      "step": 511
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.7885615251299827,
+      "eval_loss": 0.881618320941925,
+      "eval_runtime": 17.8842,
+      "eval_samples_per_second": 64.526,
+      "eval_steps_per_second": 0.559,
+      "step": 518
+    },
+    {
+      "epoch": 74.28571428571429,
+      "grad_norm": 5.207172870635986,
+      "learning_rate": 8.57142857142857e-05,
+      "loss": 2.8548,
+      "step": 520
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.7902946273830156,
+      "eval_loss": 0.8523378968238831,
+      "eval_runtime": 18.1134,
+      "eval_samples_per_second": 63.71,
+      "eval_steps_per_second": 0.552,
+      "step": 525
+    },
+    {
+      "epoch": 75.71428571428571,
+      "grad_norm": 6.294586658477783,
+      "learning_rate": 8.095238095238093e-05,
+      "loss": 2.8696,
+      "step": 530
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.7894280762564991,
+      "eval_loss": 0.8509147763252258,
+      "eval_runtime": 18.182,
+      "eval_samples_per_second": 63.469,
+      "eval_steps_per_second": 0.55,
+      "step": 532
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.7807625649913345,
+      "eval_loss": 0.8682960867881775,
+      "eval_runtime": 18.3628,
+      "eval_samples_per_second": 62.845,
+      "eval_steps_per_second": 0.545,
+      "step": 539
+    },
+    {
+      "epoch": 77.14285714285714,
+      "grad_norm": 5.558056831359863,
+      "learning_rate": 7.619047619047618e-05,
+      "loss": 2.6439,
+      "step": 540
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.7876949740034662,
+      "eval_loss": 0.860653281211853,
+      "eval_runtime": 18.2632,
+      "eval_samples_per_second": 63.187,
+      "eval_steps_per_second": 0.548,
+      "step": 546
+    },
+    {
+      "epoch": 78.57142857142857,
+      "grad_norm": 5.7894415855407715,
+      "learning_rate": 7.142857142857142e-05,
+      "loss": 2.9039,
+      "step": 550
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.7842287694974004,
+      "eval_loss": 0.8698387742042542,
+      "eval_runtime": 18.1385,
+      "eval_samples_per_second": 63.622,
+      "eval_steps_per_second": 0.551,
+      "step": 553
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 28.787755966186523,
+      "learning_rate": 6.666666666666666e-05,
+      "loss": 2.6338,
+      "step": 560
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.7876949740034662,
+      "eval_loss": 0.8718376755714417,
+      "eval_runtime": 18.0357,
+      "eval_samples_per_second": 63.984,
+      "eval_steps_per_second": 0.554,
+      "step": 560
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.7902946273830156,
+      "eval_loss": 0.8370843529701233,
+      "eval_runtime": 18.1407,
+      "eval_samples_per_second": 63.614,
+      "eval_steps_per_second": 0.551,
+      "step": 567
+    },
+    {
+      "epoch": 81.42857142857143,
+      "grad_norm": 6.290432929992676,
+      "learning_rate": 6.190476190476189e-05,
+      "loss": 2.7271,
+      "step": 570
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.792894280762565,
+      "eval_loss": 0.8426641821861267,
+      "eval_runtime": 17.8494,
+      "eval_samples_per_second": 64.652,
+      "eval_steps_per_second": 0.56,
+      "step": 574
+    },
+    {
+      "epoch": 82.85714285714286,
+      "grad_norm": 4.4193525314331055,
+      "learning_rate": 5.7142857142857135e-05,
+      "loss": 2.7555,
+      "step": 580
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.7937608318890814,
+      "eval_loss": 0.8621939420700073,
+      "eval_runtime": 17.8242,
+      "eval_samples_per_second": 64.743,
+      "eval_steps_per_second": 0.561,
+      "step": 581
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.7859618717504333,
+      "eval_loss": 0.8768612146377563,
+      "eval_runtime": 17.9828,
+      "eval_samples_per_second": 64.172,
+      "eval_steps_per_second": 0.556,
+      "step": 588
+    },
+    {
+      "epoch": 84.28571428571429,
+      "grad_norm": 5.777393341064453,
+      "learning_rate": 5.238095238095237e-05,
+      "loss": 2.7702,
+      "step": 590
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.7859618717504333,
+      "eval_loss": 0.88438481092453,
+      "eval_runtime": 17.8963,
+      "eval_samples_per_second": 64.483,
+      "eval_steps_per_second": 0.559,
+      "step": 595
+    },
+    {
+      "epoch": 85.71428571428571,
+      "grad_norm": 5.748138904571533,
+      "learning_rate": 4.7619047619047614e-05,
+      "loss": 2.8678,
+      "step": 600
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.7824956672443674,
+      "eval_loss": 0.8882182836532593,
+      "eval_runtime": 17.8524,
+      "eval_samples_per_second": 64.641,
+      "eval_steps_per_second": 0.56,
+      "step": 602
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 0.7824956672443674,
+      "eval_loss": 0.8715818524360657,
+      "eval_runtime": 17.8328,
+      "eval_samples_per_second": 64.712,
+      "eval_steps_per_second": 0.561,
+      "step": 609
+    },
+    {
+      "epoch": 87.14285714285714,
+      "grad_norm": 4.612086772918701,
+      "learning_rate": 4.285714285714285e-05,
+      "loss": 2.6334,
+      "step": 610
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.7781629116117851,
+      "eval_loss": 0.8782148361206055,
+      "eval_runtime": 17.9213,
+      "eval_samples_per_second": 64.393,
+      "eval_steps_per_second": 0.558,
+      "step": 616
+    },
+    {
+      "epoch": 88.57142857142857,
+      "grad_norm": 6.36035680770874,
+      "learning_rate": 3.809523809523809e-05,
+      "loss": 2.7782,
+      "step": 620
+    },
+    {
+      "epoch": 89.0,
+      "eval_accuracy": 0.7807625649913345,
+      "eval_loss": 0.8752433657646179,
+      "eval_runtime": 18.042,
+      "eval_samples_per_second": 63.962,
+      "eval_steps_per_second": 0.554,
+      "step": 623
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 6.581643581390381,
+      "learning_rate": 3.333333333333333e-05,
+      "loss": 2.5527,
+      "step": 630
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.7807625649913345,
+      "eval_loss": 0.8674911856651306,
+      "eval_runtime": 17.811,
+      "eval_samples_per_second": 64.791,
+      "eval_steps_per_second": 0.561,
+      "step": 630
+    },
+    {
+      "epoch": 91.0,
+      "eval_accuracy": 0.7842287694974004,
+      "eval_loss": 0.8734576106071472,
+      "eval_runtime": 17.906,
+      "eval_samples_per_second": 64.448,
+      "eval_steps_per_second": 0.558,
+      "step": 637
+    },
+    {
+      "epoch": 91.42857142857143,
+      "grad_norm": 6.266481399536133,
+      "learning_rate": 2.8571428571428567e-05,
+      "loss": 2.6812,
+      "step": 640
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.7885615251299827,
+      "eval_loss": 0.8649889826774597,
+      "eval_runtime": 18.1196,
+      "eval_samples_per_second": 63.688,
+      "eval_steps_per_second": 0.552,
+      "step": 644
+    },
+    {
+      "epoch": 92.85714285714286,
+      "grad_norm": 5.178635597229004,
+      "learning_rate": 2.3809523809523807e-05,
+      "loss": 2.6167,
+      "step": 650
+    },
+    {
+      "epoch": 93.0,
+      "eval_accuracy": 0.7946273830155979,
+      "eval_loss": 0.8530935049057007,
+      "eval_runtime": 17.8992,
+      "eval_samples_per_second": 64.472,
+      "eval_steps_per_second": 0.559,
+      "step": 651
+    },
+    {
+      "epoch": 94.0,
+      "eval_accuracy": 0.7868284228769498,
+      "eval_loss": 0.8698766827583313,
+      "eval_runtime": 17.9684,
+      "eval_samples_per_second": 64.224,
+      "eval_steps_per_second": 0.557,
+      "step": 658
+    },
+    {
+      "epoch": 94.28571428571429,
+      "grad_norm": 4.488171100616455,
+      "learning_rate": 1.9047619047619046e-05,
+      "loss": 2.6553,
+      "step": 660
+    },
+    {
+      "epoch": 95.0,
+      "eval_accuracy": 0.7894280762564991,
+      "eval_loss": 0.8666642308235168,
+      "eval_runtime": 17.9669,
+      "eval_samples_per_second": 64.229,
+      "eval_steps_per_second": 0.557,
+      "step": 665
+    },
+    {
+      "epoch": 95.71428571428571,
+      "grad_norm": 6.009092330932617,
+      "learning_rate": 1.4285714285714284e-05,
+      "loss": 2.7758,
+      "step": 670
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.7920277296360485,
+      "eval_loss": 0.8650416731834412,
+      "eval_runtime": 18.0841,
+      "eval_samples_per_second": 63.813,
+      "eval_steps_per_second": 0.553,
+      "step": 672
+    },
+    {
+      "epoch": 97.0,
+      "eval_accuracy": 0.7902946273830156,
+      "eval_loss": 0.8684815764427185,
+      "eval_runtime": 17.8482,
+      "eval_samples_per_second": 64.656,
+      "eval_steps_per_second": 0.56,
+      "step": 679
+    },
+    {
+      "epoch": 97.14285714285714,
+      "grad_norm": 5.19600772857666,
+      "learning_rate": 9.523809523809523e-06,
+      "loss": 2.6592,
+      "step": 680
+    },
+    {
+      "epoch": 98.0,
+      "eval_accuracy": 0.7885615251299827,
+      "eval_loss": 0.8592236042022705,
+      "eval_runtime": 17.9065,
+      "eval_samples_per_second": 64.446,
+      "eval_steps_per_second": 0.558,
+      "step": 686
+    },
+    {
+      "epoch": 98.57142857142857,
+      "grad_norm": 5.676305770874023,
+      "learning_rate": 4.7619047619047615e-06,
+      "loss": 2.5202,
+      "step": 690
+    },
+    {
+      "epoch": 99.0,
+      "eval_accuracy": 0.7894280762564991,
+      "eval_loss": 0.8744557499885559,
+      "eval_runtime": 17.8619,
+      "eval_samples_per_second": 64.607,
+      "eval_steps_per_second": 0.56,
+      "step": 693
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 48.86530685424805,
+      "learning_rate": 0.0,
+      "loss": 2.6577,
+      "step": 700
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.7954939341421143,
+      "eval_loss": 0.8635059595108032,
+      "eval_runtime": 18.1084,
+      "eval_samples_per_second": 63.727,
+      "eval_steps_per_second": 0.552,
+      "step": 700
+    },
+    {
+      "epoch": 100.0,
+      "step": 700,
+      "total_flos": 6.134894724962304e+18,
+      "train_loss": 3.4289448138645717,
+      "train_runtime": 8283.6476,
+      "train_samples_per_second": 41.793,
+      "train_steps_per_second": 0.085
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.134894724962304e+18,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73530e41251800b972013692d5a7eb3224f0171bc366ff6fe2f9cb2946d17136
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b45f2a43a993f893b4fbd6c9537f41343150eb53527e66d53527833b633d402
 size 5368