li-muyang
/

zephyr-7b-sft-full

@@ -1,7 +1,7 @@
 ---
 library_name: transformers
 license: apache-2.0
-base_model: mistralai/Mistral-7B-v0.3
 tags:
 - trl
 - sft
@@ -18,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-sft-full
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.3](https://huggingface.co/mistralai/Mistral-7B-v0.3) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9448
 ## Model description
@@ -39,7 +39,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
 - train_batch_size: 8
 - eval_batch_size: 16
 - seed: 42
@@ -57,16 +57,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.025         | 0.0923 | 100  | 1.0240          |
-| 1.033         | 0.1846 | 200  | 1.0464          |
-| 1.037         | 0.2769 | 300  | 1.0424          |
-| 1.0136        | 0.3692 | 400  | 1.0295          |
-| 1.0229        | 0.4615 | 500  | 1.0151          |
-| 0.9745        | 0.5538 | 600  | 0.9945          |
-| 0.9441        | 0.6461 | 700  | 0.9769          |
-| 0.9277        | 0.7383 | 800  | 0.9613          |
-| 0.9384        | 0.8306 | 900  | 0.9501          |
-| 0.9216        | 0.9229 | 1000 | 0.9448          |
 ### Framework versions

 ---
 library_name: transformers
 license: apache-2.0
+base_model: mistralai/Mistral-7B-v0.1
 tags:
 - trl
 - sft
 # zephyr-7b-sft-full
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9293
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-05
 - train_batch_size: 8
 - eval_batch_size: 16
 - seed: 42
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 0.9896        | 0.0923 | 100  | 0.9893          |
+| 0.9838        | 0.1846 | 200  | 0.9935          |
+| 0.9853        | 0.2769 | 300  | 0.9881          |
+| 0.9638        | 0.3692 | 400  | 0.9781          |
+| 0.9745        | 0.4615 | 500  | 0.9680          |
+| 0.9396        | 0.5538 | 600  | 0.9568          |
+| 0.9176        | 0.6461 | 700  | 0.9465          |
+| 0.9067        | 0.7383 | 800  | 0.9379          |
+| 0.9221        | 0.8306 | 900  | 0.9320          |
+| 0.9087        | 0.9229 | 1000 | 0.9293          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
-    "train_loss": 0.986508995762382,
-    "train_runtime": 33955.1767,
     "train_samples": 207864,
-    "train_samples_per_second": 4.084,
-    "train_steps_per_second": 0.032
 }

 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
+    "train_loss": 0.9547446678880179,
+    "train_runtime": 38927.5133,
     "train_samples": 207864,
+    "train_samples_per_second": 3.563,
+    "train_steps_per_second": 0.028
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
-    "train_loss": 0.986508995762382,
-    "train_runtime": 33955.1767,
     "train_samples": 207864,
-    "train_samples_per_second": 4.084,
-    "train_steps_per_second": 0.032
 }

 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
+    "train_loss": 0.9547446678880179,
+    "train_runtime": 38927.5133,
     "train_samples": 207864,
+    "train_samples_per_second": 3.563,
+    "train_steps_per_second": 0.028
 }

trainer_state.json CHANGED Viewed

@@ -10,1611 +10,1611 @@
   "log_history": [
     {
       "epoch": 0.0009229349330872173,
-      "grad_norm": 10.726049490177841,
-      "learning_rate": 1.8348623853211012e-07,
-      "loss": 1.1497,
       "step": 1
     },
     {
       "epoch": 0.0046146746654360865,
-      "grad_norm": 8.900657171326609,
-      "learning_rate": 9.174311926605506e-07,
-      "loss": 1.1397,
       "step": 5
     },
     {
       "epoch": 0.009229349330872173,
-      "grad_norm": 3.735942046557525,
-      "learning_rate": 1.8348623853211011e-06,
-      "loss": 1.0694,
       "step": 10
     },
     {
       "epoch": 0.01384402399630826,
-      "grad_norm": 2.8318178389546484,
-      "learning_rate": 2.7522935779816517e-06,
-      "loss": 1.0196,
       "step": 15
     },
     {
       "epoch": 0.018458698661744346,
-      "grad_norm": 2.114174455764573,
-      "learning_rate": 3.6697247706422022e-06,
-      "loss": 1.0136,
       "step": 20
     },
     {
       "epoch": 0.023073373327180433,
-      "grad_norm": 2.310487403214644,
-      "learning_rate": 4.587155963302753e-06,
-      "loss": 1.0042,
       "step": 25
     },
     {
       "epoch": 0.02768804799261652,
-      "grad_norm": 2.4801571550073933,
-      "learning_rate": 5.504587155963303e-06,
-      "loss": 0.9742,
       "step": 30
     },
     {
       "epoch": 0.032302722658052604,
-      "grad_norm": 2.902534165090561,
-      "learning_rate": 6.422018348623854e-06,
-      "loss": 1.0012,
       "step": 35
     },
     {
       "epoch": 0.03691739732348869,
-      "grad_norm": 2.2959784184113547,
-      "learning_rate": 7.3394495412844045e-06,
-      "loss": 1.0086,
       "step": 40
     },
     {
       "epoch": 0.04153207198892478,
-      "grad_norm": 2.3869379848167416,
-      "learning_rate": 8.256880733944956e-06,
-      "loss": 0.987,
       "step": 45
     },
     {
       "epoch": 0.046146746654360866,
-      "grad_norm": 2.0557468408917527,
-      "learning_rate": 9.174311926605506e-06,
-      "loss": 0.9824,
       "step": 50
     },
     {
       "epoch": 0.050761421319796954,
-      "grad_norm": 2.2160008605472874,
-      "learning_rate": 1.0091743119266055e-05,
-      "loss": 0.986,
       "step": 55
     },
     {
       "epoch": 0.05537609598523304,
-      "grad_norm": 2.1320443631302006,
-      "learning_rate": 1.1009174311926607e-05,
-      "loss": 1.0019,
       "step": 60
     },
     {
       "epoch": 0.05999077065066913,
-      "grad_norm": 2.4823142489717016,
-      "learning_rate": 1.1926605504587156e-05,
-      "loss": 1.0048,
       "step": 65
     },
     {
       "epoch": 0.06460544531610521,
-      "grad_norm": 2.5334243917693295,
-      "learning_rate": 1.2844036697247708e-05,
-      "loss": 0.9828,
       "step": 70
     },
     {
       "epoch": 0.0692201199815413,
-      "grad_norm": 2.436109706504398,
-      "learning_rate": 1.3761467889908258e-05,
-      "loss": 0.9931,
       "step": 75
     },
     {
       "epoch": 0.07383479464697738,
-      "grad_norm": 2.1346723037619695,
-      "learning_rate": 1.4678899082568809e-05,
-      "loss": 0.986,
       "step": 80
     },
     {
       "epoch": 0.07844946931241348,
-      "grad_norm": 1.9789737582877578,
-      "learning_rate": 1.559633027522936e-05,
-      "loss": 1.0089,
       "step": 85
     },
     {
       "epoch": 0.08306414397784956,
-      "grad_norm": 2.033387276422637,
-      "learning_rate": 1.6513761467889912e-05,
-      "loss": 1.0083,
       "step": 90
     },
     {
       "epoch": 0.08767881864328565,
-      "grad_norm": 2.243076459165097,
-      "learning_rate": 1.743119266055046e-05,
-      "loss": 1.0175,
       "step": 95
     },
     {
       "epoch": 0.09229349330872173,
-      "grad_norm": 1.953405447633714,
-      "learning_rate": 1.834862385321101e-05,
-      "loss": 1.025,
       "step": 100
     },
     {
       "epoch": 0.09229349330872173,
-      "eval_loss": 1.0240174531936646,
-      "eval_runtime": 714.5925,
-      "eval_samples_per_second": 21.481,
-      "eval_steps_per_second": 0.168,
       "step": 100
     },
     {
       "epoch": 0.09690816797415783,
-      "grad_norm": 2.244939327354232,
-      "learning_rate": 1.9266055045871563e-05,
-      "loss": 1.0494,
       "step": 105
     },
     {
       "epoch": 0.10152284263959391,
-      "grad_norm": 2.0565138965118406,
-      "learning_rate": 1.9999947982262415e-05,
-      "loss": 1.0345,
       "step": 110
     },
     {
       "epoch": 0.10613751730503,
-      "grad_norm": 2.0332956026689386,
-      "learning_rate": 1.9998127418269004e-05,
-      "loss": 1.0454,
       "step": 115
     },
     {
       "epoch": 0.11075219197046608,
-      "grad_norm": 2.1387249854354566,
-      "learning_rate": 1.9993706508539968e-05,
-      "loss": 1.0255,
       "step": 120
     },
     {
       "epoch": 0.11536686663590216,
-      "grad_norm": 2.458364994524856,
-      "learning_rate": 1.998668640288e-05,
-      "loss": 1.0518,
       "step": 125
     },
     {
       "epoch": 0.11998154130133826,
-      "grad_norm": 1.8099694655556404,
-      "learning_rate": 1.997706892710117e-05,
-      "loss": 1.0224,
       "step": 130
     },
     {
       "epoch": 0.12459621596677434,
-      "grad_norm": 2.202808282950665,
-      "learning_rate": 1.9964856582548094e-05,
-      "loss": 1.0552,
       "step": 135
     },
     {
       "epoch": 0.12921089063221042,
-      "grad_norm": 1.7439069720540679,
-      "learning_rate": 1.9950052545447354e-05,
-      "loss": 1.0509,
       "step": 140
     },
     {
       "epoch": 0.13382556529764653,
-      "grad_norm": 1.8051398779741403,
-      "learning_rate": 1.993266066608142e-05,
-      "loss": 1.0298,
       "step": 145
     },
     {
       "epoch": 0.1384402399630826,
-      "grad_norm": 1.949872455091144,
-      "learning_rate": 1.991268546778726e-05,
-      "loss": 1.0152,
       "step": 150
     },
     {
       "epoch": 0.1430549146285187,
-      "grad_norm": 2.004864424785268,
-      "learning_rate": 1.9890132145779885e-05,
-      "loss": 1.0682,
       "step": 155
     },
     {
       "epoch": 0.14766958929395477,
-      "grad_norm": 1.9881342422206065,
-      "learning_rate": 1.986500656580118e-05,
-      "loss": 1.0275,
       "step": 160
     },
     {
       "epoch": 0.15228426395939088,
-      "grad_norm": 1.895358789872697,
-      "learning_rate": 1.9837315262594307e-05,
-      "loss": 1.0341,
       "step": 165
     },
     {
       "epoch": 0.15689893862482696,
-      "grad_norm": 2.089231797232654,
-      "learning_rate": 1.980706543820412e-05,
-      "loss": 1.0367,
       "step": 170
     },
     {
       "epoch": 0.16151361329026304,
-      "grad_norm": 1.7637365585658213,
-      "learning_rate": 1.9774264960104056e-05,
-      "loss": 1.0223,
       "step": 175
     },
     {
       "epoch": 0.16612828795569912,
-      "grad_norm": 1.7824319082067301,
-      "learning_rate": 1.9738922359149927e-05,
-      "loss": 1.0352,
       "step": 180
     },
     {
       "epoch": 0.1707429626211352,
-      "grad_norm": 1.982313038360383,
-      "learning_rate": 1.9701046827361175e-05,
-      "loss": 1.0386,
       "step": 185
     },
     {
       "epoch": 0.1753576372865713,
-      "grad_norm": 1.6545978849182734,
-      "learning_rate": 1.9660648215530207e-05,
-      "loss": 1.0247,
       "step": 190
     },
     {
       "epoch": 0.17997231195200739,
-      "grad_norm": 1.782636456859102,
-      "learning_rate": 1.9617737030660338e-05,
-      "loss": 1.0305,
       "step": 195
     },
     {
       "epoch": 0.18458698661744347,
-      "grad_norm": 1.8378678572944849,
-      "learning_rate": 1.9572324433233122e-05,
-      "loss": 1.033,
       "step": 200
     },
     {
       "epoch": 0.18458698661744347,
-      "eval_loss": 1.0464073419570923,
-      "eval_runtime": 647.0101,
-      "eval_samples_per_second": 23.725,
-      "eval_steps_per_second": 0.185,
       "step": 200
     },
     {
       "epoch": 0.18920166128287955,
-      "grad_norm": 1.6648522003545267,
-      "learning_rate": 1.9524422234305677e-05,
-      "loss": 1.0268,
       "step": 205
     },
     {
       "epoch": 0.19381633594831565,
-      "grad_norm": 1.7206083361405007,
-      "learning_rate": 1.9474042892438848e-05,
-      "loss": 1.0104,
       "step": 210
     },
     {
       "epoch": 0.19843101061375173,
-      "grad_norm": 2.7587017854007194,
-      "learning_rate": 1.942119951045692e-05,
-      "loss": 1.0338,
       "step": 215
     },
     {
       "epoch": 0.20304568527918782,
-      "grad_norm": 1.7930536986404009,
-      "learning_rate": 1.9365905832039814e-05,
-      "loss": 1.0614,
       "step": 220
     },
     {
       "epoch": 0.2076603599446239,
-      "grad_norm": 1.7259048611678551,
-      "learning_rate": 1.9308176238148565e-05,
-      "loss": 1.051,
       "step": 225
     },
     {
       "epoch": 0.21227503461006,
-      "grad_norm": 1.9820066538391885,
-      "learning_rate": 1.924802574328509e-05,
-      "loss": 1.0259,
       "step": 230
     },
     {
       "epoch": 0.21688970927549608,
-      "grad_norm": 1.9752532611378077,
-      "learning_rate": 1.9185469991587166e-05,
-      "loss": 1.045,
       "step": 235
     },
     {
       "epoch": 0.22150438394093216,
-      "grad_norm": 1.6132930572572803,
-      "learning_rate": 1.912052525275965e-05,
-      "loss": 1.0343,
       "step": 240
     },
     {
       "epoch": 0.22611905860636825,
-      "grad_norm": 1.7584131810475476,
-      "learning_rate": 1.905320841784298e-05,
-      "loss": 1.0341,
       "step": 245
     },
     {
       "epoch": 0.23073373327180433,
-      "grad_norm": 1.70806063018753,
-      "learning_rate": 1.898353699482014e-05,
-      "loss": 1.0335,
       "step": 250
     },
     {
       "epoch": 0.23534840793724043,
-      "grad_norm": 1.6516040151613625,
-      "learning_rate": 1.8911529104063093e-05,
-      "loss": 1.0388,
       "step": 255
     },
     {
       "epoch": 0.23996308260267651,
-      "grad_norm": 1.6090722840992302,
-      "learning_rate": 1.8837203473619978e-05,
-      "loss": 1.0423,
       "step": 260
     },
     {
       "epoch": 0.2445777572681126,
-      "grad_norm": 1.7713270990326546,
-      "learning_rate": 1.8760579434344283e-05,
-      "loss": 1.0475,
       "step": 265
     },
     {
       "epoch": 0.24919243193354867,
-      "grad_norm": 1.658315636443391,
-      "learning_rate": 1.8681676914867176e-05,
-      "loss": 1.0484,
       "step": 270
     },
     {
       "epoch": 0.25380710659898476,
-      "grad_norm": 1.7916964421225479,
-      "learning_rate": 1.860051643641443e-05,
-      "loss": 1.0312,
       "step": 275
     },
     {
       "epoch": 0.25842178126442084,
-      "grad_norm": 1.6115818403548052,
-      "learning_rate": 1.8517119107469194e-05,
-      "loss": 1.0406,
       "step": 280
     },
     {
       "epoch": 0.26303645592985697,
-      "grad_norm": 1.5352737986672527,
-      "learning_rate": 1.8431506618282e-05,
-      "loss": 1.0308,
       "step": 285
     },
     {
       "epoch": 0.26765113059529305,
-      "grad_norm": 1.6588566683503214,
-      "learning_rate": 1.834370123522954e-05,
-      "loss": 1.0427,
       "step": 290
     },
     {
       "epoch": 0.27226580526072913,
-      "grad_norm": 1.5272038076819447,
-      "learning_rate": 1.8253725795023504e-05,
-      "loss": 1.0309,
       "step": 295
     },
     {
       "epoch": 0.2768804799261652,
-      "grad_norm": 1.5715430487703328,
-      "learning_rate": 1.816160369877117e-05,
-      "loss": 1.037,
       "step": 300
     },
     {
       "epoch": 0.2768804799261652,
-      "eval_loss": 1.0424165725708008,
-      "eval_runtime": 645.7635,
-      "eval_samples_per_second": 23.77,
-      "eval_steps_per_second": 0.186,
       "step": 300
     },
     {
       "epoch": 0.2814951545916013,
-      "grad_norm": 1.7174412533746373,
-      "learning_rate": 1.8067358905889148e-05,
-      "loss": 1.0107,
       "step": 305
     },
     {
       "epoch": 0.2861098292570374,
-      "grad_norm": 1.6294029724129888,
-      "learning_rate": 1.797101592787194e-05,
-      "loss": 1.0333,
       "step": 310
     },
     {
       "epoch": 0.29072450392247345,
-      "grad_norm": 1.5569394040938476,
-      "learning_rate": 1.7872599821916922e-05,
-      "loss": 1.0253,
       "step": 315
     },
     {
       "epoch": 0.29533917858790953,
-      "grad_norm": 1.5576353282044078,
-      "learning_rate": 1.7772136184407367e-05,
-      "loss": 1.0258,
       "step": 320
     },
     {
       "epoch": 0.2999538532533456,
-      "grad_norm": 1.6327760193096779,
-      "learning_rate": 1.7669651144255265e-05,
-      "loss": 1.0354,
       "step": 325
     },
     {
       "epoch": 0.30456852791878175,
-      "grad_norm": 1.5902185774151916,
-      "learning_rate": 1.7565171356105627e-05,
-      "loss": 1.0473,
       "step": 330
     },
     {
       "epoch": 0.30918320258421783,
-      "grad_norm": 1.6853713064054245,
-      "learning_rate": 1.7458723993404065e-05,
-      "loss": 1.0423,
       "step": 335
     },
     {
       "epoch": 0.3137978772496539,
-      "grad_norm": 1.6156935982005598,
-      "learning_rate": 1.7350336741329413e-05,
-      "loss": 1.032,
       "step": 340
     },
     {
       "epoch": 0.31841255191509,
-      "grad_norm": 1.6752591408238855,
-      "learning_rate": 1.7240037789593307e-05,
-      "loss": 1.0409,
       "step": 345
     },
     {
       "epoch": 0.3230272265805261,
-      "grad_norm": 1.6216674961461026,
-      "learning_rate": 1.712785582510848e-05,
-      "loss": 1.0146,
       "step": 350
     },
     {
       "epoch": 0.32764190124596215,
-      "grad_norm": 1.5384588472944032,
-      "learning_rate": 1.70138200245278e-05,
-      "loss": 1.0257,
       "step": 355
     },
     {
       "epoch": 0.33225657591139823,
-      "grad_norm": 2.288338756325292,
-      "learning_rate": 1.6897960046655886e-05,
-      "loss": 1.033,
       "step": 360
     },
     {
       "epoch": 0.3368712505768343,
-      "grad_norm": 1.7385161337142583,
-      "learning_rate": 1.6780306024735384e-05,
-      "loss": 1.0213,
       "step": 365
     },
     {
       "epoch": 0.3414859252422704,
-      "grad_norm": 2.2001962662713885,
-      "learning_rate": 1.6660888558609774e-05,
-      "loss": 1.0451,
       "step": 370
     },
     {
       "epoch": 0.34610059990770653,
-      "grad_norm": 1.5300219579349443,
-      "learning_rate": 1.6539738706764895e-05,
-      "loss": 1.0282,
       "step": 375
     },
     {
       "epoch": 0.3507152745731426,
-      "grad_norm": 1.4444114105238783,
-      "learning_rate": 1.6416887978251134e-05,
-      "loss": 1.0203,
       "step": 380
     },
     {
       "epoch": 0.3553299492385787,
-      "grad_norm": 1.5804824265139066,
-      "learning_rate": 1.6292368324488462e-05,
-      "loss": 1.0012,
       "step": 385
     },
     {
       "epoch": 0.35994462390401477,
-      "grad_norm": 1.4610394973013912,
-      "learning_rate": 1.6166212130956383e-05,
-      "loss": 1.0116,
       "step": 390
     },
     {
       "epoch": 0.36455929856945085,
-      "grad_norm": 1.5120140583271204,
-      "learning_rate": 1.6038452208771037e-05,
-      "loss": 1.0319,
       "step": 395
     },
     {
       "epoch": 0.36917397323488693,
-      "grad_norm": 1.516281881967303,
-      "learning_rate": 1.590912178615157e-05,
-      "loss": 1.0136,
       "step": 400
     },
     {
       "epoch": 0.36917397323488693,
-      "eval_loss": 1.0295383930206299,
-      "eval_runtime": 651.8755,
-      "eval_samples_per_second": 23.547,
-      "eval_steps_per_second": 0.184,
       "step": 400
     },
     {
       "epoch": 0.373788647900323,
-      "grad_norm": 1.7544165660209403,
-      "learning_rate": 1.5778254499778006e-05,
-      "loss": 1.0196,
       "step": 405
     },
     {
       "epoch": 0.3784033225657591,
-      "grad_norm": 1.5692875836635374,
-      "learning_rate": 1.564588438604296e-05,
-      "loss": 1.0094,
       "step": 410
     },
     {
       "epoch": 0.3830179972311952,
-      "grad_norm": 1.5588154190139185,
-      "learning_rate": 1.551204587219928e-05,
-      "loss": 0.9973,
       "step": 415
     },
     {
       "epoch": 0.3876326718966313,
-      "grad_norm": 1.773673892309899,
-      "learning_rate": 1.5376773767406142e-05,
-      "loss": 1.0388,
       "step": 420
     },
     {
       "epoch": 0.3922473465620674,
-      "grad_norm": 1.5489285794659653,
-      "learning_rate": 1.5240103253675756e-05,
-      "loss": 1.0087,
       "step": 425
     },
     {
       "epoch": 0.39686202122750347,
-      "grad_norm": 1.6551129777825688,
-      "learning_rate": 1.51020698767231e-05,
-      "loss": 1.0164,
       "step": 430
     },
     {
       "epoch": 0.40147669589293955,
-      "grad_norm": 1.4090672242535114,
-      "learning_rate": 1.4962709536721087e-05,
-      "loss": 0.997,
       "step": 435
     },
     {
       "epoch": 0.40609137055837563,
-      "grad_norm": 1.5171777358410203,
-      "learning_rate": 1.4822058478963532e-05,
-      "loss": 1.0132,
       "step": 440
     },
     {
       "epoch": 0.4107060452238117,
-      "grad_norm": 1.4969201768034885,
-      "learning_rate": 1.4680153284438345e-05,
-      "loss": 1.0119,
       "step": 445
     },
     {
       "epoch": 0.4153207198892478,
-      "grad_norm": 1.5363202791746906,
-      "learning_rate": 1.4537030860313443e-05,
-      "loss": 1.0188,
       "step": 450
     },
     {
       "epoch": 0.41993539455468387,
-      "grad_norm": 1.4963468746071473,
-      "learning_rate": 1.4392728430337801e-05,
-      "loss": 0.9952,
       "step": 455
     },
     {
       "epoch": 0.42455006922012,
-      "grad_norm": 1.500810806740765,
-      "learning_rate": 1.4247283525160178e-05,
-      "loss": 0.9973,
       "step": 460
     },
     {
       "epoch": 0.4291647438855561,
-      "grad_norm": 1.5508662694848825,
-      "learning_rate": 1.4100733972568038e-05,
-      "loss": 1.0085,
       "step": 465
     },
     {
       "epoch": 0.43377941855099217,
-      "grad_norm": 1.5955354844051932,
-      "learning_rate": 1.3953117887649153e-05,
-      "loss": 1.0215,
       "step": 470
     },
     {
       "epoch": 0.43839409321642825,
-      "grad_norm": 1.4682043182906732,
-      "learning_rate": 1.3804473662878519e-05,
-      "loss": 1.0143,
       "step": 475
     },
     {
       "epoch": 0.44300876788186433,
-      "grad_norm": 1.4980307846950924,
-      "learning_rate": 1.3654839958133118e-05,
-      "loss": 1.0026,
       "step": 480
     },
     {
       "epoch": 0.4476234425473004,
-      "grad_norm": 1.5233835818444807,
-      "learning_rate": 1.3504255690637122e-05,
-      "loss": 1.0205,
       "step": 485
     },
     {
       "epoch": 0.4522381172127365,
-      "grad_norm": 1.4814525071349245,
-      "learning_rate": 1.3352760024840174e-05,
-      "loss": 0.9967,
       "step": 490
     },
     {
       "epoch": 0.45685279187817257,
-      "grad_norm": 1.4499082430240968,
-      "learning_rate": 1.3200392362231385e-05,
-      "loss": 0.9842,
       "step": 495
     },
     {
       "epoch": 0.46146746654360865,
-      "grad_norm": 1.5561735389313882,
-      "learning_rate": 1.3047192331091636e-05,
-      "loss": 1.0229,
       "step": 500
     },
     {
       "epoch": 0.46146746654360865,
-      "eval_loss": 1.015141248703003,
-      "eval_runtime": 633.8229,
-      "eval_samples_per_second": 24.218,
-      "eval_steps_per_second": 0.189,
       "step": 500
     },
     {
       "epoch": 0.4660821412090448,
-      "grad_norm": 1.4233232765996602,
-      "learning_rate": 1.2893199776186957e-05,
-      "loss": 0.9936,
       "step": 505
     },
     {
       "epoch": 0.47069681587448087,
-      "grad_norm": 1.54900822797248,
-      "learning_rate": 1.2738454748405552e-05,
-      "loss": 1.0102,
       "step": 510
     },
     {
       "epoch": 0.47531149053991695,
-      "grad_norm": 1.4249354749013639,
-      "learning_rate": 1.258299749434123e-05,
-      "loss": 1.013,
       "step": 515
     },
     {
       "epoch": 0.47992616520535303,
-      "grad_norm": 1.468956411146474,
-      "learning_rate": 1.2426868445825955e-05,
-      "loss": 1.0027,
       "step": 520
     },
     {
       "epoch": 0.4845408398707891,
-      "grad_norm": 1.515134495058657,
-      "learning_rate": 1.2270108209414186e-05,
-      "loss": 0.9825,
       "step": 525
     },
     {
       "epoch": 0.4891555145362252,
-      "grad_norm": 1.49493206284371,
-      "learning_rate": 1.2112757555821796e-05,
-      "loss": 0.9968,
       "step": 530
     },
     {
       "epoch": 0.49377018920166127,
-      "grad_norm": 1.494232964423619,
-      "learning_rate": 1.1954857409322302e-05,
-      "loss": 0.9808,
       "step": 535
     },
     {
       "epoch": 0.49838486386709735,
-      "grad_norm": 1.5895499778471747,
-      "learning_rate": 1.179644883710313e-05,
-      "loss": 0.996,
       "step": 540
     },
     {
       "epoch": 0.5029995385325334,
-      "grad_norm": 1.575516689496947,
-      "learning_rate": 1.1637573038584729e-05,
-      "loss": 0.9843,
       "step": 545
     },
     {
       "epoch": 0.5076142131979695,
-      "grad_norm": 1.5289310135121519,
-      "learning_rate": 1.1478271334705302e-05,
-      "loss": 0.9897,
       "step": 550
     },
     {
       "epoch": 0.5122288878634056,
-      "grad_norm": 1.487892885517731,
-      "learning_rate": 1.1318585157173913e-05,
-      "loss": 0.9965,
       "step": 555
     },
     {
       "epoch": 0.5168435625288417,
-      "grad_norm": 1.504695649448808,
-      "learning_rate": 1.115855603769479e-05,
-      "loss": 0.9864,
       "step": 560
     },
     {
       "epoch": 0.5214582371942778,
-      "grad_norm": 1.444258657078223,
-      "learning_rate": 1.0998225597165628e-05,
-      "loss": 0.9824,
       "step": 565
     },
     {
       "epoch": 0.5260729118597139,
-      "grad_norm": 1.452291205660523,
-      "learning_rate": 1.0837635534852687e-05,
-      "loss": 0.9806,
       "step": 570
     },
     {
       "epoch": 0.53068758652515,
-      "grad_norm": 1.4809970617721466,
-      "learning_rate": 1.0676827617545511e-05,
-      "loss": 0.98,
       "step": 575
     },
     {
       "epoch": 0.5353022611905861,
-      "grad_norm": 1.4688234901022226,
-      "learning_rate": 1.0515843668694087e-05,
-      "loss": 0.9785,
       "step": 580
     },
     {
       "epoch": 0.5399169358560222,
-      "grad_norm": 1.4825659064745627,
-      "learning_rate": 1.0354725557531258e-05,
-      "loss": 0.9776,
       "step": 585
     },
     {
       "epoch": 0.5445316105214583,
-      "grad_norm": 1.3801777122885093,
-      "learning_rate": 1.0193515188183246e-05,
-      "loss": 0.9687,
       "step": 590
     },
     {
       "epoch": 0.5491462851868943,
-      "grad_norm": 1.421023225061784,
-      "learning_rate": 1.003225448877108e-05,
-      "loss": 0.9964,
       "step": 595
     },
     {
       "epoch": 0.5537609598523304,
-      "grad_norm": 1.3889284539657671,
-      "learning_rate": 9.870985400505805e-06,
-      "loss": 0.9745,
       "step": 600
     },
     {
       "epoch": 0.5537609598523304,
-      "eval_loss": 0.9945215582847595,
-      "eval_runtime": 661.3891,
-      "eval_samples_per_second": 23.209,
-      "eval_steps_per_second": 0.181,
       "step": 600
     },
     {
       "epoch": 0.5583756345177665,
-      "grad_norm": 1.4429569586116144,
-      "learning_rate": 9.709749866780248e-06,
-      "loss": 0.9805,
       "step": 605
     },
     {
       "epoch": 0.5629903091832026,
-      "grad_norm": 1.4656449742761994,
-      "learning_rate": 9.548589822260281e-06,
-      "loss": 0.9895,
       "step": 610
     },
     {
       "epoch": 0.5676049838486387,
-      "grad_norm": 1.3965932035586004,
-      "learning_rate": 9.387547181978291e-06,
-      "loss": 0.9744,
       "step": 615
     },
     {
       "epoch": 0.5722196585140747,
-      "grad_norm": 1.359374657149616,
-      "learning_rate": 9.226663830431777e-06,
-      "loss": 0.9824,
       "step": 620
     },
     {
       "epoch": 0.5768343331795108,
-      "grad_norm": 1.3668229629199753,
-      "learning_rate": 9.065981610689915e-06,
-      "loss": 0.9706,
       "step": 625
     },
     {
       "epoch": 0.5814490078449469,
-      "grad_norm": 1.373500531171451,
-      "learning_rate": 8.905542313510846e-06,
-      "loss": 0.9796,
       "step": 630
     },
     {
       "epoch": 0.586063682510383,
-      "grad_norm": 1.4067124446675243,
-      "learning_rate": 8.745387666472639e-06,
-      "loss": 0.9879,
       "step": 635
     },
     {
       "epoch": 0.5906783571758191,
-      "grad_norm": 1.436245514521079,
-      "learning_rate": 8.58555932312059e-06,
-      "loss": 0.9894,
       "step": 640
     },
     {
       "epoch": 0.5952930318412551,
-      "grad_norm": 1.429504715827128,
-      "learning_rate": 8.426098852133892e-06,
-      "loss": 0.9643,
       "step": 645
     },
     {
       "epoch": 0.5999077065066912,
-      "grad_norm": 1.3728127558164411,
-      "learning_rate": 8.267047726514278e-06,
-      "loss": 0.9813,
       "step": 650
     },
     {
       "epoch": 0.6045223811721273,
-      "grad_norm": 1.3422366968784711,
-      "learning_rate": 8.108447312799588e-06,
-      "loss": 0.972,
       "step": 655
     },
     {
       "epoch": 0.6091370558375635,
-      "grad_norm": 1.4348417465202754,
-      "learning_rate": 7.950338860305049e-06,
-      "loss": 0.9638,
       "step": 660
     },
     {
       "epoch": 0.6137517305029996,
-      "grad_norm": 1.3342023162033965,
-      "learning_rate": 7.792763490394983e-06,
-      "loss": 0.9733,
       "step": 665
     },
     {
       "epoch": 0.6183664051684357,
-      "grad_norm": 1.361475388045652,
-      "learning_rate": 7.635762185787868e-06,
-      "loss": 0.9773,
       "step": 670
     },
     {
       "epoch": 0.6229810798338717,
-      "grad_norm": 1.3634924688905254,
-      "learning_rate": 7.479375779897379e-06,
-      "loss": 0.9747,
       "step": 675
     },
     {
       "epoch": 0.6275957544993078,
-      "grad_norm": 1.3732265984949414,
-      "learning_rate": 7.3236449462123315e-06,
-      "loss": 0.9678,
       "step": 680
     },
     {
       "epoch": 0.6322104291647439,
-      "grad_norm": 1.4464461120602612,
-      "learning_rate": 7.168610187718164e-06,
-      "loss": 0.9662,
       "step": 685
     },
     {
       "epoch": 0.63682510383018,
-      "grad_norm": 1.3931117990795983,
-      "learning_rate": 7.014311826362804e-06,
-      "loss": 0.9641,
       "step": 690
     },
     {
       "epoch": 0.6414397784956161,
-      "grad_norm": 1.366546097704984,
-      "learning_rate": 6.860789992569601e-06,
-      "loss": 0.9787,
       "step": 695
     },
     {
       "epoch": 0.6460544531610521,
-      "grad_norm": 1.3945778923545584,
-      "learning_rate": 6.708084614800065e-06,
-      "loss": 0.9441,
       "step": 700
     },
     {
       "epoch": 0.6460544531610521,
-      "eval_loss": 0.9769104719161987,
-      "eval_runtime": 633.9092,
-      "eval_samples_per_second": 24.215,
-      "eval_steps_per_second": 0.189,
       "step": 700
     },
     {
       "epoch": 0.6506691278264882,
-      "grad_norm": 1.364918482537208,
-      "learning_rate": 6.556235409169154e-06,
-      "loss": 0.9437,
       "step": 705
     },
     {
       "epoch": 0.6552838024919243,
-      "grad_norm": 1.3330832614943129,
-      "learning_rate": 6.405281869115768e-06,
-      "loss": 0.9482,
       "step": 710
     },
     {
       "epoch": 0.6598984771573604,
-      "grad_norm": 1.3291401175998692,
-      "learning_rate": 6.255263255131172e-06,
-      "loss": 0.9646,
       "step": 715
     },
     {
       "epoch": 0.6645131518227965,
-      "grad_norm": 1.3661394031338707,
-      "learning_rate": 6.106218584547992e-06,
-      "loss": 0.9649,
       "step": 720
     },
     {
       "epoch": 0.6691278264882325,
-      "grad_norm": 1.3117340443959773,
-      "learning_rate": 5.9581866213924656e-06,
-      "loss": 0.9525,
       "step": 725
     },
     {
       "epoch": 0.6737425011536686,
-      "grad_norm": 1.364658394013176,
-      "learning_rate": 5.811205866302571e-06,
-      "loss": 0.9516,
       "step": 730
     },
     {
       "epoch": 0.6783571758191047,
-      "grad_norm": 1.331994492768848,
-      "learning_rate": 5.665314546514633e-06,
-      "loss": 0.954,
       "step": 735
     },
     {
       "epoch": 0.6829718504845408,
-      "grad_norm": 1.3743467262940992,
-      "learning_rate": 5.520550605921091e-06,
-      "loss": 0.9554,
       "step": 740
     },
     {
       "epoch": 0.687586525149977,
-      "grad_norm": 1.3312291076208118,
-      "learning_rate": 5.376951695201894e-06,
-      "loss": 0.9565,
       "step": 745
     },
     {
       "epoch": 0.6922011998154131,
-      "grad_norm": 1.3832998972367352,
-      "learning_rate": 5.234555162032221e-06,
-      "loss": 0.9475,
       "step": 750
     },
     {
       "epoch": 0.6968158744808491,
-      "grad_norm": 1.389562727942595,
-      "learning_rate": 5.093398041368942e-06,
-      "loss": 0.9574,
       "step": 755
     },
     {
       "epoch": 0.7014305491462852,
-      "grad_norm": 1.3714452844531986,
-      "learning_rate": 4.9535170458184735e-06,
-      "loss": 0.9581,
       "step": 760
     },
     {
       "epoch": 0.7060452238117213,
-      "grad_norm": 1.3477889477630838,
-      "learning_rate": 4.81494855608843e-06,
-      "loss": 0.9561,
       "step": 765
     },
     {
       "epoch": 0.7106598984771574,
-      "grad_norm": 1.4491931180376743,
-      "learning_rate": 4.677728611525605e-06,
-      "loss": 0.9512,
       "step": 770
     },
     {
       "epoch": 0.7152745731425935,
-      "grad_norm": 1.3241497550464327,
-      "learning_rate": 4.541892900742757e-06,
-      "loss": 0.9422,
       "step": 775
     },
     {
       "epoch": 0.7198892478080295,
-      "grad_norm": 1.314421280157553,
-      "learning_rate": 4.407476752336575e-06,
-      "loss": 0.943,
       "step": 780
     },
     {
       "epoch": 0.7245039224734656,
-      "grad_norm": 1.2755970945876594,
-      "learning_rate": 4.2745151256993325e-06,
-      "loss": 0.9426,
       "step": 785
     },
     {
       "epoch": 0.7291185971389017,
-      "grad_norm": 1.332124542587031,
-      "learning_rate": 4.143042601926492e-06,
-      "loss": 0.9533,
       "step": 790
     },
     {
       "epoch": 0.7337332718043378,
-      "grad_norm": 1.3708413423330084,
-      "learning_rate": 4.013093374822789e-06,
-      "loss": 0.9374,
       "step": 795
     },
     {
       "epoch": 0.7383479464697739,
-      "grad_norm": 1.27203160584856,
-      "learning_rate": 3.884701242008949e-06,
-      "loss": 0.9277,
       "step": 800
     },
     {
       "epoch": 0.7383479464697739,
-      "eval_loss": 0.9612703323364258,
-      "eval_runtime": 651.9955,
-      "eval_samples_per_second": 23.543,
-      "eval_steps_per_second": 0.184,
       "step": 800
     },
     {
       "epoch": 0.7429626211352099,
-      "grad_norm": 1.31377359076841,
-      "learning_rate": 3.757899596131529e-06,
-      "loss": 0.9611,
       "step": 805
     },
     {
       "epoch": 0.747577295800646,
-      "grad_norm": 1.2975998004112579,
-      "learning_rate": 3.6327214161780287e-06,
-      "loss": 0.9798,
       "step": 810
     },
     {
       "epoch": 0.7521919704660821,
-      "grad_norm": 1.3894464184722144,
-      "learning_rate": 3.5091992588996026e-06,
-      "loss": 0.9567,
       "step": 815
     },
     {
       "epoch": 0.7568066451315182,
-      "grad_norm": 1.282473554343769,
-      "learning_rate": 3.387365250343615e-06,
-      "loss": 0.954,
       "step": 820
     },
     {
       "epoch": 0.7614213197969543,
-      "grad_norm": 1.3647805901178591,
-      "learning_rate": 3.2672510774981692e-06,
-      "loss": 0.9361,
       "step": 825
     },
     {
       "epoch": 0.7660359944623903,
-      "grad_norm": 1.347888877348781,
-      "learning_rate": 3.148887980050872e-06,
-      "loss": 0.9432,
       "step": 830
     },
     {
       "epoch": 0.7706506691278265,
-      "grad_norm": 1.377090549096584,
-      "learning_rate": 3.032306742263891e-06,
-      "loss": 0.9519,
       "step": 835
     },
     {
       "epoch": 0.7752653437932626,
-      "grad_norm": 1.287471382339416,
-      "learning_rate": 2.9175376849675076e-06,
-      "loss": 0.9607,
       "step": 840
     },
     {
       "epoch": 0.7798800184586987,
-      "grad_norm": 1.4070979616878627,
-      "learning_rate": 2.8046106576741605e-06,
-      "loss": 0.929,
       "step": 845
     },
     {
       "epoch": 0.7844946931241348,
-      "grad_norm": 1.296812382608952,
-      "learning_rate": 2.693555030815085e-06,
-      "loss": 0.9383,
       "step": 850
     },
     {
       "epoch": 0.7891093677895709,
-      "grad_norm": 1.345957217872087,
-      "learning_rate": 2.5843996881015676e-06,
-      "loss": 0.9378,
       "step": 855
     },
     {
       "epoch": 0.7937240424550069,
-      "grad_norm": 1.3218142306826084,
-      "learning_rate": 2.4771730190127616e-06,
-      "loss": 0.9353,
       "step": 860
     },
     {
       "epoch": 0.798338717120443,
-      "grad_norm": 1.2932161650654428,
-      "learning_rate": 2.3719029114120716e-06,
-      "loss": 0.9333,
       "step": 865
     },
     {
       "epoch": 0.8029533917858791,
-      "grad_norm": 1.36407173107211,
-      "learning_rate": 2.2686167442939733e-06,
-      "loss": 0.9401,
       "step": 870
     },
     {
       "epoch": 0.8075680664513152,
-      "grad_norm": 1.302064737279862,
-      "learning_rate": 2.1673413806632104e-06,
-      "loss": 0.939,
       "step": 875
     },
     {
       "epoch": 0.8121827411167513,
-      "grad_norm": 1.3229653318762729,
-      "learning_rate": 2.0681031605481563e-06,
-      "loss": 0.9355,
       "step": 880
     },
     {
       "epoch": 0.8167974157821873,
-      "grad_norm": 1.3252223231469167,
-      "learning_rate": 1.9709278941502363e-06,
-      "loss": 0.9344,
       "step": 885
     },
     {
       "epoch": 0.8214120904476234,
-      "grad_norm": 1.3270338774644677,
-      "learning_rate": 1.8758408551311048e-06,
-      "loss": 0.9321,
       "step": 890
     },
     {
       "epoch": 0.8260267651130595,
-      "grad_norm": 1.3116552675081934,
-      "learning_rate": 1.7828667740394045e-06,
-      "loss": 0.9513,
       "step": 895
     },
     {
       "epoch": 0.8306414397784956,
-      "grad_norm": 1.2617601634166857,
-      "learning_rate": 1.6920298318787532e-06,
-      "loss": 0.9384,
       "step": 900
     },
     {
       "epoch": 0.8306414397784956,
-      "eval_loss": 0.9501336812973022,
-      "eval_runtime": 633.7004,
-      "eval_samples_per_second": 24.223,
-      "eval_steps_per_second": 0.189,
       "step": 900
     },
     {
       "epoch": 0.8352561144439317,
-      "grad_norm": 1.3036810903046379,
-      "learning_rate": 1.6033536538186778e-06,
-      "loss": 0.9363,
       "step": 905
     },
     {
       "epoch": 0.8398707891093677,
-      "grad_norm": 1.3184782817538288,
-      "learning_rate": 1.5168613030500922e-06,
-      "loss": 0.9254,
       "step": 910
     },
     {
       "epoch": 0.8444854637748038,
-      "grad_norm": 1.3311174144545366,
-      "learning_rate": 1.4325752747869626e-06,
-      "loss": 0.9401,
       "step": 915
     },
     {
       "epoch": 0.84910013844024,
-      "grad_norm": 1.2485403971692124,
-      "learning_rate": 1.3505174904156593e-06,
-      "loss": 0.9305,
       "step": 920
     },
     {
       "epoch": 0.8537148131056761,
-      "grad_norm": 1.302635001110673,
-      "learning_rate": 1.2707092917935914e-06,
-      "loss": 0.9393,
       "step": 925
     },
     {
       "epoch": 0.8583294877711122,
-      "grad_norm": 1.3633354249041523,
-      "learning_rate": 1.1931714356985257e-06,
-      "loss": 0.9312,
       "step": 930
     },
     {
       "epoch": 0.8629441624365483,
-      "grad_norm": 1.2815769915508204,
-      "learning_rate": 1.1179240884301158e-06,
-      "loss": 0.9217,
       "step": 935
     },
     {
       "epoch": 0.8675588371019843,
-      "grad_norm": 1.3419818473322924,
-      "learning_rate": 1.0449868205649648e-06,
-      "loss": 0.9168,
       "step": 940
     },
     {
       "epoch": 0.8721735117674204,
-      "grad_norm": 1.3006753146842553,
-      "learning_rate": 9.74378601866669e-07,
-      "loss": 0.9413,
       "step": 945
     },
     {
       "epoch": 0.8767881864328565,
-      "grad_norm": 1.275285958470618,
-      "learning_rate": 9.061177963520751e-07,
-      "loss": 0.9446,
       "step": 950
     },
     {
       "epoch": 0.8814028610982926,
-      "grad_norm": 1.2680303522716787,
-      "learning_rate": 8.402221575151238e-07,
-      "loss": 0.9161,
       "step": 955
     },
     {
       "epoch": 0.8860175357637287,
-      "grad_norm": 1.2495043326934117,
-      "learning_rate": 7.767088237094578e-07,
-      "loss": 0.9333,
       "step": 960
     },
     {
       "epoch": 0.8906322104291647,
-      "grad_norm": 1.3345940160548069,
-      "learning_rate": 7.155943136910193e-07,
-      "loss": 0.9353,
       "step": 965
     },
     {
       "epoch": 0.8952468850946008,
-      "grad_norm": 1.3252439901574087,
-      "learning_rate": 6.568945223218048e-07,
-      "loss": 0.9381,
       "step": 970
     },
     {
       "epoch": 0.8998615597600369,
-      "grad_norm": 1.2795828639710098,
-      "learning_rate": 6.00624716435868e-07,
-      "loss": 0.9199,
       "step": 975
     },
     {
       "epoch": 0.904476234425473,
-      "grad_norm": 1.3413550832303935,
-      "learning_rate": 5.467995308686813e-07,
-      "loss": 0.94,
       "step": 980
     },
     {
       "epoch": 0.9090909090909091,
-      "grad_norm": 1.3436022079621268,
-      "learning_rate": 4.954329646508505e-07,
-      "loss": 0.9313,
       "step": 985
     },
     {
       "epoch": 0.9137055837563451,
-      "grad_norm": 1.3709638383836422,
-      "learning_rate": 4.4653837736721273e-07,
-      "loss": 0.9346,
       "step": 990
     },
     {
       "epoch": 0.9183202584217812,
-      "grad_norm": 1.2668090185362362,
-      "learning_rate": 4.001284856822174e-07,
-      "loss": 0.9408,
       "step": 995
     },
     {
       "epoch": 0.9229349330872173,
-      "grad_norm": 1.2697339769613498,
-      "learning_rate": 3.562153600325491e-07,
-      "loss": 0.9216,
       "step": 1000
     },
     {
       "epoch": 0.9229349330872173,
-      "eval_loss": 0.9448357224464417,
-      "eval_runtime": 634.4549,
-      "eval_samples_per_second": 24.194,
-      "eval_steps_per_second": 0.189,
       "step": 1000
     },
     {
       "epoch": 0.9275496077526535,
-      "grad_norm": 1.281655332093928,
-      "learning_rate": 3.1481042148779674e-07,
-      "loss": 0.9399,
       "step": 1005
     },
     {
       "epoch": 0.9321642824180896,
-      "grad_norm": 1.3600956214897377,
-      "learning_rate": 2.7592443878003196e-07,
-      "loss": 0.9408,
       "step": 1010
     },
     {
       "epoch": 0.9367789570835257,
-      "grad_norm": 1.3158687412306498,
-      "learning_rate": 2.395675255030383e-07,
-      "loss": 0.9227,
       "step": 1015
     },
     {
       "epoch": 0.9413936317489617,
-      "grad_norm": 1.321042213237677,
-      "learning_rate": 2.057491374819365e-07,
-      "loss": 0.9251,
       "step": 1020
     },
     {
       "epoch": 0.9460083064143978,
-      "grad_norm": 1.2706676798657595,
-      "learning_rate": 1.7447807031388264e-07,
-      "loss": 0.9332,
       "step": 1025
     },
     {
       "epoch": 0.9506229810798339,
-      "grad_norm": 1.3025080688365438,
-      "learning_rate": 1.457624570804772e-07,
-      "loss": 0.9171,
       "step": 1030
     },
     {
       "epoch": 0.95523765574527,
-      "grad_norm": 1.3183940856356338,
-      "learning_rate": 1.196097662324902e-07,
-      "loss": 0.9394,
       "step": 1035
     },
     {
       "epoch": 0.9598523304107061,
-      "grad_norm": 1.2959502551091049,
-      "learning_rate": 9.602679964744288e-08,
-      "loss": 0.9171,
       "step": 1040
     },
     {
       "epoch": 0.9644670050761421,
-      "grad_norm": 1.3183746243018815,
-      "learning_rate": 7.501969086054717e-08,
-      "loss": 0.9328,
       "step": 1045
     },
     {
       "epoch": 0.9690816797415782,
-      "grad_norm": 1.3307943534831945,
-      "learning_rate": 5.659390346948179e-08,
-      "loss": 0.9424,
       "step": 1050
     },
     {
       "epoch": 0.9736963544070143,
-      "grad_norm": 1.2730525780758684,
-      "learning_rate": 4.075422971340115e-08,
-      "loss": 0.9402,
       "step": 1055
     },
     {
       "epoch": 0.9783110290724504,
-      "grad_norm": 1.3093625889696177,
-      "learning_rate": 2.7504789226548977e-08,
-      "loss": 0.9275,
       "step": 1060
     },
     {
       "epoch": 0.9829257037378865,
-      "grad_norm": 1.2514296608879,
-      "learning_rate": 1.6849027966816535e-08,
-      "loss": 0.9269,
       "step": 1065
     },
     {
       "epoch": 0.9875403784033225,
-      "grad_norm": 1.273379135333167,
-      "learning_rate": 8.789717319505065e-09,
-      "loss": 0.9362,
       "step": 1070
     },
     {
       "epoch": 0.9921550530687586,
-      "grad_norm": 1.2811332538414983,
-      "learning_rate": 3.328953376530164e-09,
-      "loss": 0.9313,
       "step": 1075
     },
     {
       "epoch": 0.9967697277341947,
-      "grad_norm": 1.3117234277097758,
-      "learning_rate": 4.681563912700693e-10,
-      "loss": 0.9204,
       "step": 1080
     },
     {
       "epoch": 0.9995385325334564,
       "step": 1083,
       "total_flos": 453306954547200.0,
-      "train_loss": 0.986508995762382,
-      "train_runtime": 33955.1767,
-      "train_samples_per_second": 4.084,
-      "train_steps_per_second": 0.032
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.0009229349330872173,
+      "grad_norm": 9.222650171740101,
+      "learning_rate": 9.174311926605506e-08,
+      "loss": 1.1391,
       "step": 1
     },
     {
       "epoch": 0.0046146746654360865,
+      "grad_norm": 8.813354760736841,
+      "learning_rate": 4.587155963302753e-07,
+      "loss": 1.1346,
       "step": 5
     },
     {
       "epoch": 0.009229349330872173,
+      "grad_norm": 5.082254385960609,
+      "learning_rate": 9.174311926605506e-07,
+      "loss": 1.0934,
       "step": 10
     },
     {
       "epoch": 0.01384402399630826,
+      "grad_norm": 3.211536911547781,
+      "learning_rate": 1.3761467889908258e-06,
+      "loss": 1.0264,
       "step": 15
     },
     {
       "epoch": 0.018458698661744346,
+      "grad_norm": 2.7181445543779494,
+      "learning_rate": 1.8348623853211011e-06,
+      "loss": 1.0199,
       "step": 20
     },
     {
       "epoch": 0.023073373327180433,
+      "grad_norm": 2.3056635728248183,
+      "learning_rate": 2.2935779816513764e-06,
+      "loss": 1.0075,
       "step": 25
     },
     {
       "epoch": 0.02768804799261652,
+      "grad_norm": 2.6315302800596365,
+      "learning_rate": 2.7522935779816517e-06,
+      "loss": 0.9732,
       "step": 30
     },
     {
       "epoch": 0.032302722658052604,
+      "grad_norm": 2.0678619803720886,
+      "learning_rate": 3.211009174311927e-06,
+      "loss": 0.9964,
       "step": 35
     },
     {
       "epoch": 0.03691739732348869,
+      "grad_norm": 3.005634145043816,
+      "learning_rate": 3.6697247706422022e-06,
+      "loss": 1.0015,
       "step": 40
     },
     {
       "epoch": 0.04153207198892478,
+      "grad_norm": 2.495857277480277,
+      "learning_rate": 4.128440366972478e-06,
+      "loss": 0.979,
       "step": 45
     },
     {
       "epoch": 0.046146746654360866,
+      "grad_norm": 2.442092473284365,
+      "learning_rate": 4.587155963302753e-06,
+      "loss": 0.9723,
       "step": 50
     },
     {
       "epoch": 0.050761421319796954,
+      "grad_norm": 2.1284759016567136,
+      "learning_rate": 5.045871559633028e-06,
+      "loss": 0.9722,
       "step": 55
     },
     {
       "epoch": 0.05537609598523304,
+      "grad_norm": 2.83564108049901,
+      "learning_rate": 5.504587155963303e-06,
+      "loss": 0.9852,
       "step": 60
     },
     {
       "epoch": 0.05999077065066913,
+      "grad_norm": 2.0748240090940975,
+      "learning_rate": 5.963302752293578e-06,
+      "loss": 0.9845,
       "step": 65
     },
     {
       "epoch": 0.06460544531610521,
+      "grad_norm": 2.9709334092183863,
+      "learning_rate": 6.422018348623854e-06,
+      "loss": 0.9615,
       "step": 70
     },
     {
       "epoch": 0.0692201199815413,
+      "grad_norm": 2.184920669369361,
+      "learning_rate": 6.880733944954129e-06,
+      "loss": 0.9675,
       "step": 75
     },
     {
       "epoch": 0.07383479464697738,
+      "grad_norm": 2.1738804546566817,
+      "learning_rate": 7.3394495412844045e-06,
+      "loss": 0.9589,
       "step": 80
     },
     {
       "epoch": 0.07844946931241348,
+      "grad_norm": 2.223214536084122,
+      "learning_rate": 7.79816513761468e-06,
+      "loss": 0.977,
       "step": 85
     },
     {
       "epoch": 0.08306414397784956,
+      "grad_norm": 1.990814551883062,
+      "learning_rate": 8.256880733944956e-06,
+      "loss": 0.9767,
       "step": 90
     },
     {
       "epoch": 0.08767881864328565,
+      "grad_norm": 2.0700255239398375,
+      "learning_rate": 8.71559633027523e-06,
+      "loss": 0.9828,
       "step": 95
     },
     {
       "epoch": 0.09229349330872173,
+      "grad_norm": 1.821385794436734,
+      "learning_rate": 9.174311926605506e-06,
+      "loss": 0.9896,
       "step": 100
     },
     {
       "epoch": 0.09229349330872173,
+      "eval_loss": 0.9892959594726562,
+      "eval_runtime": 901.1864,
+      "eval_samples_per_second": 17.033,
+      "eval_steps_per_second": 0.133,
       "step": 100
     },
     {
       "epoch": 0.09690816797415783,
+      "grad_norm": 2.1363964627484155,
+      "learning_rate": 9.633027522935781e-06,
+      "loss": 1.015,
       "step": 105
     },
     {
       "epoch": 0.10152284263959391,
+      "grad_norm": 1.9477999761197564,
+      "learning_rate": 9.999973991131207e-06,
+      "loss": 0.9983,
       "step": 110
     },
     {
       "epoch": 0.10613751730503,
+      "grad_norm": 2.0399110459564516,
+      "learning_rate": 9.999063709134502e-06,
+      "loss": 1.0062,
       "step": 115
     },
     {
       "epoch": 0.11075219197046608,
+      "grad_norm": 1.9098211009145907,
+      "learning_rate": 9.996853254269984e-06,
+      "loss": 0.9855,
       "step": 120
     },
     {
       "epoch": 0.11536686663590216,
+      "grad_norm": 1.7833107957442789,
+      "learning_rate": 9.99334320144e-06,
+      "loss": 1.0093,
       "step": 125
     },
     {
       "epoch": 0.11998154130133826,
+      "grad_norm": 1.7815777364460414,
+      "learning_rate": 9.988534463550585e-06,
+      "loss": 0.981,
       "step": 130
     },
     {
       "epoch": 0.12459621596677434,
+      "grad_norm": 1.8694974323828528,
+      "learning_rate": 9.982428291274047e-06,
+      "loss": 1.0102,
       "step": 135
     },
     {
       "epoch": 0.12921089063221042,
+      "grad_norm": 1.8237445983099982,
+      "learning_rate": 9.975026272723677e-06,
+      "loss": 1.006,
       "step": 140
     },
     {
       "epoch": 0.13382556529764653,
+      "grad_norm": 1.8625032130850405,
+      "learning_rate": 9.96633033304071e-06,
+      "loss": 0.984,
       "step": 145
     },
     {
       "epoch": 0.1384402399630826,
+      "grad_norm": 2.072572452539365,
+      "learning_rate": 9.95634273389363e-06,
+      "loss": 0.9712,
       "step": 150
     },
     {
       "epoch": 0.1430549146285187,
+      "grad_norm": 2.0593175620343547,
+      "learning_rate": 9.945066072889942e-06,
+      "loss": 1.0211,
       "step": 155
     },
     {
       "epoch": 0.14766958929395477,
+      "grad_norm": 2.0200152592170943,
+      "learning_rate": 9.93250328290059e-06,
+      "loss": 0.9775,
       "step": 160
     },
     {
       "epoch": 0.15228426395939088,
+      "grad_norm": 1.875921122063454,
+      "learning_rate": 9.918657631297153e-06,
+      "loss": 0.9847,
       "step": 165
     },
     {
       "epoch": 0.15689893862482696,
+      "grad_norm": 1.8527340279543534,
+      "learning_rate": 9.90353271910206e-06,
+      "loss": 0.9872,
       "step": 170
     },
     {
       "epoch": 0.16151361329026304,
+      "grad_norm": 1.8908823561795056,
+      "learning_rate": 9.887132480052028e-06,
+      "loss": 0.9712,
       "step": 175
     },
     {
       "epoch": 0.16612828795569912,
+      "grad_norm": 1.8296519425504616,
+      "learning_rate": 9.869461179574963e-06,
+      "loss": 0.9859,
       "step": 180
     },
     {
       "epoch": 0.1707429626211352,
+      "grad_norm": 1.7574451917239733,
+      "learning_rate": 9.850523413680588e-06,
+      "loss": 0.9911,
       "step": 185
     },
     {
       "epoch": 0.1753576372865713,
+      "grad_norm": 1.7389467033514425,
+      "learning_rate": 9.830324107765104e-06,
+      "loss": 0.9739,
       "step": 190
     },
     {
       "epoch": 0.17997231195200739,
+      "grad_norm": 1.7050530099463075,
+      "learning_rate": 9.808868515330169e-06,
+      "loss": 0.9803,
       "step": 195
     },
     {
       "epoch": 0.18458698661744347,
+      "grad_norm": 1.756999826792102,
+      "learning_rate": 9.786162216616561e-06,
+      "loss": 0.9838,
       "step": 200
     },
     {
       "epoch": 0.18458698661744347,
+      "eval_loss": 0.9935115575790405,
+      "eval_runtime": 751.2551,
+      "eval_samples_per_second": 20.432,
+      "eval_steps_per_second": 0.16,
       "step": 200
     },
     {
       "epoch": 0.18920166128287955,
+      "grad_norm": 1.778225787399477,
+      "learning_rate": 9.762211117152839e-06,
+      "loss": 0.9754,
       "step": 205
     },
     {
       "epoch": 0.19381633594831565,
+      "grad_norm": 1.6039072749046104,
+      "learning_rate": 9.737021446219424e-06,
+      "loss": 0.9577,
       "step": 210
     },
     {
       "epoch": 0.19843101061375173,
+      "grad_norm": 1.8562210127250676,
+      "learning_rate": 9.71059975522846e-06,
+      "loss": 0.9708,
       "step": 215
     },
     {
       "epoch": 0.20304568527918782,
+      "grad_norm": 1.602175292503488,
+      "learning_rate": 9.682952916019907e-06,
+      "loss": 0.9922,
       "step": 220
     },
     {
       "epoch": 0.2076603599446239,
+      "grad_norm": 1.5958137821643004,
+      "learning_rate": 9.654088119074282e-06,
+      "loss": 0.9965,
       "step": 225
     },
     {
       "epoch": 0.21227503461006,
+      "grad_norm": 1.8573846533843932,
+      "learning_rate": 9.624012871642545e-06,
+      "loss": 0.9753,
       "step": 230
     },
     {
       "epoch": 0.21688970927549608,
+      "grad_norm": 1.640370350766078,
+      "learning_rate": 9.592734995793583e-06,
+      "loss": 0.9925,
       "step": 235
     },
     {
       "epoch": 0.22150438394093216,
+      "grad_norm": 1.6631975332565576,
+      "learning_rate": 9.560262626379824e-06,
+      "loss": 0.9829,
       "step": 240
     },
     {
       "epoch": 0.22611905860636825,
+      "grad_norm": 1.6393108832006937,
+      "learning_rate": 9.52660420892149e-06,
+      "loss": 0.9837,
       "step": 245
     },
     {
       "epoch": 0.23073373327180433,
+      "grad_norm": 1.5999393221352023,
+      "learning_rate": 9.49176849741007e-06,
+      "loss": 0.9822,
       "step": 250
     },
     {
       "epoch": 0.23534840793724043,
+      "grad_norm": 1.6562799165061401,
+      "learning_rate": 9.455764552031546e-06,
+      "loss": 0.9876,
       "step": 255
     },
     {
       "epoch": 0.23996308260267651,
+      "grad_norm": 1.597298992345653,
+      "learning_rate": 9.418601736809989e-06,
+      "loss": 0.99,
       "step": 260
     },
     {
       "epoch": 0.2445777572681126,
+      "grad_norm": 1.615615429575249,
+      "learning_rate": 9.380289717172141e-06,
+      "loss": 0.9944,
       "step": 265
     },
     {
       "epoch": 0.24919243193354867,
+      "grad_norm": 1.6391764879253228,
+      "learning_rate": 9.340838457433588e-06,
+      "loss": 0.9941,
       "step": 270
     },
     {
       "epoch": 0.25380710659898476,
+      "grad_norm": 1.7100035873468014,
+      "learning_rate": 9.300258218207215e-06,
+      "loss": 0.9785,
       "step": 275
     },
     {
       "epoch": 0.25842178126442084,
+      "grad_norm": 2.095593373075969,
+      "learning_rate": 9.258559553734597e-06,
+      "loss": 0.9883,
       "step": 280
     },
     {
       "epoch": 0.26303645592985697,
+      "grad_norm": 1.6273765059661172,
+      "learning_rate": 9.215753309141e-06,
+      "loss": 0.9772,
       "step": 285
     },
     {
       "epoch": 0.26765113059529305,
+      "grad_norm": 1.6695304390680636,
+      "learning_rate": 9.17185061761477e-06,
+      "loss": 0.9881,
       "step": 290
     },
     {
       "epoch": 0.27226580526072913,
+      "grad_norm": 1.6630409654600378,
+      "learning_rate": 9.126862897511752e-06,
+      "loss": 0.9785,
       "step": 295
     },
     {
       "epoch": 0.2768804799261652,
+      "grad_norm": 1.6120537857852493,
+      "learning_rate": 9.080801849385585e-06,
+      "loss": 0.9853,
       "step": 300
     },
     {
       "epoch": 0.2768804799261652,
+      "eval_loss": 0.9881044626235962,
+      "eval_runtime": 648.9048,
+      "eval_samples_per_second": 23.655,
+      "eval_steps_per_second": 0.185,
       "step": 300
     },
     {
       "epoch": 0.2814951545916013,
+      "grad_norm": 1.5682941966581576,
+      "learning_rate": 9.033679452944574e-06,
+      "loss": 0.9593,
       "step": 305
     },
     {
       "epoch": 0.2861098292570374,
+      "grad_norm": 1.7509871813668145,
+      "learning_rate": 8.98550796393597e-06,
+      "loss": 0.9833,
       "step": 310
     },
     {
       "epoch": 0.29072450392247345,
+      "grad_norm": 1.5617036787004468,
+      "learning_rate": 8.936299910958461e-06,
+      "loss": 0.9732,
       "step": 315
     },
     {
       "epoch": 0.29533917858790953,
+      "grad_norm": 1.6332967875738513,
+      "learning_rate": 8.886068092203684e-06,
+      "loss": 0.9744,
       "step": 320
     },
     {
       "epoch": 0.2999538532533456,
+      "grad_norm": 1.7354150495189573,
+      "learning_rate": 8.834825572127632e-06,
+      "loss": 0.9827,
       "step": 325
     },
     {
       "epoch": 0.30456852791878175,
+      "grad_norm": 1.588233836037739,
+      "learning_rate": 8.782585678052814e-06,
+      "loss": 0.9962,
       "step": 330
     },
     {
       "epoch": 0.30918320258421783,
+      "grad_norm": 1.5809425639553816,
+      "learning_rate": 8.729361996702032e-06,
+      "loss": 0.9903,
       "step": 335
     },
     {
       "epoch": 0.3137978772496539,
+      "grad_norm": 1.603602687498353,
+      "learning_rate": 8.675168370664706e-06,
+      "loss": 0.981,
       "step": 340
     },
     {
       "epoch": 0.31841255191509,
+      "grad_norm": 1.5782147372024207,
+      "learning_rate": 8.620018894796654e-06,
+      "loss": 0.9888,
       "step": 345
     },
     {
       "epoch": 0.3230272265805261,
+      "grad_norm": 1.5566880880848435,
+      "learning_rate": 8.56392791255424e-06,
+      "loss": 0.9648,
       "step": 350
     },
     {
       "epoch": 0.32764190124596215,
+      "grad_norm": 1.655119543708647,
+      "learning_rate": 8.5069100122639e-06,
+      "loss": 0.9761,
       "step": 355
     },
     {
       "epoch": 0.33225657591139823,
+      "grad_norm": 1.9303593174940483,
+      "learning_rate": 8.448980023327943e-06,
+      "loss": 0.978,
       "step": 360
     },
     {
       "epoch": 0.3368712505768343,
+      "grad_norm": 1.6875645085180389,
+      "learning_rate": 8.390153012367692e-06,
+      "loss": 0.9704,
       "step": 365
     },
     {
       "epoch": 0.3414859252422704,
+      "grad_norm": 1.625080279365752,
+      "learning_rate": 8.330444279304887e-06,
+      "loss": 0.9933,
       "step": 370
     },
     {
       "epoch": 0.34610059990770653,
+      "grad_norm": 1.5399521803126077,
+      "learning_rate": 8.269869353382448e-06,
+      "loss": 0.9768,
       "step": 375
     },
     {
       "epoch": 0.3507152745731426,
+      "grad_norm": 1.5199082736016265,
+      "learning_rate": 8.208443989125567e-06,
+      "loss": 0.9702,
       "step": 380
     },
     {
       "epoch": 0.3553299492385787,
+      "grad_norm": 1.6898798315423416,
+      "learning_rate": 8.146184162244231e-06,
+      "loss": 0.9508,
       "step": 385
     },
     {
       "epoch": 0.35994462390401477,
+      "grad_norm": 1.5767639905295907,
+      "learning_rate": 8.083106065478192e-06,
+      "loss": 0.9617,
       "step": 390
     },
     {
       "epoch": 0.36455929856945085,
+      "grad_norm": 1.6940722444661227,
+      "learning_rate": 8.019226104385519e-06,
+      "loss": 0.9827,
       "step": 395
     },
     {
       "epoch": 0.36917397323488693,
+      "grad_norm": 1.542549043886959,
+      "learning_rate": 7.954560893075785e-06,
+      "loss": 0.9638,
       "step": 400
     },
     {
       "epoch": 0.36917397323488693,
+      "eval_loss": 0.978050708770752,
+      "eval_runtime": 631.4932,
+      "eval_samples_per_second": 24.307,
+      "eval_steps_per_second": 0.19,
       "step": 400
     },
     {
       "epoch": 0.373788647900323,
+      "grad_norm": 1.5935524851120768,
+      "learning_rate": 7.889127249889003e-06,
+      "loss": 0.9673,
       "step": 405
     },
     {
       "epoch": 0.3784033225657591,
+      "grad_norm": 1.497119604051003,
+      "learning_rate": 7.82294219302148e-06,
+      "loss": 0.9574,
       "step": 410
     },
     {
       "epoch": 0.3830179972311952,
+      "grad_norm": 1.709877148318467,
+      "learning_rate": 7.75602293609964e-06,
+      "loss": 0.9483,
       "step": 415
     },
     {
       "epoch": 0.3876326718966313,
+      "grad_norm": 1.5527701210281757,
+      "learning_rate": 7.688386883703071e-06,
+      "loss": 0.9904,
       "step": 420
     },
     {
       "epoch": 0.3922473465620674,
+      "grad_norm": 1.651581387061671,
+      "learning_rate": 7.620051626837878e-06,
+      "loss": 0.9619,
       "step": 425
     },
     {
       "epoch": 0.39686202122750347,
+      "grad_norm": 1.5992647254822225,
+      "learning_rate": 7.55103493836155e-06,
+      "loss": 0.9688,
       "step": 430
     },
     {
       "epoch": 0.40147669589293955,
+      "grad_norm": 1.4883188672166754,
+      "learning_rate": 7.481354768360543e-06,
+      "loss": 0.9493,
       "step": 435
     },
     {
       "epoch": 0.40609137055837563,
+      "grad_norm": 1.540282089268457,
+      "learning_rate": 7.411029239481766e-06,
+      "loss": 0.9656,
       "step": 440
     },
     {
       "epoch": 0.4107060452238117,
+      "grad_norm": 1.57006447700181,
+      "learning_rate": 7.340076642219172e-06,
+      "loss": 0.963,
       "step": 445
     },
     {
       "epoch": 0.4153207198892478,
+      "grad_norm": 1.6069506996123204,
+      "learning_rate": 7.268515430156722e-06,
+      "loss": 0.9729,
       "step": 450
     },
     {
       "epoch": 0.41993539455468387,
+      "grad_norm": 1.5002386553771234,
+      "learning_rate": 7.196364215168901e-06,
+      "loss": 0.9521,
       "step": 455
     },
     {
       "epoch": 0.42455006922012,
+      "grad_norm": 1.4646720705420488,
+      "learning_rate": 7.123641762580089e-06,
+      "loss": 0.9507,
       "step": 460
     },
     {
       "epoch": 0.4291647438855561,
+      "grad_norm": 1.6149847953084777,
+      "learning_rate": 7.050366986284019e-06,
+      "loss": 0.9635,
       "step": 465
     },
     {
       "epoch": 0.43377941855099217,
+      "grad_norm": 1.554087118833947,
+      "learning_rate": 6.9765589438245765e-06,
+      "loss": 0.9744,
       "step": 470
     },
     {
       "epoch": 0.43839409321642825,
+      "grad_norm": 1.4890425150210163,
+      "learning_rate": 6.9022368314392595e-06,
+      "loss": 0.9694,
       "step": 475
     },
     {
       "epoch": 0.44300876788186433,
+      "grad_norm": 1.5064709526763582,
+      "learning_rate": 6.827419979066559e-06,
+      "loss": 0.9577,
       "step": 480
     },
     {
       "epoch": 0.4476234425473004,
+      "grad_norm": 1.5765372233113244,
+      "learning_rate": 6.752127845318561e-06,
+      "loss": 0.9777,
       "step": 485
     },
     {
       "epoch": 0.4522381172127365,
+      "grad_norm": 1.502803008633363,
+      "learning_rate": 6.676380012420087e-06,
+      "loss": 0.9543,
       "step": 490
     },
     {
       "epoch": 0.45685279187817257,
+      "grad_norm": 1.480113884170601,
+      "learning_rate": 6.600196181115692e-06,
+      "loss": 0.9413,
       "step": 495
     },
     {
       "epoch": 0.46146746654360865,
+      "grad_norm": 1.518180225480369,
+      "learning_rate": 6.523596165545818e-06,
+      "loss": 0.9745,
       "step": 500
     },
     {
       "epoch": 0.46146746654360865,
+      "eval_loss": 0.9680244326591492,
+      "eval_runtime": 631.2665,
+      "eval_samples_per_second": 24.316,
+      "eval_steps_per_second": 0.19,
       "step": 500
     },
     {
       "epoch": 0.4660821412090448,
+      "grad_norm": 1.5182752103495631,
+      "learning_rate": 6.446599888093478e-06,
+      "loss": 0.9493,
       "step": 505
     },
     {
       "epoch": 0.47069681587448087,
+      "grad_norm": 1.6381019403661983,
+      "learning_rate": 6.369227374202776e-06,
+      "loss": 0.9655,
       "step": 510
     },
     {
       "epoch": 0.47531149053991695,
+      "grad_norm": 1.480944986996014,
+      "learning_rate": 6.291498747170615e-06,
+      "loss": 0.973,
       "step": 515
     },
     {
       "epoch": 0.47992616520535303,
+      "grad_norm": 1.515420838901527,
+      "learning_rate": 6.213434222912977e-06,
+      "loss": 0.9618,
       "step": 520
     },
     {
       "epoch": 0.4845408398707891,
+      "grad_norm": 1.5303480066641486,
+      "learning_rate": 6.135054104707093e-06,
+      "loss": 0.9439,
       "step": 525
     },
     {
       "epoch": 0.4891555145362252,
+      "grad_norm": 1.487348077399422,
+      "learning_rate": 6.056378777910898e-06,
+      "loss": 0.9565,
       "step": 530
     },
     {
       "epoch": 0.49377018920166127,
+      "grad_norm": 1.5775060237163985,
+      "learning_rate": 5.977428704661151e-06,
+      "loss": 0.9407,
       "step": 535
     },
     {
       "epoch": 0.49838486386709735,
+      "grad_norm": 1.6339716299433642,
+      "learning_rate": 5.898224418551565e-06,
+      "loss": 0.9532,
       "step": 540
     },
     {
       "epoch": 0.5029995385325334,
+      "grad_norm": 1.5688231463762927,
+      "learning_rate": 5.8187865192923644e-06,
+      "loss": 0.9433,
       "step": 545
     },
     {
       "epoch": 0.5076142131979695,
+      "grad_norm": 1.465375400099311,
+      "learning_rate": 5.739135667352651e-06,
+      "loss": 0.9494,
       "step": 550
     },
     {
       "epoch": 0.5122288878634056,
+      "grad_norm": 1.590916658194805,
+      "learning_rate": 5.659292578586957e-06,
+      "loss": 0.9574,
       "step": 555
     },
     {
       "epoch": 0.5168435625288417,
+      "grad_norm": 1.4545280778553549,
+      "learning_rate": 5.579278018847395e-06,
+      "loss": 0.9471,
       "step": 560
     },
     {
       "epoch": 0.5214582371942778,
+      "grad_norm": 1.4258346370497963,
+      "learning_rate": 5.499112798582814e-06,
+      "loss": 0.9456,
       "step": 565
     },
     {
       "epoch": 0.5260729118597139,
+      "grad_norm": 1.4412831745954977,
+      "learning_rate": 5.418817767426343e-06,
+      "loss": 0.9419,
       "step": 570
     },
     {
       "epoch": 0.53068758652515,
+      "grad_norm": 1.5161519877588197,
+      "learning_rate": 5.3384138087727555e-06,
+      "loss": 0.9429,
       "step": 575
     },
     {
       "epoch": 0.5353022611905861,
+      "grad_norm": 1.5365045658327852,
+      "learning_rate": 5.257921834347043e-06,
+      "loss": 0.9421,
       "step": 580
     },
     {
       "epoch": 0.5399169358560222,
+      "grad_norm": 1.5096905798025197,
+      "learning_rate": 5.177362778765629e-06,
+      "loss": 0.9418,
       "step": 585
     },
     {
       "epoch": 0.5445316105214583,
+      "grad_norm": 1.4931388458814197,
+      "learning_rate": 5.096757594091623e-06,
+      "loss": 0.9336,
       "step": 590
     },
     {
       "epoch": 0.5491462851868943,
+      "grad_norm": 1.54787574418171,
+      "learning_rate": 5.01612724438554e-06,
+      "loss": 0.9594,
       "step": 595
     },
     {
       "epoch": 0.5537609598523304,
+      "grad_norm": 1.4047855369892224,
+      "learning_rate": 4.935492700252903e-06,
+      "loss": 0.9396,
       "step": 600
     },
     {
       "epoch": 0.5537609598523304,
+      "eval_loss": 0.9567832350730896,
+      "eval_runtime": 1029.8073,
+      "eval_samples_per_second": 14.906,
+      "eval_steps_per_second": 0.117,
       "step": 600
     },
     {
       "epoch": 0.5583756345177665,
+      "grad_norm": 1.532026589616403,
+      "learning_rate": 4.854874933390124e-06,
+      "loss": 0.9464,
       "step": 605
     },
     {
       "epoch": 0.5629903091832026,
+      "grad_norm": 1.4445505648251018,
+      "learning_rate": 4.774294911130141e-06,
+      "loss": 0.9564,
       "step": 610
     },
     {
       "epoch": 0.5676049838486387,
+      "grad_norm": 1.3806609000939527,
+      "learning_rate": 4.6937735909891456e-06,
+      "loss": 0.9401,
       "step": 615
     },
     {
       "epoch": 0.5722196585140747,
+      "grad_norm": 1.4758989461572256,
+      "learning_rate": 4.6133319152158886e-06,
+      "loss": 0.9504,
       "step": 620
     },
     {
       "epoch": 0.5768343331795108,
+      "grad_norm": 1.411552408489387,
+      "learning_rate": 4.532990805344958e-06,
+      "loss": 0.9382,
       "step": 625
     },
     {
       "epoch": 0.5814490078449469,
+      "grad_norm": 1.4215358213534153,
+      "learning_rate": 4.452771156755423e-06,
+      "loss": 0.9457,
       "step": 630
     },
     {
       "epoch": 0.586063682510383,
+      "grad_norm": 1.5194235066664028,
+      "learning_rate": 4.372693833236319e-06,
+      "loss": 0.9538,
       "step": 635
     },
     {
       "epoch": 0.5906783571758191,
+      "grad_norm": 1.504251672226047,
+      "learning_rate": 4.292779661560295e-06,
+      "loss": 0.9541,
       "step": 640
     },
     {
       "epoch": 0.5952930318412551,
+      "grad_norm": 1.477570181176633,
+      "learning_rate": 4.213049426066946e-06,
+      "loss": 0.932,
       "step": 645
     },
     {
       "epoch": 0.5999077065066912,
+      "grad_norm": 1.4830574491662214,
+      "learning_rate": 4.133523863257139e-06,
+      "loss": 0.9499,
       "step": 650
     },
     {
       "epoch": 0.6045223811721273,
+      "grad_norm": 1.4506011398131606,
+      "learning_rate": 4.054223656399794e-06,
+      "loss": 0.9432,
       "step": 655
     },
     {
       "epoch": 0.6091370558375635,
+      "grad_norm": 1.5259712782334296,
+      "learning_rate": 3.975169430152524e-06,
+      "loss": 0.9336,
       "step": 660
     },
     {
       "epoch": 0.6137517305029996,
+      "grad_norm": 1.4462086241646492,
+      "learning_rate": 3.8963817451974915e-06,
+      "loss": 0.9434,
       "step": 665
     },
     {
       "epoch": 0.6183664051684357,
+      "grad_norm": 1.4279004522752485,
+      "learning_rate": 3.817881092893934e-06,
+      "loss": 0.9468,
       "step": 670
     },
     {
       "epoch": 0.6229810798338717,
+      "grad_norm": 1.4169615015471333,
+      "learning_rate": 3.7396878899486896e-06,
+      "loss": 0.9416,
       "step": 675
     },
     {
       "epoch": 0.6275957544993078,
+      "grad_norm": 1.4479507419493,
+      "learning_rate": 3.6618224731061658e-06,
+      "loss": 0.9388,
       "step": 680
     },
     {
       "epoch": 0.6322104291647439,
+      "grad_norm": 1.4589224612269058,
+      "learning_rate": 3.584305093859082e-06,
+      "loss": 0.9384,
       "step": 685
     },
     {
       "epoch": 0.63682510383018,
+      "grad_norm": 1.4183964058904668,
+      "learning_rate": 3.507155913181402e-06,
+      "loss": 0.9347,
       "step": 690
     },
     {
       "epoch": 0.6414397784956161,
+      "grad_norm": 1.4542672740750342,
+      "learning_rate": 3.4303949962848003e-06,
+      "loss": 0.9494,
       "step": 695
     },
     {
       "epoch": 0.6460544531610521,
+      "grad_norm": 1.466448569041173,
+      "learning_rate": 3.3540423074000323e-06,
+      "loss": 0.9176,
       "step": 700
     },
     {
       "epoch": 0.6460544531610521,
+      "eval_loss": 0.9464961290359497,
+      "eval_runtime": 630.6464,
+      "eval_samples_per_second": 24.34,
+      "eval_steps_per_second": 0.19,
       "step": 700
     },
     {
       "epoch": 0.6506691278264882,
+      "grad_norm": 1.4112284829468522,
+      "learning_rate": 3.278117704584577e-06,
+      "loss": 0.9164,
       "step": 705
     },
     {
       "epoch": 0.6552838024919243,
+      "grad_norm": 1.4108457010710305,
+      "learning_rate": 3.202640934557884e-06,
+      "loss": 0.9213,
       "step": 710
     },
     {
       "epoch": 0.6598984771573604,
+      "grad_norm": 1.4189577161809213,
+      "learning_rate": 3.127631627565586e-06,
+      "loss": 0.9368,
       "step": 715
     },
     {
       "epoch": 0.6645131518227965,
+      "grad_norm": 1.452002361321377,
+      "learning_rate": 3.053109292273996e-06,
+      "loss": 0.9372,
       "step": 720
     },
     {
       "epoch": 0.6691278264882325,
+      "grad_norm": 1.4024056929659159,
+      "learning_rate": 2.9790933106962328e-06,
+      "loss": 0.925,
       "step": 725
     },
     {
       "epoch": 0.6737425011536686,
+      "grad_norm": 1.4306957271780452,
+      "learning_rate": 2.9056029331512853e-06,
+      "loss": 0.9259,
       "step": 730
     },
     {
       "epoch": 0.6783571758191047,
+      "grad_norm": 1.3638433368150233,
+      "learning_rate": 2.8326572732573167e-06,
+      "loss": 0.9298,
       "step": 735
     },
     {
       "epoch": 0.6829718504845408,
+      "grad_norm": 1.438840741138399,
+      "learning_rate": 2.7602753029605456e-06,
+      "loss": 0.9312,
       "step": 740
     },
     {
       "epoch": 0.687586525149977,
+      "grad_norm": 1.3538477302959735,
+      "learning_rate": 2.688475847600947e-06,
+      "loss": 0.9328,
       "step": 745
     },
     {
       "epoch": 0.6922011998154131,
+      "grad_norm": 1.473692645733402,
+      "learning_rate": 2.6172775810161104e-06,
+      "loss": 0.9239,
       "step": 750
     },
     {
       "epoch": 0.6968158744808491,
+      "grad_norm": 1.5623662932746458,
+      "learning_rate": 2.546699020684471e-06,
+      "loss": 0.9371,
       "step": 755
     },
     {
       "epoch": 0.7014305491462852,
+      "grad_norm": 1.4016556607303827,
+      "learning_rate": 2.4767585229092368e-06,
+      "loss": 0.9308,
       "step": 760
     },
     {
       "epoch": 0.7060452238117213,
+      "grad_norm": 1.3899751453383695,
+      "learning_rate": 2.407474278044215e-06,
+      "loss": 0.9332,
       "step": 765
     },
     {
       "epoch": 0.7106598984771574,
+      "grad_norm": 1.4345839815007075,
+      "learning_rate": 2.3388643057628025e-06,
+      "loss": 0.9283,
       "step": 770
     },
     {
       "epoch": 0.7152745731425935,
+      "grad_norm": 1.4014510611067819,
+      "learning_rate": 2.2709464503713785e-06,
+      "loss": 0.9196,
       "step": 775
     },
     {
       "epoch": 0.7198892478080295,
+      "grad_norm": 1.4343098995975527,
+      "learning_rate": 2.2037383761682877e-06,
+      "loss": 0.9211,
       "step": 780
     },
     {
       "epoch": 0.7245039224734656,
+      "grad_norm": 1.342137285764838,
+      "learning_rate": 2.1372575628496662e-06,
+      "loss": 0.9206,
       "step": 785
     },
     {
       "epoch": 0.7291185971389017,
+      "grad_norm": 1.396553897850799,
+      "learning_rate": 2.071521300963246e-06,
+      "loss": 0.9324,
       "step": 790
     },
     {
       "epoch": 0.7337332718043378,
+      "grad_norm": 1.4382708247406493,
+      "learning_rate": 2.0065466874113944e-06,
+      "loss": 0.9159,
       "step": 795
     },
     {
       "epoch": 0.7383479464697739,
+      "grad_norm": 1.3548453547021793,
+      "learning_rate": 1.9423506210044746e-06,
+      "loss": 0.9067,
       "step": 800
     },
     {
       "epoch": 0.7383479464697739,
+      "eval_loss": 0.9378637671470642,
+      "eval_runtime": 663.1431,
+      "eval_samples_per_second": 23.147,
+      "eval_steps_per_second": 0.181,
       "step": 800
     },
     {
       "epoch": 0.7429626211352099,
+      "grad_norm": 1.3924317571532645,
+      "learning_rate": 1.8789497980657644e-06,
+      "loss": 0.9387,
       "step": 805
     },
     {
       "epoch": 0.747577295800646,
+      "grad_norm": 1.4165077817002125,
+      "learning_rate": 1.8163607080890143e-06,
+      "loss": 0.9593,
       "step": 810
     },
     {
       "epoch": 0.7521919704660821,
+      "grad_norm": 1.4141204258596356,
+      "learning_rate": 1.7545996294498013e-06,
+      "loss": 0.9374,
       "step": 815
     },
     {
       "epoch": 0.7568066451315182,
+      "grad_norm": 1.3739608338173115,
+      "learning_rate": 1.6936826251718075e-06,
+      "loss": 0.9345,
       "step": 820
     },
     {
       "epoch": 0.7614213197969543,
+      "grad_norm": 1.4298339467420962,
+      "learning_rate": 1.6336255387490846e-06,
+      "loss": 0.9185,
       "step": 825
     },
     {
       "epoch": 0.7660359944623903,
+      "grad_norm": 1.4280106425956387,
+      "learning_rate": 1.574443990025436e-06,
+      "loss": 0.9251,
       "step": 830
     },
     {
       "epoch": 0.7706506691278265,
+      "grad_norm": 1.4182309514153764,
+      "learning_rate": 1.5161533711319454e-06,
+      "loss": 0.9337,
       "step": 835
     },
     {
       "epoch": 0.7752653437932626,
+      "grad_norm": 1.3937433613798544,
+      "learning_rate": 1.4587688424837538e-06,
+      "loss": 0.9448,
       "step": 840
     },
     {
       "epoch": 0.7798800184586987,
+      "grad_norm": 1.456151982504558,
+      "learning_rate": 1.4023053288370803e-06,
+      "loss": 0.9129,
       "step": 845
     },
     {
       "epoch": 0.7844946931241348,
+      "grad_norm": 1.3853091041139631,
+      "learning_rate": 1.3467775154075425e-06,
+      "loss": 0.9213,
       "step": 850
     },
     {
       "epoch": 0.7891093677895709,
+      "grad_norm": 1.4547278352297517,
+      "learning_rate": 1.2921998440507838e-06,
+      "loss": 0.9211,
       "step": 855
     },
     {
       "epoch": 0.7937240424550069,
+      "grad_norm": 1.4019092163127755,
+      "learning_rate": 1.2385865095063808e-06,
+      "loss": 0.9189,
       "step": 860
     },
     {
       "epoch": 0.798338717120443,
+      "grad_norm": 1.3640880739873995,
+      "learning_rate": 1.1859514557060358e-06,
+      "loss": 0.9184,
       "step": 865
     },
     {
       "epoch": 0.8029533917858791,
+      "grad_norm": 1.4032390358058673,
+      "learning_rate": 1.1343083721469867e-06,
+      "loss": 0.9234,
       "step": 870
     },
     {
       "epoch": 0.8075680664513152,
+      "grad_norm": 1.365688843862272,
+      "learning_rate": 1.0836706903316052e-06,
+      "loss": 0.9244,
       "step": 875
     },
     {
       "epoch": 0.8121827411167513,
+      "grad_norm": 1.4146840493944073,
+      "learning_rate": 1.0340515802740781e-06,
+      "loss": 0.9197,
       "step": 880
     },
     {
       "epoch": 0.8167974157821873,
+      "grad_norm": 1.3895617974460883,
+      "learning_rate": 9.854639470751182e-07,
+      "loss": 0.9194,
       "step": 885
     },
     {
       "epoch": 0.8214120904476234,
+      "grad_norm": 1.4357287631638345,
+      "learning_rate": 9.379204275655524e-07,
+      "loss": 0.9156,
       "step": 890
     },
     {
       "epoch": 0.8260267651130595,
+      "grad_norm": 1.3844689117152469,
+      "learning_rate": 8.914333870197022e-07,
+      "loss": 0.9355,
       "step": 895
     },
     {
       "epoch": 0.8306414397784956,
+      "grad_norm": 1.3689079608163703,
+      "learning_rate": 8.460149159393766e-07,
+      "loss": 0.9221,
       "step": 900
     },
     {
       "epoch": 0.8306414397784956,
+      "eval_loss": 0.9320199489593506,
+      "eval_runtime": 630.5251,
+      "eval_samples_per_second": 24.345,
+      "eval_steps_per_second": 0.19,
       "step": 900
     },
     {
       "epoch": 0.8352561144439317,
+      "grad_norm": 1.373835743305699,
+      "learning_rate": 8.016768269093389e-07,
+      "loss": 0.9225,
       "step": 905
     },
     {
       "epoch": 0.8398707891093677,
+      "grad_norm": 1.3862642218872392,
+      "learning_rate": 7.584306515250461e-07,
+      "loss": 0.9118,
       "step": 910
     },
     {
       "epoch": 0.8444854637748038,
+      "grad_norm": 1.427561354442013,
+      "learning_rate": 7.162876373934813e-07,
+      "loss": 0.9257,
       "step": 915
     },
     {
       "epoch": 0.84910013844024,
+      "grad_norm": 1.3318980900547395,
+      "learning_rate": 6.752587452078297e-07,
+      "loss": 0.9168,
       "step": 920
     },
     {
       "epoch": 0.8537148131056761,
+      "grad_norm": 1.426821326563428,
+      "learning_rate": 6.353546458967957e-07,
+      "loss": 0.9269,
       "step": 925
     },
     {
       "epoch": 0.8583294877711122,
+      "grad_norm": 1.4130164875607825,
+      "learning_rate": 5.965857178492629e-07,
+      "loss": 0.9177,
       "step": 930
     },
     {
       "epoch": 0.8629441624365483,
+      "grad_norm": 1.37338302698056,
+      "learning_rate": 5.589620442150579e-07,
+      "loss": 0.908,
       "step": 935
     },
     {
       "epoch": 0.8675588371019843,
+      "grad_norm": 1.3675248953715173,
+      "learning_rate": 5.224934102824824e-07,
+      "loss": 0.9018,
       "step": 940
     },
     {
       "epoch": 0.8721735117674204,
+      "grad_norm": 1.3837632491876184,
+      "learning_rate": 4.871893009333345e-07,
+      "loss": 0.9266,
       "step": 945
     },
     {
       "epoch": 0.8767881864328565,
+      "grad_norm": 1.3573040010924988,
+      "learning_rate": 4.5305889817603757e-07,
+      "loss": 0.9303,
       "step": 950
     },
     {
       "epoch": 0.8814028610982926,
+      "grad_norm": 1.3246603553725993,
+      "learning_rate": 4.201110787575619e-07,
+      "loss": 0.9003,
       "step": 955
     },
     {
       "epoch": 0.8860175357637287,
+      "grad_norm": 1.3518273420371894,
+      "learning_rate": 3.883544118547289e-07,
+      "loss": 0.9223,
       "step": 960
     },
     {
       "epoch": 0.8906322104291647,
+      "grad_norm": 1.3931507467693585,
+      "learning_rate": 3.5779715684550966e-07,
+      "loss": 0.9233,
       "step": 965
     },
     {
       "epoch": 0.8952468850946008,
+      "grad_norm": 1.4917970308046273,
+      "learning_rate": 3.284472611609024e-07,
+      "loss": 0.9262,
       "step": 970
     },
     {
       "epoch": 0.8998615597600369,
+      "grad_norm": 1.3457919919745878,
+      "learning_rate": 3.00312358217934e-07,
+      "loss": 0.9061,
       "step": 975
     },
     {
       "epoch": 0.904476234425473,
+      "grad_norm": 1.399847886161994,
+      "learning_rate": 2.7339976543434065e-07,
+      "loss": 0.9303,
       "step": 980
     },
     {
       "epoch": 0.9090909090909091,
+      "grad_norm": 1.4141769147196013,
+      "learning_rate": 2.4771648232542524e-07,
+      "loss": 0.9184,
       "step": 985
     },
     {
       "epoch": 0.9137055837563451,
+      "grad_norm": 1.4105606054413926,
+      "learning_rate": 2.2326918868360636e-07,
+      "loss": 0.923,
       "step": 990
     },
     {
       "epoch": 0.9183202584217812,
+      "grad_norm": 1.3589359885492762,
+      "learning_rate": 2.000642428411087e-07,
+      "loss": 0.9274,
       "step": 995
     },
     {
       "epoch": 0.9229349330872173,
+      "grad_norm": 1.3455010064913675,
+      "learning_rate": 1.7810768001627455e-07,
+      "loss": 0.9087,
       "step": 1000
     },
     {
       "epoch": 0.9229349330872173,
+      "eval_loss": 0.9292727112770081,
+      "eval_runtime": 1081.8404,
+      "eval_samples_per_second": 14.189,
+      "eval_steps_per_second": 0.111,
       "step": 1000
     },
     {
       "epoch": 0.9275496077526535,
+      "grad_norm": 1.3936222044373034,
+      "learning_rate": 1.5740521074389837e-07,
+      "loss": 0.9294,
       "step": 1005
     },
     {
       "epoch": 0.9321642824180896,
+      "grad_norm": 1.6247273551888408,
+      "learning_rate": 1.3796221939001598e-07,
+      "loss": 0.9291,
       "step": 1010
     },
     {
       "epoch": 0.9367789570835257,
+      "grad_norm": 1.386776941906468,
+      "learning_rate": 1.1978376275151915e-07,
+      "loss": 0.9116,
       "step": 1015
     },
     {
       "epoch": 0.9413936317489617,
+      "grad_norm": 1.3387125746511046,
+      "learning_rate": 1.0287456874096824e-07,
+      "loss": 0.9137,
       "step": 1020
     },
     {
       "epoch": 0.9460083064143978,
+      "grad_norm": 1.3731528656657377,
+      "learning_rate": 8.723903515694132e-08,
+      "loss": 0.9208,
       "step": 1025
     },
     {
       "epoch": 0.9506229810798339,
+      "grad_norm": 1.3785247362215645,
+      "learning_rate": 7.28812285402386e-08,
+      "loss": 0.9062,
       "step": 1030
     },
     {
       "epoch": 0.95523765574527,
+      "grad_norm": 1.4102762199212637,
+      "learning_rate": 5.98048831162451e-08,
+      "loss": 0.9286,
       "step": 1035
     },
     {
       "epoch": 0.9598523304107061,
+      "grad_norm": 1.3925062428618178,
+      "learning_rate": 4.801339982372144e-08,
+      "loss": 0.9066,
       "step": 1040
     },
     {
       "epoch": 0.9644670050761421,
+      "grad_norm": 1.3653301284738,
+      "learning_rate": 3.750984543027358e-08,
+      "loss": 0.9197,
       "step": 1045
     },
     {
       "epoch": 0.9690816797415782,
+      "grad_norm": 1.3996435505145486,
+      "learning_rate": 2.8296951734740896e-08,
+      "loss": 0.9303,
       "step": 1050
     },
     {
       "epoch": 0.9736963544070143,
+      "grad_norm": 1.367940583530902,
+      "learning_rate": 2.0377114856700575e-08,
+      "loss": 0.9286,
       "step": 1055
     },
     {
       "epoch": 0.9783110290724504,
+      "grad_norm": 1.4028823114794313,
+      "learning_rate": 1.3752394613274488e-08,
+      "loss": 0.9169,
       "step": 1060
     },
     {
       "epoch": 0.9829257037378865,
+      "grad_norm": 1.354080160910544,
+      "learning_rate": 8.424513983408267e-09,
+      "loss": 0.9156,
       "step": 1065
     },
     {
       "epoch": 0.9875403784033225,
+      "grad_norm": 1.3348691278230316,
+      "learning_rate": 4.3948586597525325e-09,
+      "loss": 0.9243,
       "step": 1070
     },
     {
       "epoch": 0.9921550530687586,
+      "grad_norm": 1.3552426228812648,
+      "learning_rate": 1.664476688265082e-09,
+      "loss": 0.9195,
       "step": 1075
     },
     {
       "epoch": 0.9967697277341947,
+      "grad_norm": 1.3989954260059947,
+      "learning_rate": 2.3407819563503463e-10,
+      "loss": 0.9093,
       "step": 1080
     },
     {
       "epoch": 0.9995385325334564,
       "step": 1083,
       "total_flos": 453306954547200.0,
+      "train_loss": 0.9547446678880179,
+      "train_runtime": 38927.5133,
+      "train_samples_per_second": 3.563,
+      "train_steps_per_second": 0.028
     }
   ],
   "logging_steps": 5,