li-muyang
/

zephyr-7b-sft-full

@@ -1,7 +1,7 @@
 ---
 library_name: transformers
 license: apache-2.0
-base_model: mistralai/Mistral-7B-v0.1
 tags:
 - trl
 - sft
@@ -18,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-sft-full
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9423
 ## Model description
@@ -57,16 +57,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.0186        | 0.0923 | 100  | 1.0212          |
-| 1.029         | 0.1846 | 200  | 1.0410          |
-| 1.0367        | 0.2769 | 300  | 1.0391          |
-| 1.0094        | 0.3692 | 400  | 1.0263          |
-| 1.0163        | 0.4615 | 500  | 1.0116          |
-| 0.9715        | 0.5538 | 600  | 0.9919          |
-| 0.9408        | 0.6461 | 700  | 0.9743          |
-| 0.925         | 0.7383 | 800  | 0.9587          |
-| 0.936         | 0.8306 | 900  | 0.9477          |
-| 0.9192        | 0.9229 | 1000 | 0.9423          |
 ### Framework versions

 ---
 library_name: transformers
 license: apache-2.0
+base_model: mistralai/Mistral-7B-v0.3
 tags:
 - trl
 - sft
 # zephyr-7b-sft-full
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.3](https://huggingface.co/mistralai/Mistral-7B-v0.3) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9448
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.025         | 0.0923 | 100  | 1.0240          |
+| 1.033         | 0.1846 | 200  | 1.0464          |
+| 1.037         | 0.2769 | 300  | 1.0424          |
+| 1.0136        | 0.3692 | 400  | 1.0295          |
+| 1.0229        | 0.4615 | 500  | 1.0151          |
+| 0.9745        | 0.5538 | 600  | 0.9945          |
+| 0.9441        | 0.6461 | 700  | 0.9769          |
+| 0.9277        | 0.7383 | 800  | 0.9613          |
+| 0.9384        | 0.8306 | 900  | 0.9501          |
+| 0.9216        | 0.9229 | 1000 | 0.9448          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
-    "train_loss": 0.9835369018966802,
-    "train_runtime": 35743.0085,
     "train_samples": 207864,
-    "train_samples_per_second": 3.88,
-    "train_steps_per_second": 0.03
 }

 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
+    "train_loss": 0.986508995762382,
+    "train_runtime": 33955.1767,
     "train_samples": 207864,
+    "train_samples_per_second": 4.084,
+    "train_steps_per_second": 0.032
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
-    "train_loss": 0.9835369018966802,
-    "train_runtime": 35743.0085,
     "train_samples": 207864,
-    "train_samples_per_second": 3.88,
-    "train_steps_per_second": 0.03
 }

 {
     "epoch": 0.9995385325334564,
     "total_flos": 453306954547200.0,
+    "train_loss": 0.986508995762382,
+    "train_runtime": 33955.1767,
     "train_samples": 207864,
+    "train_samples_per_second": 4.084,
+    "train_steps_per_second": 0.032
 }

trainer_state.json CHANGED Viewed

@@ -10,1611 +10,1611 @@
   "log_history": [
     {
       "epoch": 0.0009229349330872173,
-      "grad_norm": 9.22159860236364,
       "learning_rate": 1.8348623853211012e-07,
-      "loss": 1.1391,
       "step": 1
     },
     {
       "epoch": 0.0046146746654360865,
-      "grad_norm": 7.244567353076034,
       "learning_rate": 9.174311926605506e-07,
-      "loss": 1.1291,
       "step": 5
     },
     {
       "epoch": 0.009229349330872173,
-      "grad_norm": 4.141715353193002,
       "learning_rate": 1.8348623853211011e-06,
-      "loss": 1.0628,
       "step": 10
     },
     {
       "epoch": 0.01384402399630826,
-      "grad_norm": 2.6770593588546556,
       "learning_rate": 2.7522935779816517e-06,
-      "loss": 1.0101,
       "step": 15
     },
     {
       "epoch": 0.018458698661744346,
-      "grad_norm": 2.517095227909403,
       "learning_rate": 3.6697247706422022e-06,
-      "loss": 1.0075,
       "step": 20
     },
     {
       "epoch": 0.023073373327180433,
-      "grad_norm": 1.959044583294977,
       "learning_rate": 4.587155963302753e-06,
-      "loss": 1.0002,
       "step": 25
     },
     {
       "epoch": 0.02768804799261652,
-      "grad_norm": 2.278653882410259,
       "learning_rate": 5.504587155963303e-06,
-      "loss": 0.9701,
       "step": 30
     },
     {
       "epoch": 0.032302722658052604,
-      "grad_norm": 2.1854662026419565,
       "learning_rate": 6.422018348623854e-06,
-      "loss": 0.9961,
       "step": 35
     },
     {
       "epoch": 0.03691739732348869,
-      "grad_norm": 2.703047495193763,
       "learning_rate": 7.3394495412844045e-06,
-      "loss": 1.0028,
       "step": 40
     },
     {
       "epoch": 0.04153207198892478,
-      "grad_norm": 2.0051793390039445,
       "learning_rate": 8.256880733944956e-06,
-      "loss": 0.9837,
       "step": 45
     },
     {
       "epoch": 0.046146746654360866,
-      "grad_norm": 3.110213357879861,
       "learning_rate": 9.174311926605506e-06,
-      "loss": 0.9801,
       "step": 50
     },
     {
       "epoch": 0.050761421319796954,
-      "grad_norm": 2.075271224694112,
       "learning_rate": 1.0091743119266055e-05,
-      "loss": 0.9828,
       "step": 55
     },
     {
       "epoch": 0.05537609598523304,
-      "grad_norm": 2.1623283709662813,
       "learning_rate": 1.1009174311926607e-05,
-      "loss": 0.9956,
       "step": 60
     },
     {
       "epoch": 0.05999077065066913,
-      "grad_norm": 2.8186018424693513,
       "learning_rate": 1.1926605504587156e-05,
-      "loss": 1.0,
       "step": 65
     },
     {
       "epoch": 0.06460544531610521,
-      "grad_norm": 2.697088593929761,
       "learning_rate": 1.2844036697247708e-05,
-      "loss": 0.9785,
       "step": 70
     },
     {
       "epoch": 0.0692201199815413,
-      "grad_norm": 2.282445866061795,
       "learning_rate": 1.3761467889908258e-05,
-      "loss": 0.9874,
       "step": 75
     },
     {
       "epoch": 0.07383479464697738,
-      "grad_norm": 2.3609900670130375,
       "learning_rate": 1.4678899082568809e-05,
-      "loss": 0.9815,
       "step": 80
     },
     {
       "epoch": 0.07844946931241348,
-      "grad_norm": 2.2736638273293015,
       "learning_rate": 1.559633027522936e-05,
-      "loss": 1.0052,
       "step": 85
     },
     {
       "epoch": 0.08306414397784956,
-      "grad_norm": 2.1184675412706575,
       "learning_rate": 1.6513761467889912e-05,
-      "loss": 1.0101,
       "step": 90
     },
     {
       "epoch": 0.08767881864328565,
-      "grad_norm": 2.3650428823693317,
       "learning_rate": 1.743119266055046e-05,
-      "loss": 1.0132,
       "step": 95
     },
     {
       "epoch": 0.09229349330872173,
-      "grad_norm": 2.6519058675176015,
       "learning_rate": 1.834862385321101e-05,
-      "loss": 1.0186,
       "step": 100
     },
     {
       "epoch": 0.09229349330872173,
-      "eval_loss": 1.021215558052063,
-      "eval_runtime": 665.2749,
-      "eval_samples_per_second": 23.073,
-      "eval_steps_per_second": 0.18,
       "step": 100
     },
     {
       "epoch": 0.09690816797415783,
-      "grad_norm": 2.2491240926501317,
       "learning_rate": 1.9266055045871563e-05,
-      "loss": 1.0463,
       "step": 105
     },
     {
       "epoch": 0.10152284263959391,
-      "grad_norm": 1.921393633511697,
       "learning_rate": 1.9999947982262415e-05,
-      "loss": 1.0296,
       "step": 110
     },
     {
       "epoch": 0.10613751730503,
-      "grad_norm": 2.0975875410987648,
       "learning_rate": 1.9998127418269004e-05,
-      "loss": 1.0416,
       "step": 115
     },
     {
       "epoch": 0.11075219197046608,
-      "grad_norm": 1.980566933294205,
       "learning_rate": 1.9993706508539968e-05,
-      "loss": 1.0222,
       "step": 120
     },
     {
       "epoch": 0.11536686663590216,
-      "grad_norm": 1.9186102149566504,
       "learning_rate": 1.998668640288e-05,
-      "loss": 1.0473,
       "step": 125
     },
     {
       "epoch": 0.11998154130133826,
-      "grad_norm": 2.0850542458886947,
       "learning_rate": 1.997706892710117e-05,
-      "loss": 1.0191,
       "step": 130
     },
     {
       "epoch": 0.12459621596677434,
-      "grad_norm": 2.0433211031137146,
       "learning_rate": 1.9964856582548094e-05,
-      "loss": 1.051,
       "step": 135
     },
     {
       "epoch": 0.12921089063221042,
-      "grad_norm": 1.7777153775315244,
       "learning_rate": 1.9950052545447354e-05,
-      "loss": 1.0462,
       "step": 140
     },
     {
       "epoch": 0.13382556529764653,
-      "grad_norm": 1.8240694233739712,
       "learning_rate": 1.993266066608142e-05,
-      "loss": 1.0245,
       "step": 145
     },
     {
       "epoch": 0.1384402399630826,
-      "grad_norm": 1.8705378942424304,
       "learning_rate": 1.991268546778726e-05,
-      "loss": 1.012,
       "step": 150
     },
     {
       "epoch": 0.1430549146285187,
-      "grad_norm": 1.7172542543301377,
       "learning_rate": 1.9890132145779885e-05,
-      "loss": 1.0642,
       "step": 155
     },
     {
       "epoch": 0.14766958929395477,
-      "grad_norm": 1.9516254525505181,
       "learning_rate": 1.986500656580118e-05,
-      "loss": 1.024,
       "step": 160
     },
     {
       "epoch": 0.15228426395939088,
-      "grad_norm": 2.3004163573765686,
       "learning_rate": 1.9837315262594307e-05,
-      "loss": 1.033,
       "step": 165
     },
     {
       "epoch": 0.15689893862482696,
-      "grad_norm": 2.147336782856912,
       "learning_rate": 1.980706543820412e-05,
       "loss": 1.0367,
       "step": 170
     },
     {
       "epoch": 0.16151361329026304,
-      "grad_norm": 2.1046272403642505,
       "learning_rate": 1.9774264960104056e-05,
-      "loss": 1.0195,
       "step": 175
     },
     {
       "epoch": 0.16612828795569912,
-      "grad_norm": 2.036505434534158,
       "learning_rate": 1.9738922359149927e-05,
-      "loss": 1.0309,
       "step": 180
     },
     {
       "epoch": 0.1707429626211352,
-      "grad_norm": 1.800781655290288,
       "learning_rate": 1.9701046827361175e-05,
-      "loss": 1.0336,
       "step": 185
     },
     {
       "epoch": 0.1753576372865713,
-      "grad_norm": 1.693559480289246,
       "learning_rate": 1.9660648215530207e-05,
-      "loss": 1.019,
       "step": 190
     },
     {
       "epoch": 0.17997231195200739,
-      "grad_norm": 1.7602561596511241,
       "learning_rate": 1.9617737030660338e-05,
-      "loss": 1.0257,
       "step": 195
     },
     {
       "epoch": 0.18458698661744347,
-      "grad_norm": 1.596017436906569,
       "learning_rate": 1.9572324433233122e-05,
-      "loss": 1.029,
       "step": 200
     },
     {
       "epoch": 0.18458698661744347,
-      "eval_loss": 1.0409572124481201,
-      "eval_runtime": 659.1728,
-      "eval_samples_per_second": 23.287,
-      "eval_steps_per_second": 0.182,
       "step": 200
     },
     {
       "epoch": 0.18920166128287955,
-      "grad_norm": 1.732016322184742,
       "learning_rate": 1.9524422234305677e-05,
-      "loss": 1.0222,
       "step": 205
     },
     {
       "epoch": 0.19381633594831565,
-      "grad_norm": 1.754292517288075,
       "learning_rate": 1.9474042892438848e-05,
-      "loss": 1.0064,
       "step": 210
     },
     {
       "epoch": 0.19843101061375173,
-      "grad_norm": 1.5853431903204918,
       "learning_rate": 1.942119951045692e-05,
-      "loss": 1.0193,
       "step": 215
     },
     {
       "epoch": 0.20304568527918782,
-      "grad_norm": 1.7537946224731296,
       "learning_rate": 1.9365905832039814e-05,
-      "loss": 1.0401,
       "step": 220
     },
     {
       "epoch": 0.2076603599446239,
-      "grad_norm": 1.5570957640931664,
       "learning_rate": 1.9308176238148565e-05,
-      "loss": 1.0463,
       "step": 225
     },
     {
       "epoch": 0.21227503461006,
-      "grad_norm": 1.8510932168688097,
       "learning_rate": 1.924802574328509e-05,
-      "loss": 1.026,
       "step": 230
     },
     {
       "epoch": 0.21688970927549608,
-      "grad_norm": 1.8345788195665518,
       "learning_rate": 1.9185469991587166e-05,
-      "loss": 1.0444,
       "step": 235
     },
     {
       "epoch": 0.22150438394093216,
-      "grad_norm": 1.558823481306957,
       "learning_rate": 1.912052525275965e-05,
-      "loss": 1.0327,
       "step": 240
     },
     {
       "epoch": 0.22611905860636825,
-      "grad_norm": 1.7955068678391877,
       "learning_rate": 1.905320841784298e-05,
-      "loss": 1.0328,
       "step": 245
     },
     {
       "epoch": 0.23073373327180433,
-      "grad_norm": 1.572619634284493,
       "learning_rate": 1.898353699482014e-05,
-      "loss": 1.031,
       "step": 250
     },
     {
       "epoch": 0.23534840793724043,
-      "grad_norm": 1.6236474418730058,
       "learning_rate": 1.8911529104063093e-05,
-      "loss": 1.0371,
       "step": 255
     },
     {
       "epoch": 0.23996308260267651,
-      "grad_norm": 1.4717263075966749,
       "learning_rate": 1.8837203473619978e-05,
-      "loss": 1.041,
       "step": 260
     },
     {
       "epoch": 0.2445777572681126,
-      "grad_norm": 1.6756793292053787,
       "learning_rate": 1.8760579434344283e-05,
-      "loss": 1.0469,
       "step": 265
     },
     {
       "epoch": 0.24919243193354867,
-      "grad_norm": 1.6409196589048798,
       "learning_rate": 1.8681676914867176e-05,
-      "loss": 1.0468,
       "step": 270
     },
     {
       "epoch": 0.25380710659898476,
-      "grad_norm": 1.9407976084394043,
       "learning_rate": 1.860051643641443e-05,
-      "loss": 1.0307,
       "step": 275
     },
     {
       "epoch": 0.25842178126442084,
-      "grad_norm": 1.7250648731233242,
       "learning_rate": 1.8517119107469194e-05,
-      "loss": 1.0407,
       "step": 280
     },
     {
       "epoch": 0.26303645592985697,
-      "grad_norm": 1.5322925665538232,
       "learning_rate": 1.8431506618282e-05,
-      "loss": 1.0297,
       "step": 285
     },
     {
       "epoch": 0.26765113059529305,
-      "grad_norm": 1.6904457033651568,
       "learning_rate": 1.834370123522954e-05,
-      "loss": 1.0419,
       "step": 290
     },
     {
       "epoch": 0.27226580526072913,
-      "grad_norm": 1.5941511416866747,
       "learning_rate": 1.8253725795023504e-05,
-      "loss": 1.0291,
       "step": 295
     },
     {
       "epoch": 0.2768804799261652,
-      "grad_norm": 1.6111251284693955,
       "learning_rate": 1.816160369877117e-05,
-      "loss": 1.0367,
       "step": 300
     },
     {
       "epoch": 0.2768804799261652,
-      "eval_loss": 1.0390825271606445,
-      "eval_runtime": 631.9337,
-      "eval_samples_per_second": 24.291,
-      "eval_steps_per_second": 0.19,
       "step": 300
     },
     {
       "epoch": 0.2814951545916013,
-      "grad_norm": 1.5577447669962958,
       "learning_rate": 1.8067358905889148e-05,
-      "loss": 1.0076,
       "step": 305
     },
     {
       "epoch": 0.2861098292570374,
-      "grad_norm": 1.5744013062583462,
       "learning_rate": 1.797101592787194e-05,
-      "loss": 1.0298,
       "step": 310
     },
     {
       "epoch": 0.29072450392247345,
-      "grad_norm": 1.5662295967375852,
       "learning_rate": 1.7872599821916922e-05,
-      "loss": 1.0219,
       "step": 315
     },
     {
       "epoch": 0.29533917858790953,
-      "grad_norm": 1.6786923569192709,
       "learning_rate": 1.7772136184407367e-05,
-      "loss": 1.0235,
       "step": 320
     },
     {
       "epoch": 0.2999538532533456,
-      "grad_norm": 1.5619445773068321,
       "learning_rate": 1.7669651144255265e-05,
-      "loss": 1.0336,
       "step": 325
     },
     {
       "epoch": 0.30456852791878175,
-      "grad_norm": 1.6094241012251198,
       "learning_rate": 1.7565171356105627e-05,
-      "loss": 1.0442,
       "step": 330
     },
     {
       "epoch": 0.30918320258421783,
-      "grad_norm": 2.0012505433561683,
       "learning_rate": 1.7458723993404065e-05,
-      "loss": 1.0388,
       "step": 335
     },
     {
       "epoch": 0.3137978772496539,
-      "grad_norm": 1.731680358218969,
       "learning_rate": 1.7350336741329413e-05,
-      "loss": 1.0302,
       "step": 340
     },
     {
       "epoch": 0.31841255191509,
-      "grad_norm": 1.5756520751714067,
       "learning_rate": 1.7240037789593307e-05,
-      "loss": 1.0388,
       "step": 345
     },
     {
       "epoch": 0.3230272265805261,
-      "grad_norm": 1.598908263014295,
       "learning_rate": 1.712785582510848e-05,
-      "loss": 1.0119,
       "step": 350
     },
     {
       "epoch": 0.32764190124596215,
-      "grad_norm": 1.5588179492774312,
       "learning_rate": 1.70138200245278e-05,
-      "loss": 1.0235,
       "step": 355
     },
     {
       "epoch": 0.33225657591139823,
-      "grad_norm": 2.719544835233645,
       "learning_rate": 1.6897960046655886e-05,
-      "loss": 1.0291,
       "step": 360
     },
     {
       "epoch": 0.3368712505768343,
-      "grad_norm": 1.7224906132772548,
       "learning_rate": 1.6780306024735384e-05,
-      "loss": 1.0193,
       "step": 365
     },
     {
       "epoch": 0.3414859252422704,
-      "grad_norm": 1.5806127742561251,
       "learning_rate": 1.6660888558609774e-05,
-      "loss": 1.042,
       "step": 370
     },
     {
       "epoch": 0.34610059990770653,
-      "grad_norm": 1.568089679819643,
       "learning_rate": 1.6539738706764895e-05,
-      "loss": 1.025,
       "step": 375
     },
     {
       "epoch": 0.3507152745731426,
-      "grad_norm": 1.5475613908827464,
       "learning_rate": 1.6416887978251134e-05,
-      "loss": 1.0179,
       "step": 380
     },
     {
       "epoch": 0.3553299492385787,
-      "grad_norm": 1.5281204414406897,
       "learning_rate": 1.6292368324488462e-05,
-      "loss": 0.9986,
       "step": 385
     },
     {
       "epoch": 0.35994462390401477,
-      "grad_norm": 1.5385364331546185,
       "learning_rate": 1.6166212130956383e-05,
-      "loss": 1.0075,
       "step": 390
     },
     {
       "epoch": 0.36455929856945085,
-      "grad_norm": 1.5354876751143718,
       "learning_rate": 1.6038452208771037e-05,
-      "loss": 1.0294,
       "step": 395
     },
     {
       "epoch": 0.36917397323488693,
-      "grad_norm": 1.4603598177059978,
       "learning_rate": 1.590912178615157e-05,
-      "loss": 1.0094,
       "step": 400
     },
     {
       "epoch": 0.36917397323488693,
-      "eval_loss": 1.0263434648513794,
-      "eval_runtime": 690.0701,
-      "eval_samples_per_second": 22.244,
-      "eval_steps_per_second": 0.174,
       "step": 400
     },
     {
       "epoch": 0.373788647900323,
-      "grad_norm": 1.665640112517328,
       "learning_rate": 1.5778254499778006e-05,
-      "loss": 1.0159,
       "step": 405
     },
     {
       "epoch": 0.3784033225657591,
-      "grad_norm": 1.4667601213154255,
       "learning_rate": 1.564588438604296e-05,
-      "loss": 1.0047,
       "step": 410
     },
     {
       "epoch": 0.3830179972311952,
-      "grad_norm": 1.45174399572694,
       "learning_rate": 1.551204587219928e-05,
-      "loss": 0.9944,
       "step": 415
     },
     {
       "epoch": 0.3876326718966313,
-      "grad_norm": 1.5137353156884679,
       "learning_rate": 1.5376773767406142e-05,
-      "loss": 1.0358,
       "step": 420
     },
     {
       "epoch": 0.3922473465620674,
-      "grad_norm": 1.427796298190285,
       "learning_rate": 1.5240103253675756e-05,
-      "loss": 1.0063,
       "step": 425
     },
     {
       "epoch": 0.39686202122750347,
-      "grad_norm": 1.7132551479225844,
       "learning_rate": 1.51020698767231e-05,
-      "loss": 1.0139,
       "step": 430
     },
     {
       "epoch": 0.40147669589293955,
-      "grad_norm": 1.365792024614782,
       "learning_rate": 1.4962709536721087e-05,
-      "loss": 0.9946,
       "step": 435
     },
     {
       "epoch": 0.40609137055837563,
-      "grad_norm": 1.4603319638367434,
       "learning_rate": 1.4822058478963532e-05,
-      "loss": 1.0109,
       "step": 440
     },
     {
       "epoch": 0.4107060452238117,
-      "grad_norm": 1.5104072479651949,
       "learning_rate": 1.4680153284438345e-05,
-      "loss": 1.0079,
       "step": 445
     },
     {
       "epoch": 0.4153207198892478,
-      "grad_norm": 1.5003898869030268,
       "learning_rate": 1.4537030860313443e-05,
-      "loss": 1.017,
       "step": 450
     },
     {
       "epoch": 0.41993539455468387,
-      "grad_norm": 1.5143550375677852,
       "learning_rate": 1.4392728430337801e-05,
-      "loss": 0.9938,
       "step": 455
     },
     {
       "epoch": 0.42455006922012,
-      "grad_norm": 1.4973860738319764,
       "learning_rate": 1.4247283525160178e-05,
-      "loss": 0.9947,
       "step": 460
     },
     {
       "epoch": 0.4291647438855561,
-      "grad_norm": 1.46765520104305,
       "learning_rate": 1.4100733972568038e-05,
-      "loss": 1.0063,
       "step": 465
     },
     {
       "epoch": 0.43377941855099217,
-      "grad_norm": 1.502671999263143,
       "learning_rate": 1.3953117887649153e-05,
-      "loss": 1.0191,
       "step": 470
     },
     {
       "epoch": 0.43839409321642825,
-      "grad_norm": 1.483874282862377,
       "learning_rate": 1.3804473662878519e-05,
-      "loss": 1.0137,
       "step": 475
     },
     {
       "epoch": 0.44300876788186433,
-      "grad_norm": 1.461904130124467,
       "learning_rate": 1.3654839958133118e-05,
-      "loss": 1.0003,
       "step": 480
     },
     {
       "epoch": 0.4476234425473004,
-      "grad_norm": 1.4713025735431442,
       "learning_rate": 1.3504255690637122e-05,
-      "loss": 1.0186,
       "step": 485
     },
     {
       "epoch": 0.4522381172127365,
-      "grad_norm": 1.537354618893577,
       "learning_rate": 1.3352760024840174e-05,
-      "loss": 0.9941,
       "step": 490
     },
     {
       "epoch": 0.45685279187817257,
-      "grad_norm": 1.4600444670015191,
       "learning_rate": 1.3200392362231385e-05,
-      "loss": 0.9828,
       "step": 495
     },
     {
       "epoch": 0.46146746654360865,
-      "grad_norm": 1.5367214120380763,
       "learning_rate": 1.3047192331091636e-05,
-      "loss": 1.0163,
       "step": 500
     },
     {
       "epoch": 0.46146746654360865,
-      "eval_loss": 1.0115509033203125,
-      "eval_runtime": 629.8272,
-      "eval_samples_per_second": 24.372,
-      "eval_steps_per_second": 0.191,
       "step": 500
     },
     {
       "epoch": 0.4660821412090448,
-      "grad_norm": 1.4574927964092395,
       "learning_rate": 1.2893199776186957e-05,
-      "loss": 0.991,
       "step": 505
     },
     {
       "epoch": 0.47069681587448087,
-      "grad_norm": 1.5417624187440955,
       "learning_rate": 1.2738454748405552e-05,
-      "loss": 1.0085,
       "step": 510
     },
     {
       "epoch": 0.47531149053991695,
-      "grad_norm": 1.410519905571099,
       "learning_rate": 1.258299749434123e-05,
-      "loss": 1.0112,
       "step": 515
     },
     {
       "epoch": 0.47992616520535303,
-      "grad_norm": 1.452159940025483,
       "learning_rate": 1.2426868445825955e-05,
-      "loss": 0.9999,
       "step": 520
     },
     {
       "epoch": 0.4845408398707891,
-      "grad_norm": 1.474028826882843,
       "learning_rate": 1.2270108209414186e-05,
-      "loss": 0.981,
       "step": 525
     },
     {
       "epoch": 0.4891555145362252,
-      "grad_norm": 1.4384321957893453,
       "learning_rate": 1.2112757555821796e-05,
-      "loss": 0.9938,
       "step": 530
     },
     {
       "epoch": 0.49377018920166127,
-      "grad_norm": 1.4588174941974965,
       "learning_rate": 1.1954857409322302e-05,
-      "loss": 0.9779,
       "step": 535
     },
     {
       "epoch": 0.49838486386709735,
-      "grad_norm": 1.477386259114682,
       "learning_rate": 1.179644883710313e-05,
-      "loss": 0.9926,
       "step": 540
     },
     {
       "epoch": 0.5029995385325334,
-      "grad_norm": 1.4064276225459815,
       "learning_rate": 1.1637573038584729e-05,
-      "loss": 0.9819,
       "step": 545
     },
     {
       "epoch": 0.5076142131979695,
-      "grad_norm": 1.562831675658506,
       "learning_rate": 1.1478271334705302e-05,
-      "loss": 0.9879,
       "step": 550
     },
     {
       "epoch": 0.5122288878634056,
-      "grad_norm": 1.4842942517557047,
       "learning_rate": 1.1318585157173913e-05,
-      "loss": 0.9941,
       "step": 555
     },
     {
       "epoch": 0.5168435625288417,
-      "grad_norm": 1.4711158924165912,
       "learning_rate": 1.115855603769479e-05,
-      "loss": 0.9847,
       "step": 560
     },
     {
       "epoch": 0.5214582371942778,
-      "grad_norm": 1.4142173667096958,
       "learning_rate": 1.0998225597165628e-05,
-      "loss": 0.9812,
       "step": 565
     },
     {
       "epoch": 0.5260729118597139,
-      "grad_norm": 1.928841770349413,
       "learning_rate": 1.0837635534852687e-05,
-      "loss": 0.9804,
       "step": 570
     },
     {
       "epoch": 0.53068758652515,
-      "grad_norm": 1.4609059672802447,
       "learning_rate": 1.0676827617545511e-05,
-      "loss": 0.9784,
       "step": 575
     },
     {
       "epoch": 0.5353022611905861,
-      "grad_norm": 1.4158177675520824,
       "learning_rate": 1.0515843668694087e-05,
-      "loss": 0.9762,
       "step": 580
     },
     {
       "epoch": 0.5399169358560222,
-      "grad_norm": 1.4673507154635572,
       "learning_rate": 1.0354725557531258e-05,
-      "loss": 0.9747,
       "step": 585
     },
     {
       "epoch": 0.5445316105214583,
-      "grad_norm": 1.3571129755048559,
       "learning_rate": 1.0193515188183246e-05,
-      "loss": 0.9657,
       "step": 590
     },
     {
       "epoch": 0.5491462851868943,
-      "grad_norm": 1.4126105366024362,
       "learning_rate": 1.003225448877108e-05,
-      "loss": 0.9941,
       "step": 595
     },
     {
       "epoch": 0.5537609598523304,
-      "grad_norm": 1.3691646139951152,
       "learning_rate": 9.870985400505805e-06,
-      "loss": 0.9715,
       "step": 600
     },
     {
       "epoch": 0.5537609598523304,
-      "eval_loss": 0.9918625950813293,
-      "eval_runtime": 658.0431,
-      "eval_samples_per_second": 23.327,
-      "eval_steps_per_second": 0.182,
       "step": 600
     },
     {
       "epoch": 0.5583756345177665,
-      "grad_norm": 1.420929026631665,
       "learning_rate": 9.709749866780248e-06,
-      "loss": 0.978,
       "step": 605
     },
     {
       "epoch": 0.5629903091832026,
-      "grad_norm": 1.4531326195389616,
       "learning_rate": 9.548589822260281e-06,
-      "loss": 0.9875,
       "step": 610
     },
     {
       "epoch": 0.5676049838486387,
-      "grad_norm": 1.3776913328884506,
       "learning_rate": 9.387547181978291e-06,
-      "loss": 0.9722,
       "step": 615
     },
     {
       "epoch": 0.5722196585140747,
-      "grad_norm": 1.367969972697207,
       "learning_rate": 9.226663830431777e-06,
-      "loss": 0.98,
       "step": 620
     },
     {
       "epoch": 0.5768343331795108,
-      "grad_norm": 1.3562504249301128,
       "learning_rate": 9.065981610689915e-06,
-      "loss": 0.9679,
       "step": 625
     },
     {
       "epoch": 0.5814490078449469,
-      "grad_norm": 1.3687377076518379,
       "learning_rate": 8.905542313510846e-06,
-      "loss": 0.9773,
       "step": 630
     },
     {
       "epoch": 0.586063682510383,
-      "grad_norm": 1.4723781099911786,
       "learning_rate": 8.745387666472639e-06,
-      "loss": 0.9851,
       "step": 635
     },
     {
       "epoch": 0.5906783571758191,
-      "grad_norm": 1.4217076682395915,
       "learning_rate": 8.58555932312059e-06,
-      "loss": 0.9864,
       "step": 640
     },
     {
       "epoch": 0.5952930318412551,
-      "grad_norm": 1.410095405895401,
       "learning_rate": 8.426098852133892e-06,
-      "loss": 0.9607,
       "step": 645
     },
     {
       "epoch": 0.5999077065066912,
-      "grad_norm": 1.3772130152565503,
       "learning_rate": 8.267047726514278e-06,
-      "loss": 0.9786,
       "step": 650
     },
     {
       "epoch": 0.6045223811721273,
-      "grad_norm": 1.3660074782209246,
       "learning_rate": 8.108447312799588e-06,
-      "loss": 0.9701,
       "step": 655
     },
     {
       "epoch": 0.6091370558375635,
-      "grad_norm": 1.4470086526766173,
       "learning_rate": 7.950338860305049e-06,
-      "loss": 0.9605,
       "step": 660
     },
     {
       "epoch": 0.6137517305029996,
-      "grad_norm": 1.3171246011913702,
       "learning_rate": 7.792763490394983e-06,
-      "loss": 0.9704,
       "step": 665
     },
     {
       "epoch": 0.6183664051684357,
-      "grad_norm": 1.3411633903465385,
       "learning_rate": 7.635762185787868e-06,
-      "loss": 0.9743,
       "step": 670
     },
     {
       "epoch": 0.6229810798338717,
-      "grad_norm": 1.3318464659750435,
       "learning_rate": 7.479375779897379e-06,
-      "loss": 0.9716,
       "step": 675
     },
     {
       "epoch": 0.6275957544993078,
-      "grad_norm": 1.3843707717527398,
       "learning_rate": 7.3236449462123315e-06,
-      "loss": 0.9651,
       "step": 680
     },
     {
       "epoch": 0.6322104291647439,
-      "grad_norm": 1.4219024896409418,
       "learning_rate": 7.168610187718164e-06,
-      "loss": 0.9633,
       "step": 685
     },
     {
       "epoch": 0.63682510383018,
-      "grad_norm": 1.3808605454092582,
       "learning_rate": 7.014311826362804e-06,
-      "loss": 0.9611,
       "step": 690
     },
     {
       "epoch": 0.6414397784956161,
-      "grad_norm": 1.3567673086915946,
       "learning_rate": 6.860789992569601e-06,
-      "loss": 0.9764,
       "step": 695
     },
     {
       "epoch": 0.6460544531610521,
-      "grad_norm": 1.3750872799851055,
       "learning_rate": 6.708084614800065e-06,
-      "loss": 0.9408,
       "step": 700
     },
     {
       "epoch": 0.6460544531610521,
-      "eval_loss": 0.9742818474769592,
-      "eval_runtime": 631.1699,
-      "eval_samples_per_second": 24.32,
-      "eval_steps_per_second": 0.19,
       "step": 700
     },
     {
       "epoch": 0.6506691278264882,
-      "grad_norm": 1.3508823042531621,
       "learning_rate": 6.556235409169154e-06,
-      "loss": 0.9412,
       "step": 705
     },
     {
       "epoch": 0.6552838024919243,
-      "grad_norm": 1.2896871883040175,
       "learning_rate": 6.405281869115768e-06,
-      "loss": 0.9454,
       "step": 710
     },
     {
       "epoch": 0.6598984771573604,
-      "grad_norm": 1.3142111477173872,
       "learning_rate": 6.255263255131172e-06,
-      "loss": 0.9612,
       "step": 715
     },
     {
       "epoch": 0.6645131518227965,
-      "grad_norm": 1.328270773616224,
       "learning_rate": 6.106218584547992e-06,
-      "loss": 0.9616,
       "step": 720
     },
     {
       "epoch": 0.6691278264882325,
-      "grad_norm": 1.3080269409607574,
       "learning_rate": 5.9581866213924656e-06,
-      "loss": 0.9497,
       "step": 725
     },
     {
       "epoch": 0.6737425011536686,
-      "grad_norm": 1.3131216546886917,
       "learning_rate": 5.811205866302571e-06,
-      "loss": 0.9486,
       "step": 730
     },
     {
       "epoch": 0.6783571758191047,
-      "grad_norm": 1.3044180991043575,
       "learning_rate": 5.665314546514633e-06,
-      "loss": 0.9517,
       "step": 735
     },
     {
       "epoch": 0.6829718504845408,
-      "grad_norm": 1.336189592453345,
       "learning_rate": 5.520550605921091e-06,
-      "loss": 0.9525,
       "step": 740
     },
     {
       "epoch": 0.687586525149977,
-      "grad_norm": 1.323337183074246,
       "learning_rate": 5.376951695201894e-06,
-      "loss": 0.955,
       "step": 745
     },
     {
       "epoch": 0.6922011998154131,
-      "grad_norm": 1.3688297255320676,
       "learning_rate": 5.234555162032221e-06,
-      "loss": 0.9453,
       "step": 750
     },
     {
       "epoch": 0.6968158744808491,
-      "grad_norm": 1.3807647297081027,
       "learning_rate": 5.093398041368942e-06,
-      "loss": 0.955,
       "step": 755
     },
     {
       "epoch": 0.7014305491462852,
-      "grad_norm": 1.396007214455348,
       "learning_rate": 4.9535170458184735e-06,
-      "loss": 0.9509,
       "step": 760
     },
     {
       "epoch": 0.7060452238117213,
-      "grad_norm": 1.3167881087405213,
       "learning_rate": 4.81494855608843e-06,
-      "loss": 0.9524,
       "step": 765
     },
     {
       "epoch": 0.7106598984771574,
-      "grad_norm": 1.319725953292428,
       "learning_rate": 4.677728611525605e-06,
-      "loss": 0.9484,
       "step": 770
     },
     {
       "epoch": 0.7152745731425935,
-      "grad_norm": 1.3234923457514638,
       "learning_rate": 4.541892900742757e-06,
-      "loss": 0.9393,
       "step": 775
     },
     {
       "epoch": 0.7198892478080295,
-      "grad_norm": 1.3170003796409075,
       "learning_rate": 4.407476752336575e-06,
-      "loss": 0.9407,
       "step": 780
     },
     {
       "epoch": 0.7245039224734656,
-      "grad_norm": 1.2793467268798606,
       "learning_rate": 4.2745151256993325e-06,
-      "loss": 0.9401,
       "step": 785
     },
     {
       "epoch": 0.7291185971389017,
-      "grad_norm": 1.3434754761600083,
       "learning_rate": 4.143042601926492e-06,
-      "loss": 0.9509,
       "step": 790
     },
     {
       "epoch": 0.7337332718043378,
-      "grad_norm": 1.3540277586068123,
       "learning_rate": 4.013093374822789e-06,
-      "loss": 0.9346,
       "step": 795
     },
     {
       "epoch": 0.7383479464697739,
-      "grad_norm": 1.2479933947202246,
       "learning_rate": 3.884701242008949e-06,
-      "loss": 0.925,
       "step": 800
     },
     {
       "epoch": 0.7383479464697739,
-      "eval_loss": 0.9587027430534363,
-      "eval_runtime": 794.6067,
-      "eval_samples_per_second": 19.318,
-      "eval_steps_per_second": 0.151,
       "step": 800
     },
     {
       "epoch": 0.7429626211352099,
-      "grad_norm": 1.294794320625323,
       "learning_rate": 3.757899596131529e-06,
-      "loss": 0.9583,
       "step": 805
     },
     {
       "epoch": 0.747577295800646,
-      "grad_norm": 1.2802834042823585,
       "learning_rate": 3.6327214161780287e-06,
-      "loss": 0.9781,
       "step": 810
     },
     {
       "epoch": 0.7521919704660821,
-      "grad_norm": 1.3383479712956539,
       "learning_rate": 3.5091992588996026e-06,
-      "loss": 0.9553,
       "step": 815
     },
     {
       "epoch": 0.7568066451315182,
-      "grad_norm": 1.264756496676926,
       "learning_rate": 3.387365250343615e-06,
-      "loss": 0.9514,
       "step": 820
     },
     {
       "epoch": 0.7614213197969543,
-      "grad_norm": 1.2784320319866365,
       "learning_rate": 3.2672510774981692e-06,
-      "loss": 0.9335,
       "step": 825
     },
     {
       "epoch": 0.7660359944623903,
-      "grad_norm": 1.301600817119,
       "learning_rate": 3.148887980050872e-06,
-      "loss": 0.9406,
       "step": 830
     },
     {
       "epoch": 0.7706506691278265,
-      "grad_norm": 1.3681079893540207,
       "learning_rate": 3.032306742263891e-06,
-      "loss": 0.9492,
       "step": 835
     },
     {
       "epoch": 0.7752653437932626,
-      "grad_norm": 1.258171047985833,
       "learning_rate": 2.9175376849675076e-06,
-      "loss": 0.9579,
       "step": 840
     },
     {
       "epoch": 0.7798800184586987,
-      "grad_norm": 1.344831232347504,
       "learning_rate": 2.8046106576741605e-06,
-      "loss": 0.9258,
       "step": 845
     },
     {
       "epoch": 0.7844946931241348,
-      "grad_norm": 1.3148187818640558,
       "learning_rate": 2.693555030815085e-06,
-      "loss": 0.9363,
       "step": 850
     },
     {
       "epoch": 0.7891093677895709,
-      "grad_norm": 1.3099089177521062,
       "learning_rate": 2.5843996881015676e-06,
-      "loss": 0.9356,
       "step": 855
     },
     {
       "epoch": 0.7937240424550069,
-      "grad_norm": 1.315538878419098,
       "learning_rate": 2.4771730190127616e-06,
-      "loss": 0.933,
       "step": 860
     },
     {
       "epoch": 0.798338717120443,
-      "grad_norm": 1.3133036385084866,
       "learning_rate": 2.3719029114120716e-06,
-      "loss": 0.931,
       "step": 865
     },
     {
       "epoch": 0.8029533917858791,
-      "grad_norm": 1.4006753026532661,
       "learning_rate": 2.2686167442939733e-06,
-      "loss": 0.9377,
       "step": 870
     },
     {
       "epoch": 0.8075680664513152,
-      "grad_norm": 1.2784631847200105,
       "learning_rate": 2.1673413806632104e-06,
-      "loss": 0.9371,
       "step": 875
     },
     {
       "epoch": 0.8121827411167513,
-      "grad_norm": 1.2910534416533634,
       "learning_rate": 2.0681031605481563e-06,
-      "loss": 0.9328,
       "step": 880
     },
     {
       "epoch": 0.8167974157821873,
-      "grad_norm": 1.2874865013796961,
       "learning_rate": 1.9709278941502363e-06,
-      "loss": 0.933,
       "step": 885
     },
     {
       "epoch": 0.8214120904476234,
-      "grad_norm": 1.3030024076731785,
       "learning_rate": 1.8758408551311048e-06,
-      "loss": 0.9293,
       "step": 890
     },
     {
       "epoch": 0.8260267651130595,
-      "grad_norm": 1.300621884806125,
       "learning_rate": 1.7828667740394045e-06,
-      "loss": 0.9487,
       "step": 895
     },
     {
       "epoch": 0.8306414397784956,
-      "grad_norm": 1.2440950362531038,
       "learning_rate": 1.6920298318787532e-06,
-      "loss": 0.936,
       "step": 900
     },
     {
       "epoch": 0.8306414397784956,
-      "eval_loss": 0.9476920962333679,
-      "eval_runtime": 1084.8052,
-      "eval_samples_per_second": 14.15,
-      "eval_steps_per_second": 0.111,
       "step": 900
     },
     {
       "epoch": 0.8352561144439317,
-      "grad_norm": 1.2832171786571007,
       "learning_rate": 1.6033536538186778e-06,
-      "loss": 0.9335,
       "step": 905
     },
     {
       "epoch": 0.8398707891093677,
-      "grad_norm": 1.301969806108789,
       "learning_rate": 1.5168613030500922e-06,
-      "loss": 0.9234,
       "step": 910
     },
     {
       "epoch": 0.8444854637748038,
-      "grad_norm": 1.301852459539048,
       "learning_rate": 1.4325752747869626e-06,
-      "loss": 0.9371,
       "step": 915
     },
     {
       "epoch": 0.84910013844024,
-      "grad_norm": 1.239583785637997,
       "learning_rate": 1.3505174904156593e-06,
-      "loss": 0.9279,
       "step": 920
     },
     {
       "epoch": 0.8537148131056761,
-      "grad_norm": 1.2857369329321662,
       "learning_rate": 1.2707092917935914e-06,
-      "loss": 0.9371,
       "step": 925
     },
     {
       "epoch": 0.8583294877711122,
-      "grad_norm": 1.3340476774345473,
       "learning_rate": 1.1931714356985257e-06,
-      "loss": 0.9289,
       "step": 930
     },
     {
       "epoch": 0.8629441624365483,
-      "grad_norm": 1.2418676415098189,
       "learning_rate": 1.1179240884301158e-06,
-      "loss": 0.919,
       "step": 935
     },
     {
       "epoch": 0.8675588371019843,
-      "grad_norm": 1.2918276864444544,
       "learning_rate": 1.0449868205649648e-06,
-      "loss": 0.9141,
       "step": 940
     },
     {
       "epoch": 0.8721735117674204,
-      "grad_norm": 1.2744777449559592,
       "learning_rate": 9.74378601866669e-07,
-      "loss": 0.9393,
       "step": 945
     },
     {
       "epoch": 0.8767881864328565,
-      "grad_norm": 1.2681324842814665,
       "learning_rate": 9.061177963520751e-07,
-      "loss": 0.9418,
       "step": 950
     },
     {
       "epoch": 0.8814028610982926,
-      "grad_norm": 1.240762002170098,
       "learning_rate": 8.402221575151238e-07,
-      "loss": 0.9137,
       "step": 955
     },
     {
       "epoch": 0.8860175357637287,
-      "grad_norm": 1.2413815735797566,
       "learning_rate": 7.767088237094578e-07,
-      "loss": 0.9309,
       "step": 960
     },
     {
       "epoch": 0.8906322104291647,
-      "grad_norm": 1.2962026497718315,
       "learning_rate": 7.155943136910193e-07,
-      "loss": 0.9327,
       "step": 965
     },
     {
       "epoch": 0.8952468850946008,
-      "grad_norm": 1.2994627241342351,
       "learning_rate": 6.568945223218048e-07,
-      "loss": 0.9357,
       "step": 970
     },
     {
       "epoch": 0.8998615597600369,
-      "grad_norm": 1.249471689704099,
       "learning_rate": 6.00624716435868e-07,
-      "loss": 0.9182,
       "step": 975
     },
     {
       "epoch": 0.904476234425473,
-      "grad_norm": 1.304916858268742,
       "learning_rate": 5.467995308686813e-07,
-      "loss": 0.9377,
       "step": 980
     },
     {
       "epoch": 0.9090909090909091,
-      "grad_norm": 1.308605845419493,
       "learning_rate": 4.954329646508505e-07,
-      "loss": 0.9287,
       "step": 985
     },
     {
       "epoch": 0.9137055837563451,
-      "grad_norm": 1.3332538125701177,
       "learning_rate": 4.4653837736721273e-07,
-      "loss": 0.9318,
       "step": 990
     },
     {
       "epoch": 0.9183202584217812,
-      "grad_norm": 1.242575940479115,
       "learning_rate": 4.001284856822174e-07,
-      "loss": 0.9384,
       "step": 995
     },
     {
       "epoch": 0.9229349330872173,
-      "grad_norm": 1.2410664748669897,
       "learning_rate": 3.562153600325491e-07,
-      "loss": 0.9192,
       "step": 1000
     },
     {
       "epoch": 0.9229349330872173,
-      "eval_loss": 0.9423367381095886,
-      "eval_runtime": 631.8993,
-      "eval_samples_per_second": 24.292,
-      "eval_steps_per_second": 0.19,
       "step": 1000
     },
     {
       "epoch": 0.9275496077526535,
-      "grad_norm": 1.2750064585233012,
       "learning_rate": 3.1481042148779674e-07,
-      "loss": 0.937,
       "step": 1005
     },
     {
       "epoch": 0.9321642824180896,
-      "grad_norm": 1.296644486701872,
       "learning_rate": 2.7592443878003196e-07,
-      "loss": 0.9379,
       "step": 1010
     },
     {
       "epoch": 0.9367789570835257,
-      "grad_norm": 1.2639158911345783,
       "learning_rate": 2.395675255030383e-07,
-      "loss": 0.9201,
       "step": 1015
     },
     {
       "epoch": 0.9413936317489617,
-      "grad_norm": 1.2712336912350524,
       "learning_rate": 2.057491374819365e-07,
-      "loss": 0.9229,
       "step": 1020
     },
     {
       "epoch": 0.9460083064143978,
-      "grad_norm": 1.2545982973718852,
       "learning_rate": 1.7447807031388264e-07,
-      "loss": 0.9311,
       "step": 1025
     },
     {
       "epoch": 0.9506229810798339,
-      "grad_norm": 1.304991714097288,
       "learning_rate": 1.457624570804772e-07,
-      "loss": 0.9154,
       "step": 1030
     },
     {
       "epoch": 0.95523765574527,
-      "grad_norm": 1.305162882196052,
       "learning_rate": 1.196097662324902e-07,
-      "loss": 0.9362,
       "step": 1035
     },
     {
       "epoch": 0.9598523304107061,
-      "grad_norm": 1.2643702437746445,
       "learning_rate": 9.602679964744288e-08,
-      "loss": 0.9146,
       "step": 1040
     },
     {
       "epoch": 0.9644670050761421,
-      "grad_norm": 1.2890802928691847,
       "learning_rate": 7.501969086054717e-08,
-      "loss": 0.9302,
       "step": 1045
     },
     {
       "epoch": 0.9690816797415782,
-      "grad_norm": 1.3207575231611461,
       "learning_rate": 5.659390346948179e-08,
-      "loss": 0.9392,
       "step": 1050
     },
     {
       "epoch": 0.9736963544070143,
-      "grad_norm": 1.2493549478675108,
       "learning_rate": 4.075422971340115e-08,
-      "loss": 0.9386,
       "step": 1055
     },
     {
       "epoch": 0.9783110290724504,
-      "grad_norm": 1.2867036484493364,
       "learning_rate": 2.7504789226548977e-08,
-      "loss": 0.9252,
       "step": 1060
     },
     {
       "epoch": 0.9829257037378865,
-      "grad_norm": 1.2128821195340131,
       "learning_rate": 1.6849027966816535e-08,
-      "loss": 0.9248,
       "step": 1065
     },
     {
       "epoch": 0.9875403784033225,
-      "grad_norm": 1.2424791609426662,
       "learning_rate": 8.789717319505065e-09,
-      "loss": 0.9339,
       "step": 1070
     },
     {
       "epoch": 0.9921550530687586,
-      "grad_norm": 1.2572456229816387,
       "learning_rate": 3.328953376530164e-09,
-      "loss": 0.9287,
       "step": 1075
     },
     {
       "epoch": 0.9967697277341947,
-      "grad_norm": 1.3124951219428418,
       "learning_rate": 4.681563912700693e-10,
-      "loss": 0.9176,
       "step": 1080
     },
     {
       "epoch": 0.9995385325334564,
       "step": 1083,
       "total_flos": 453306954547200.0,
-      "train_loss": 0.9835369018966802,
-      "train_runtime": 35743.0085,
-      "train_samples_per_second": 3.88,
-      "train_steps_per_second": 0.03
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.0009229349330872173,
+      "grad_norm": 10.726049490177841,
       "learning_rate": 1.8348623853211012e-07,
+      "loss": 1.1497,
       "step": 1
     },
     {
       "epoch": 0.0046146746654360865,
+      "grad_norm": 8.900657171326609,
       "learning_rate": 9.174311926605506e-07,
+      "loss": 1.1397,
       "step": 5
     },
     {
       "epoch": 0.009229349330872173,
+      "grad_norm": 3.735942046557525,
       "learning_rate": 1.8348623853211011e-06,
+      "loss": 1.0694,
       "step": 10
     },
     {
       "epoch": 0.01384402399630826,
+      "grad_norm": 2.8318178389546484,
       "learning_rate": 2.7522935779816517e-06,
+      "loss": 1.0196,
       "step": 15
     },
     {
       "epoch": 0.018458698661744346,
+      "grad_norm": 2.114174455764573,
       "learning_rate": 3.6697247706422022e-06,
+      "loss": 1.0136,
       "step": 20
     },
     {
       "epoch": 0.023073373327180433,
+      "grad_norm": 2.310487403214644,
       "learning_rate": 4.587155963302753e-06,
+      "loss": 1.0042,
       "step": 25
     },
     {
       "epoch": 0.02768804799261652,
+      "grad_norm": 2.4801571550073933,
       "learning_rate": 5.504587155963303e-06,
+      "loss": 0.9742,
       "step": 30
     },
     {
       "epoch": 0.032302722658052604,
+      "grad_norm": 2.902534165090561,
       "learning_rate": 6.422018348623854e-06,
+      "loss": 1.0012,
       "step": 35
     },
     {
       "epoch": 0.03691739732348869,
+      "grad_norm": 2.2959784184113547,
       "learning_rate": 7.3394495412844045e-06,
+      "loss": 1.0086,
       "step": 40
     },
     {
       "epoch": 0.04153207198892478,
+      "grad_norm": 2.3869379848167416,
       "learning_rate": 8.256880733944956e-06,
+      "loss": 0.987,
       "step": 45
     },
     {
       "epoch": 0.046146746654360866,
+      "grad_norm": 2.0557468408917527,
       "learning_rate": 9.174311926605506e-06,
+      "loss": 0.9824,
       "step": 50
     },
     {
       "epoch": 0.050761421319796954,
+      "grad_norm": 2.2160008605472874,
       "learning_rate": 1.0091743119266055e-05,
+      "loss": 0.986,
       "step": 55
     },
     {
       "epoch": 0.05537609598523304,
+      "grad_norm": 2.1320443631302006,
       "learning_rate": 1.1009174311926607e-05,
+      "loss": 1.0019,
       "step": 60
     },
     {
       "epoch": 0.05999077065066913,
+      "grad_norm": 2.4823142489717016,
       "learning_rate": 1.1926605504587156e-05,
+      "loss": 1.0048,
       "step": 65
     },
     {
       "epoch": 0.06460544531610521,
+      "grad_norm": 2.5334243917693295,
       "learning_rate": 1.2844036697247708e-05,
+      "loss": 0.9828,
       "step": 70
     },
     {
       "epoch": 0.0692201199815413,
+      "grad_norm": 2.436109706504398,
       "learning_rate": 1.3761467889908258e-05,
+      "loss": 0.9931,
       "step": 75
     },
     {
       "epoch": 0.07383479464697738,
+      "grad_norm": 2.1346723037619695,
       "learning_rate": 1.4678899082568809e-05,
+      "loss": 0.986,
       "step": 80
     },
     {
       "epoch": 0.07844946931241348,
+      "grad_norm": 1.9789737582877578,
       "learning_rate": 1.559633027522936e-05,
+      "loss": 1.0089,
       "step": 85
     },
     {
       "epoch": 0.08306414397784956,
+      "grad_norm": 2.033387276422637,
       "learning_rate": 1.6513761467889912e-05,
+      "loss": 1.0083,
       "step": 90
     },
     {
       "epoch": 0.08767881864328565,
+      "grad_norm": 2.243076459165097,
       "learning_rate": 1.743119266055046e-05,
+      "loss": 1.0175,
       "step": 95
     },
     {
       "epoch": 0.09229349330872173,
+      "grad_norm": 1.953405447633714,
       "learning_rate": 1.834862385321101e-05,
+      "loss": 1.025,
       "step": 100
     },
     {
       "epoch": 0.09229349330872173,
+      "eval_loss": 1.0240174531936646,
+      "eval_runtime": 714.5925,
+      "eval_samples_per_second": 21.481,
+      "eval_steps_per_second": 0.168,
       "step": 100
     },
     {
       "epoch": 0.09690816797415783,
+      "grad_norm": 2.244939327354232,
       "learning_rate": 1.9266055045871563e-05,
+      "loss": 1.0494,
       "step": 105
     },
     {
       "epoch": 0.10152284263959391,
+      "grad_norm": 2.0565138965118406,
       "learning_rate": 1.9999947982262415e-05,
+      "loss": 1.0345,
       "step": 110
     },
     {
       "epoch": 0.10613751730503,
+      "grad_norm": 2.0332956026689386,
       "learning_rate": 1.9998127418269004e-05,
+      "loss": 1.0454,
       "step": 115
     },
     {
       "epoch": 0.11075219197046608,
+      "grad_norm": 2.1387249854354566,
       "learning_rate": 1.9993706508539968e-05,
+      "loss": 1.0255,
       "step": 120
     },
     {
       "epoch": 0.11536686663590216,
+      "grad_norm": 2.458364994524856,
       "learning_rate": 1.998668640288e-05,
+      "loss": 1.0518,
       "step": 125
     },
     {
       "epoch": 0.11998154130133826,
+      "grad_norm": 1.8099694655556404,
       "learning_rate": 1.997706892710117e-05,
+      "loss": 1.0224,
       "step": 130
     },
     {
       "epoch": 0.12459621596677434,
+      "grad_norm": 2.202808282950665,
       "learning_rate": 1.9964856582548094e-05,
+      "loss": 1.0552,
       "step": 135
     },
     {
       "epoch": 0.12921089063221042,
+      "grad_norm": 1.7439069720540679,
       "learning_rate": 1.9950052545447354e-05,
+      "loss": 1.0509,
       "step": 140
     },
     {
       "epoch": 0.13382556529764653,
+      "grad_norm": 1.8051398779741403,
       "learning_rate": 1.993266066608142e-05,
+      "loss": 1.0298,
       "step": 145
     },
     {
       "epoch": 0.1384402399630826,
+      "grad_norm": 1.949872455091144,
       "learning_rate": 1.991268546778726e-05,
+      "loss": 1.0152,
       "step": 150
     },
     {
       "epoch": 0.1430549146285187,
+      "grad_norm": 2.004864424785268,
       "learning_rate": 1.9890132145779885e-05,
+      "loss": 1.0682,
       "step": 155
     },
     {
       "epoch": 0.14766958929395477,
+      "grad_norm": 1.9881342422206065,
       "learning_rate": 1.986500656580118e-05,
+      "loss": 1.0275,
       "step": 160
     },
     {
       "epoch": 0.15228426395939088,
+      "grad_norm": 1.895358789872697,
       "learning_rate": 1.9837315262594307e-05,
+      "loss": 1.0341,
       "step": 165
     },
     {
       "epoch": 0.15689893862482696,
+      "grad_norm": 2.089231797232654,
       "learning_rate": 1.980706543820412e-05,
       "loss": 1.0367,
       "step": 170
     },
     {
       "epoch": 0.16151361329026304,
+      "grad_norm": 1.7637365585658213,
       "learning_rate": 1.9774264960104056e-05,
+      "loss": 1.0223,
       "step": 175
     },
     {
       "epoch": 0.16612828795569912,
+      "grad_norm": 1.7824319082067301,
       "learning_rate": 1.9738922359149927e-05,
+      "loss": 1.0352,
       "step": 180
     },
     {
       "epoch": 0.1707429626211352,
+      "grad_norm": 1.982313038360383,
       "learning_rate": 1.9701046827361175e-05,
+      "loss": 1.0386,
       "step": 185
     },
     {
       "epoch": 0.1753576372865713,
+      "grad_norm": 1.6545978849182734,
       "learning_rate": 1.9660648215530207e-05,
+      "loss": 1.0247,
       "step": 190
     },
     {
       "epoch": 0.17997231195200739,
+      "grad_norm": 1.782636456859102,
       "learning_rate": 1.9617737030660338e-05,
+      "loss": 1.0305,
       "step": 195
     },
     {
       "epoch": 0.18458698661744347,
+      "grad_norm": 1.8378678572944849,
       "learning_rate": 1.9572324433233122e-05,
+      "loss": 1.033,
       "step": 200
     },
     {
       "epoch": 0.18458698661744347,
+      "eval_loss": 1.0464073419570923,
+      "eval_runtime": 647.0101,
+      "eval_samples_per_second": 23.725,
+      "eval_steps_per_second": 0.185,
       "step": 200
     },
     {
       "epoch": 0.18920166128287955,
+      "grad_norm": 1.6648522003545267,
       "learning_rate": 1.9524422234305677e-05,
+      "loss": 1.0268,
       "step": 205
     },
     {
       "epoch": 0.19381633594831565,
+      "grad_norm": 1.7206083361405007,
       "learning_rate": 1.9474042892438848e-05,
+      "loss": 1.0104,
       "step": 210
     },
     {
       "epoch": 0.19843101061375173,
+      "grad_norm": 2.7587017854007194,
       "learning_rate": 1.942119951045692e-05,
+      "loss": 1.0338,
       "step": 215
     },
     {
       "epoch": 0.20304568527918782,
+      "grad_norm": 1.7930536986404009,
       "learning_rate": 1.9365905832039814e-05,
+      "loss": 1.0614,
       "step": 220
     },
     {
       "epoch": 0.2076603599446239,
+      "grad_norm": 1.7259048611678551,
       "learning_rate": 1.9308176238148565e-05,
+      "loss": 1.051,
       "step": 225
     },
     {
       "epoch": 0.21227503461006,
+      "grad_norm": 1.9820066538391885,
       "learning_rate": 1.924802574328509e-05,
+      "loss": 1.0259,
       "step": 230
     },
     {
       "epoch": 0.21688970927549608,
+      "grad_norm": 1.9752532611378077,
       "learning_rate": 1.9185469991587166e-05,
+      "loss": 1.045,
       "step": 235
     },
     {
       "epoch": 0.22150438394093216,
+      "grad_norm": 1.6132930572572803,
       "learning_rate": 1.912052525275965e-05,
+      "loss": 1.0343,
       "step": 240
     },
     {
       "epoch": 0.22611905860636825,
+      "grad_norm": 1.7584131810475476,
       "learning_rate": 1.905320841784298e-05,
+      "loss": 1.0341,
       "step": 245
     },
     {
       "epoch": 0.23073373327180433,
+      "grad_norm": 1.70806063018753,
       "learning_rate": 1.898353699482014e-05,
+      "loss": 1.0335,
       "step": 250
     },
     {
       "epoch": 0.23534840793724043,
+      "grad_norm": 1.6516040151613625,
       "learning_rate": 1.8911529104063093e-05,
+      "loss": 1.0388,
       "step": 255
     },
     {
       "epoch": 0.23996308260267651,
+      "grad_norm": 1.6090722840992302,
       "learning_rate": 1.8837203473619978e-05,
+      "loss": 1.0423,
       "step": 260
     },
     {
       "epoch": 0.2445777572681126,
+      "grad_norm": 1.7713270990326546,
       "learning_rate": 1.8760579434344283e-05,
+      "loss": 1.0475,
       "step": 265
     },
     {
       "epoch": 0.24919243193354867,
+      "grad_norm": 1.658315636443391,
       "learning_rate": 1.8681676914867176e-05,
+      "loss": 1.0484,
       "step": 270
     },
     {
       "epoch": 0.25380710659898476,
+      "grad_norm": 1.7916964421225479,
       "learning_rate": 1.860051643641443e-05,
+      "loss": 1.0312,
       "step": 275
     },
     {
       "epoch": 0.25842178126442084,
+      "grad_norm": 1.6115818403548052,
       "learning_rate": 1.8517119107469194e-05,
+      "loss": 1.0406,
       "step": 280
     },
     {
       "epoch": 0.26303645592985697,
+      "grad_norm": 1.5352737986672527,
       "learning_rate": 1.8431506618282e-05,
+      "loss": 1.0308,
       "step": 285
     },
     {
       "epoch": 0.26765113059529305,
+      "grad_norm": 1.6588566683503214,
       "learning_rate": 1.834370123522954e-05,
+      "loss": 1.0427,
       "step": 290
     },
     {
       "epoch": 0.27226580526072913,
+      "grad_norm": 1.5272038076819447,
       "learning_rate": 1.8253725795023504e-05,
+      "loss": 1.0309,
       "step": 295
     },
     {
       "epoch": 0.2768804799261652,
+      "grad_norm": 1.5715430487703328,
       "learning_rate": 1.816160369877117e-05,
+      "loss": 1.037,
       "step": 300
     },
     {
       "epoch": 0.2768804799261652,
+      "eval_loss": 1.0424165725708008,
+      "eval_runtime": 645.7635,
+      "eval_samples_per_second": 23.77,
+      "eval_steps_per_second": 0.186,
       "step": 300
     },
     {
       "epoch": 0.2814951545916013,
+      "grad_norm": 1.7174412533746373,
       "learning_rate": 1.8067358905889148e-05,
+      "loss": 1.0107,
       "step": 305
     },
     {
       "epoch": 0.2861098292570374,
+      "grad_norm": 1.6294029724129888,
       "learning_rate": 1.797101592787194e-05,
+      "loss": 1.0333,
       "step": 310
     },
     {
       "epoch": 0.29072450392247345,
+      "grad_norm": 1.5569394040938476,
       "learning_rate": 1.7872599821916922e-05,
+      "loss": 1.0253,
       "step": 315
     },
     {
       "epoch": 0.29533917858790953,
+      "grad_norm": 1.5576353282044078,
       "learning_rate": 1.7772136184407367e-05,
+      "loss": 1.0258,
       "step": 320
     },
     {
       "epoch": 0.2999538532533456,
+      "grad_norm": 1.6327760193096779,
       "learning_rate": 1.7669651144255265e-05,
+      "loss": 1.0354,
       "step": 325
     },
     {
       "epoch": 0.30456852791878175,
+      "grad_norm": 1.5902185774151916,
       "learning_rate": 1.7565171356105627e-05,
+      "loss": 1.0473,
       "step": 330
     },
     {
       "epoch": 0.30918320258421783,
+      "grad_norm": 1.6853713064054245,
       "learning_rate": 1.7458723993404065e-05,
+      "loss": 1.0423,
       "step": 335
     },
     {
       "epoch": 0.3137978772496539,
+      "grad_norm": 1.6156935982005598,
       "learning_rate": 1.7350336741329413e-05,
+      "loss": 1.032,
       "step": 340
     },
     {
       "epoch": 0.31841255191509,
+      "grad_norm": 1.6752591408238855,
       "learning_rate": 1.7240037789593307e-05,
+      "loss": 1.0409,
       "step": 345
     },
     {
       "epoch": 0.3230272265805261,
+      "grad_norm": 1.6216674961461026,
       "learning_rate": 1.712785582510848e-05,
+      "loss": 1.0146,
       "step": 350
     },
     {
       "epoch": 0.32764190124596215,
+      "grad_norm": 1.5384588472944032,
       "learning_rate": 1.70138200245278e-05,
+      "loss": 1.0257,
       "step": 355
     },
     {
       "epoch": 0.33225657591139823,
+      "grad_norm": 2.288338756325292,
       "learning_rate": 1.6897960046655886e-05,
+      "loss": 1.033,
       "step": 360
     },
     {
       "epoch": 0.3368712505768343,
+      "grad_norm": 1.7385161337142583,
       "learning_rate": 1.6780306024735384e-05,
+      "loss": 1.0213,
       "step": 365
     },
     {
       "epoch": 0.3414859252422704,
+      "grad_norm": 2.2001962662713885,
       "learning_rate": 1.6660888558609774e-05,
+      "loss": 1.0451,
       "step": 370
     },
     {
       "epoch": 0.34610059990770653,
+      "grad_norm": 1.5300219579349443,
       "learning_rate": 1.6539738706764895e-05,
+      "loss": 1.0282,
       "step": 375
     },
     {
       "epoch": 0.3507152745731426,
+      "grad_norm": 1.4444114105238783,
       "learning_rate": 1.6416887978251134e-05,
+      "loss": 1.0203,
       "step": 380
     },
     {
       "epoch": 0.3553299492385787,
+      "grad_norm": 1.5804824265139066,
       "learning_rate": 1.6292368324488462e-05,
+      "loss": 1.0012,
       "step": 385
     },
     {
       "epoch": 0.35994462390401477,
+      "grad_norm": 1.4610394973013912,
       "learning_rate": 1.6166212130956383e-05,
+      "loss": 1.0116,
       "step": 390
     },
     {
       "epoch": 0.36455929856945085,
+      "grad_norm": 1.5120140583271204,
       "learning_rate": 1.6038452208771037e-05,
+      "loss": 1.0319,
       "step": 395
     },
     {
       "epoch": 0.36917397323488693,
+      "grad_norm": 1.516281881967303,
       "learning_rate": 1.590912178615157e-05,
+      "loss": 1.0136,
       "step": 400
     },
     {
       "epoch": 0.36917397323488693,
+      "eval_loss": 1.0295383930206299,
+      "eval_runtime": 651.8755,
+      "eval_samples_per_second": 23.547,
+      "eval_steps_per_second": 0.184,
       "step": 400
     },
     {
       "epoch": 0.373788647900323,
+      "grad_norm": 1.7544165660209403,
       "learning_rate": 1.5778254499778006e-05,
+      "loss": 1.0196,
       "step": 405
     },
     {
       "epoch": 0.3784033225657591,
+      "grad_norm": 1.5692875836635374,
       "learning_rate": 1.564588438604296e-05,
+      "loss": 1.0094,
       "step": 410
     },
     {
       "epoch": 0.3830179972311952,
+      "grad_norm": 1.5588154190139185,
       "learning_rate": 1.551204587219928e-05,
+      "loss": 0.9973,
       "step": 415
     },
     {
       "epoch": 0.3876326718966313,
+      "grad_norm": 1.773673892309899,
       "learning_rate": 1.5376773767406142e-05,
+      "loss": 1.0388,
       "step": 420
     },
     {
       "epoch": 0.3922473465620674,
+      "grad_norm": 1.5489285794659653,
       "learning_rate": 1.5240103253675756e-05,
+      "loss": 1.0087,
       "step": 425
     },
     {
       "epoch": 0.39686202122750347,
+      "grad_norm": 1.6551129777825688,
       "learning_rate": 1.51020698767231e-05,
+      "loss": 1.0164,
       "step": 430
     },
     {
       "epoch": 0.40147669589293955,
+      "grad_norm": 1.4090672242535114,
       "learning_rate": 1.4962709536721087e-05,
+      "loss": 0.997,
       "step": 435
     },
     {
       "epoch": 0.40609137055837563,
+      "grad_norm": 1.5171777358410203,
       "learning_rate": 1.4822058478963532e-05,
+      "loss": 1.0132,
       "step": 440
     },
     {
       "epoch": 0.4107060452238117,
+      "grad_norm": 1.4969201768034885,
       "learning_rate": 1.4680153284438345e-05,
+      "loss": 1.0119,
       "step": 445
     },
     {
       "epoch": 0.4153207198892478,
+      "grad_norm": 1.5363202791746906,
       "learning_rate": 1.4537030860313443e-05,
+      "loss": 1.0188,
       "step": 450
     },
     {
       "epoch": 0.41993539455468387,
+      "grad_norm": 1.4963468746071473,
       "learning_rate": 1.4392728430337801e-05,
+      "loss": 0.9952,
       "step": 455
     },
     {
       "epoch": 0.42455006922012,
+      "grad_norm": 1.500810806740765,
       "learning_rate": 1.4247283525160178e-05,
+      "loss": 0.9973,
       "step": 460
     },
     {
       "epoch": 0.4291647438855561,
+      "grad_norm": 1.5508662694848825,
       "learning_rate": 1.4100733972568038e-05,
+      "loss": 1.0085,
       "step": 465
     },
     {
       "epoch": 0.43377941855099217,
+      "grad_norm": 1.5955354844051932,
       "learning_rate": 1.3953117887649153e-05,
+      "loss": 1.0215,
       "step": 470
     },
     {
       "epoch": 0.43839409321642825,
+      "grad_norm": 1.4682043182906732,
       "learning_rate": 1.3804473662878519e-05,
+      "loss": 1.0143,
       "step": 475
     },
     {
       "epoch": 0.44300876788186433,
+      "grad_norm": 1.4980307846950924,
       "learning_rate": 1.3654839958133118e-05,
+      "loss": 1.0026,
       "step": 480
     },
     {
       "epoch": 0.4476234425473004,
+      "grad_norm": 1.5233835818444807,
       "learning_rate": 1.3504255690637122e-05,
+      "loss": 1.0205,
       "step": 485
     },
     {
       "epoch": 0.4522381172127365,
+      "grad_norm": 1.4814525071349245,
       "learning_rate": 1.3352760024840174e-05,
+      "loss": 0.9967,
       "step": 490
     },
     {
       "epoch": 0.45685279187817257,
+      "grad_norm": 1.4499082430240968,
       "learning_rate": 1.3200392362231385e-05,
+      "loss": 0.9842,
       "step": 495
     },
     {
       "epoch": 0.46146746654360865,
+      "grad_norm": 1.5561735389313882,
       "learning_rate": 1.3047192331091636e-05,
+      "loss": 1.0229,
       "step": 500
     },
     {
       "epoch": 0.46146746654360865,
+      "eval_loss": 1.015141248703003,
+      "eval_runtime": 633.8229,
+      "eval_samples_per_second": 24.218,
+      "eval_steps_per_second": 0.189,
       "step": 500
     },
     {
       "epoch": 0.4660821412090448,
+      "grad_norm": 1.4233232765996602,
       "learning_rate": 1.2893199776186957e-05,
+      "loss": 0.9936,
       "step": 505
     },
     {
       "epoch": 0.47069681587448087,
+      "grad_norm": 1.54900822797248,
       "learning_rate": 1.2738454748405552e-05,
+      "loss": 1.0102,
       "step": 510
     },
     {
       "epoch": 0.47531149053991695,
+      "grad_norm": 1.4249354749013639,
       "learning_rate": 1.258299749434123e-05,
+      "loss": 1.013,
       "step": 515
     },
     {
       "epoch": 0.47992616520535303,
+      "grad_norm": 1.468956411146474,
       "learning_rate": 1.2426868445825955e-05,
+      "loss": 1.0027,
       "step": 520
     },
     {
       "epoch": 0.4845408398707891,
+      "grad_norm": 1.515134495058657,
       "learning_rate": 1.2270108209414186e-05,
+      "loss": 0.9825,
       "step": 525
     },
     {
       "epoch": 0.4891555145362252,
+      "grad_norm": 1.49493206284371,
       "learning_rate": 1.2112757555821796e-05,
+      "loss": 0.9968,
       "step": 530
     },
     {
       "epoch": 0.49377018920166127,
+      "grad_norm": 1.494232964423619,
       "learning_rate": 1.1954857409322302e-05,
+      "loss": 0.9808,
       "step": 535
     },
     {
       "epoch": 0.49838486386709735,
+      "grad_norm": 1.5895499778471747,
       "learning_rate": 1.179644883710313e-05,
+      "loss": 0.996,
       "step": 540
     },
     {
       "epoch": 0.5029995385325334,
+      "grad_norm": 1.575516689496947,
       "learning_rate": 1.1637573038584729e-05,
+      "loss": 0.9843,
       "step": 545
     },
     {
       "epoch": 0.5076142131979695,
+      "grad_norm": 1.5289310135121519,
       "learning_rate": 1.1478271334705302e-05,
+      "loss": 0.9897,
       "step": 550
     },
     {
       "epoch": 0.5122288878634056,
+      "grad_norm": 1.487892885517731,
       "learning_rate": 1.1318585157173913e-05,
+      "loss": 0.9965,
       "step": 555
     },
     {
       "epoch": 0.5168435625288417,
+      "grad_norm": 1.504695649448808,
       "learning_rate": 1.115855603769479e-05,
+      "loss": 0.9864,
       "step": 560
     },
     {
       "epoch": 0.5214582371942778,
+      "grad_norm": 1.444258657078223,
       "learning_rate": 1.0998225597165628e-05,
+      "loss": 0.9824,
       "step": 565
     },
     {
       "epoch": 0.5260729118597139,
+      "grad_norm": 1.452291205660523,
       "learning_rate": 1.0837635534852687e-05,
+      "loss": 0.9806,
       "step": 570
     },
     {
       "epoch": 0.53068758652515,
+      "grad_norm": 1.4809970617721466,
       "learning_rate": 1.0676827617545511e-05,
+      "loss": 0.98,
       "step": 575
     },
     {
       "epoch": 0.5353022611905861,
+      "grad_norm": 1.4688234901022226,
       "learning_rate": 1.0515843668694087e-05,
+      "loss": 0.9785,
       "step": 580
     },
     {
       "epoch": 0.5399169358560222,
+      "grad_norm": 1.4825659064745627,
       "learning_rate": 1.0354725557531258e-05,
+      "loss": 0.9776,
       "step": 585
     },
     {
       "epoch": 0.5445316105214583,
+      "grad_norm": 1.3801777122885093,
       "learning_rate": 1.0193515188183246e-05,
+      "loss": 0.9687,
       "step": 590
     },
     {
       "epoch": 0.5491462851868943,
+      "grad_norm": 1.421023225061784,
       "learning_rate": 1.003225448877108e-05,
+      "loss": 0.9964,
       "step": 595
     },
     {
       "epoch": 0.5537609598523304,
+      "grad_norm": 1.3889284539657671,
       "learning_rate": 9.870985400505805e-06,
+      "loss": 0.9745,
       "step": 600
     },
     {
       "epoch": 0.5537609598523304,
+      "eval_loss": 0.9945215582847595,
+      "eval_runtime": 661.3891,
+      "eval_samples_per_second": 23.209,
+      "eval_steps_per_second": 0.181,
       "step": 600
     },
     {
       "epoch": 0.5583756345177665,
+      "grad_norm": 1.4429569586116144,
       "learning_rate": 9.709749866780248e-06,
+      "loss": 0.9805,
       "step": 605
     },
     {
       "epoch": 0.5629903091832026,
+      "grad_norm": 1.4656449742761994,
       "learning_rate": 9.548589822260281e-06,
+      "loss": 0.9895,
       "step": 610
     },
     {
       "epoch": 0.5676049838486387,
+      "grad_norm": 1.3965932035586004,
       "learning_rate": 9.387547181978291e-06,
+      "loss": 0.9744,
       "step": 615
     },
     {
       "epoch": 0.5722196585140747,
+      "grad_norm": 1.359374657149616,
       "learning_rate": 9.226663830431777e-06,
+      "loss": 0.9824,
       "step": 620
     },
     {
       "epoch": 0.5768343331795108,
+      "grad_norm": 1.3668229629199753,
       "learning_rate": 9.065981610689915e-06,
+      "loss": 0.9706,
       "step": 625
     },
     {
       "epoch": 0.5814490078449469,
+      "grad_norm": 1.373500531171451,
       "learning_rate": 8.905542313510846e-06,
+      "loss": 0.9796,
       "step": 630
     },
     {
       "epoch": 0.586063682510383,
+      "grad_norm": 1.4067124446675243,
       "learning_rate": 8.745387666472639e-06,
+      "loss": 0.9879,
       "step": 635
     },
     {
       "epoch": 0.5906783571758191,
+      "grad_norm": 1.436245514521079,
       "learning_rate": 8.58555932312059e-06,
+      "loss": 0.9894,
       "step": 640
     },
     {
       "epoch": 0.5952930318412551,
+      "grad_norm": 1.429504715827128,
       "learning_rate": 8.426098852133892e-06,
+      "loss": 0.9643,
       "step": 645
     },
     {
       "epoch": 0.5999077065066912,
+      "grad_norm": 1.3728127558164411,
       "learning_rate": 8.267047726514278e-06,
+      "loss": 0.9813,
       "step": 650
     },
     {
       "epoch": 0.6045223811721273,
+      "grad_norm": 1.3422366968784711,
       "learning_rate": 8.108447312799588e-06,
+      "loss": 0.972,
       "step": 655
     },
     {
       "epoch": 0.6091370558375635,
+      "grad_norm": 1.4348417465202754,
       "learning_rate": 7.950338860305049e-06,
+      "loss": 0.9638,
       "step": 660
     },
     {
       "epoch": 0.6137517305029996,
+      "grad_norm": 1.3342023162033965,
       "learning_rate": 7.792763490394983e-06,
+      "loss": 0.9733,
       "step": 665
     },
     {
       "epoch": 0.6183664051684357,
+      "grad_norm": 1.361475388045652,
       "learning_rate": 7.635762185787868e-06,
+      "loss": 0.9773,
       "step": 670
     },
     {
       "epoch": 0.6229810798338717,
+      "grad_norm": 1.3634924688905254,
       "learning_rate": 7.479375779897379e-06,
+      "loss": 0.9747,
       "step": 675
     },
     {
       "epoch": 0.6275957544993078,
+      "grad_norm": 1.3732265984949414,
       "learning_rate": 7.3236449462123315e-06,
+      "loss": 0.9678,
       "step": 680
     },
     {
       "epoch": 0.6322104291647439,
+      "grad_norm": 1.4464461120602612,
       "learning_rate": 7.168610187718164e-06,
+      "loss": 0.9662,
       "step": 685
     },
     {
       "epoch": 0.63682510383018,
+      "grad_norm": 1.3931117990795983,
       "learning_rate": 7.014311826362804e-06,
+      "loss": 0.9641,
       "step": 690
     },
     {
       "epoch": 0.6414397784956161,
+      "grad_norm": 1.366546097704984,
       "learning_rate": 6.860789992569601e-06,
+      "loss": 0.9787,
       "step": 695
     },
     {
       "epoch": 0.6460544531610521,
+      "grad_norm": 1.3945778923545584,
       "learning_rate": 6.708084614800065e-06,
+      "loss": 0.9441,
       "step": 700
     },
     {
       "epoch": 0.6460544531610521,
+      "eval_loss": 0.9769104719161987,
+      "eval_runtime": 633.9092,
+      "eval_samples_per_second": 24.215,
+      "eval_steps_per_second": 0.189,
       "step": 700
     },
     {
       "epoch": 0.6506691278264882,
+      "grad_norm": 1.364918482537208,
       "learning_rate": 6.556235409169154e-06,
+      "loss": 0.9437,
       "step": 705
     },
     {
       "epoch": 0.6552838024919243,
+      "grad_norm": 1.3330832614943129,
       "learning_rate": 6.405281869115768e-06,
+      "loss": 0.9482,
       "step": 710
     },
     {
       "epoch": 0.6598984771573604,
+      "grad_norm": 1.3291401175998692,
       "learning_rate": 6.255263255131172e-06,
+      "loss": 0.9646,
       "step": 715
     },
     {
       "epoch": 0.6645131518227965,
+      "grad_norm": 1.3661394031338707,
       "learning_rate": 6.106218584547992e-06,
+      "loss": 0.9649,
       "step": 720
     },
     {
       "epoch": 0.6691278264882325,
+      "grad_norm": 1.3117340443959773,
       "learning_rate": 5.9581866213924656e-06,
+      "loss": 0.9525,
       "step": 725
     },
     {
       "epoch": 0.6737425011536686,
+      "grad_norm": 1.364658394013176,
       "learning_rate": 5.811205866302571e-06,
+      "loss": 0.9516,
       "step": 730
     },
     {
       "epoch": 0.6783571758191047,
+      "grad_norm": 1.331994492768848,
       "learning_rate": 5.665314546514633e-06,
+      "loss": 0.954,
       "step": 735
     },
     {
       "epoch": 0.6829718504845408,
+      "grad_norm": 1.3743467262940992,
       "learning_rate": 5.520550605921091e-06,
+      "loss": 0.9554,
       "step": 740
     },
     {
       "epoch": 0.687586525149977,
+      "grad_norm": 1.3312291076208118,
       "learning_rate": 5.376951695201894e-06,
+      "loss": 0.9565,
       "step": 745
     },
     {
       "epoch": 0.6922011998154131,
+      "grad_norm": 1.3832998972367352,
       "learning_rate": 5.234555162032221e-06,
+      "loss": 0.9475,
       "step": 750
     },
     {
       "epoch": 0.6968158744808491,
+      "grad_norm": 1.389562727942595,
       "learning_rate": 5.093398041368942e-06,
+      "loss": 0.9574,
       "step": 755
     },
     {
       "epoch": 0.7014305491462852,
+      "grad_norm": 1.3714452844531986,
       "learning_rate": 4.9535170458184735e-06,
+      "loss": 0.9581,
       "step": 760
     },
     {
       "epoch": 0.7060452238117213,
+      "grad_norm": 1.3477889477630838,
       "learning_rate": 4.81494855608843e-06,
+      "loss": 0.9561,
       "step": 765
     },
     {
       "epoch": 0.7106598984771574,
+      "grad_norm": 1.4491931180376743,
       "learning_rate": 4.677728611525605e-06,
+      "loss": 0.9512,
       "step": 770
     },
     {
       "epoch": 0.7152745731425935,
+      "grad_norm": 1.3241497550464327,
       "learning_rate": 4.541892900742757e-06,
+      "loss": 0.9422,
       "step": 775
     },
     {
       "epoch": 0.7198892478080295,
+      "grad_norm": 1.314421280157553,
       "learning_rate": 4.407476752336575e-06,
+      "loss": 0.943,
       "step": 780
     },
     {
       "epoch": 0.7245039224734656,
+      "grad_norm": 1.2755970945876594,
       "learning_rate": 4.2745151256993325e-06,
+      "loss": 0.9426,
       "step": 785
     },
     {
       "epoch": 0.7291185971389017,
+      "grad_norm": 1.332124542587031,
       "learning_rate": 4.143042601926492e-06,
+      "loss": 0.9533,
       "step": 790
     },
     {
       "epoch": 0.7337332718043378,
+      "grad_norm": 1.3708413423330084,
       "learning_rate": 4.013093374822789e-06,
+      "loss": 0.9374,
       "step": 795
     },
     {
       "epoch": 0.7383479464697739,
+      "grad_norm": 1.27203160584856,
       "learning_rate": 3.884701242008949e-06,
+      "loss": 0.9277,
       "step": 800
     },
     {
       "epoch": 0.7383479464697739,
+      "eval_loss": 0.9612703323364258,
+      "eval_runtime": 651.9955,
+      "eval_samples_per_second": 23.543,
+      "eval_steps_per_second": 0.184,
       "step": 800
     },
     {
       "epoch": 0.7429626211352099,
+      "grad_norm": 1.31377359076841,
       "learning_rate": 3.757899596131529e-06,
+      "loss": 0.9611,
       "step": 805
     },
     {
       "epoch": 0.747577295800646,
+      "grad_norm": 1.2975998004112579,
       "learning_rate": 3.6327214161780287e-06,
+      "loss": 0.9798,
       "step": 810
     },
     {
       "epoch": 0.7521919704660821,
+      "grad_norm": 1.3894464184722144,
       "learning_rate": 3.5091992588996026e-06,
+      "loss": 0.9567,
       "step": 815
     },
     {
       "epoch": 0.7568066451315182,
+      "grad_norm": 1.282473554343769,
       "learning_rate": 3.387365250343615e-06,
+      "loss": 0.954,
       "step": 820
     },
     {
       "epoch": 0.7614213197969543,
+      "grad_norm": 1.3647805901178591,
       "learning_rate": 3.2672510774981692e-06,
+      "loss": 0.9361,
       "step": 825
     },
     {
       "epoch": 0.7660359944623903,
+      "grad_norm": 1.347888877348781,
       "learning_rate": 3.148887980050872e-06,
+      "loss": 0.9432,
       "step": 830
     },
     {
       "epoch": 0.7706506691278265,
+      "grad_norm": 1.377090549096584,
       "learning_rate": 3.032306742263891e-06,
+      "loss": 0.9519,
       "step": 835
     },
     {
       "epoch": 0.7752653437932626,
+      "grad_norm": 1.287471382339416,
       "learning_rate": 2.9175376849675076e-06,
+      "loss": 0.9607,
       "step": 840
     },
     {
       "epoch": 0.7798800184586987,
+      "grad_norm": 1.4070979616878627,
       "learning_rate": 2.8046106576741605e-06,
+      "loss": 0.929,
       "step": 845
     },
     {
       "epoch": 0.7844946931241348,
+      "grad_norm": 1.296812382608952,
       "learning_rate": 2.693555030815085e-06,
+      "loss": 0.9383,
       "step": 850
     },
     {
       "epoch": 0.7891093677895709,
+      "grad_norm": 1.345957217872087,
       "learning_rate": 2.5843996881015676e-06,
+      "loss": 0.9378,
       "step": 855
     },
     {
       "epoch": 0.7937240424550069,
+      "grad_norm": 1.3218142306826084,
       "learning_rate": 2.4771730190127616e-06,
+      "loss": 0.9353,
       "step": 860
     },
     {
       "epoch": 0.798338717120443,
+      "grad_norm": 1.2932161650654428,
       "learning_rate": 2.3719029114120716e-06,
+      "loss": 0.9333,
       "step": 865
     },
     {
       "epoch": 0.8029533917858791,
+      "grad_norm": 1.36407173107211,
       "learning_rate": 2.2686167442939733e-06,
+      "loss": 0.9401,
       "step": 870
     },
     {
       "epoch": 0.8075680664513152,
+      "grad_norm": 1.302064737279862,
       "learning_rate": 2.1673413806632104e-06,
+      "loss": 0.939,
       "step": 875
     },
     {
       "epoch": 0.8121827411167513,
+      "grad_norm": 1.3229653318762729,
       "learning_rate": 2.0681031605481563e-06,
+      "loss": 0.9355,
       "step": 880
     },
     {
       "epoch": 0.8167974157821873,
+      "grad_norm": 1.3252223231469167,
       "learning_rate": 1.9709278941502363e-06,
+      "loss": 0.9344,
       "step": 885
     },
     {
       "epoch": 0.8214120904476234,
+      "grad_norm": 1.3270338774644677,
       "learning_rate": 1.8758408551311048e-06,
+      "loss": 0.9321,
       "step": 890
     },
     {
       "epoch": 0.8260267651130595,
+      "grad_norm": 1.3116552675081934,
       "learning_rate": 1.7828667740394045e-06,
+      "loss": 0.9513,
       "step": 895
     },
     {
       "epoch": 0.8306414397784956,
+      "grad_norm": 1.2617601634166857,
       "learning_rate": 1.6920298318787532e-06,
+      "loss": 0.9384,
       "step": 900
     },
     {
       "epoch": 0.8306414397784956,
+      "eval_loss": 0.9501336812973022,
+      "eval_runtime": 633.7004,
+      "eval_samples_per_second": 24.223,
+      "eval_steps_per_second": 0.189,
       "step": 900
     },
     {
       "epoch": 0.8352561144439317,
+      "grad_norm": 1.3036810903046379,
       "learning_rate": 1.6033536538186778e-06,
+      "loss": 0.9363,
       "step": 905
     },
     {
       "epoch": 0.8398707891093677,
+      "grad_norm": 1.3184782817538288,
       "learning_rate": 1.5168613030500922e-06,
+      "loss": 0.9254,
       "step": 910
     },
     {
       "epoch": 0.8444854637748038,
+      "grad_norm": 1.3311174144545366,
       "learning_rate": 1.4325752747869626e-06,
+      "loss": 0.9401,
       "step": 915
     },
     {
       "epoch": 0.84910013844024,
+      "grad_norm": 1.2485403971692124,
       "learning_rate": 1.3505174904156593e-06,
+      "loss": 0.9305,
       "step": 920
     },
     {
       "epoch": 0.8537148131056761,
+      "grad_norm": 1.302635001110673,
       "learning_rate": 1.2707092917935914e-06,
+      "loss": 0.9393,
       "step": 925
     },
     {
       "epoch": 0.8583294877711122,
+      "grad_norm": 1.3633354249041523,
       "learning_rate": 1.1931714356985257e-06,
+      "loss": 0.9312,
       "step": 930
     },
     {
       "epoch": 0.8629441624365483,
+      "grad_norm": 1.2815769915508204,
       "learning_rate": 1.1179240884301158e-06,
+      "loss": 0.9217,
       "step": 935
     },
     {
       "epoch": 0.8675588371019843,
+      "grad_norm": 1.3419818473322924,
       "learning_rate": 1.0449868205649648e-06,
+      "loss": 0.9168,
       "step": 940
     },
     {
       "epoch": 0.8721735117674204,
+      "grad_norm": 1.3006753146842553,
       "learning_rate": 9.74378601866669e-07,
+      "loss": 0.9413,
       "step": 945
     },
     {
       "epoch": 0.8767881864328565,
+      "grad_norm": 1.275285958470618,
       "learning_rate": 9.061177963520751e-07,
+      "loss": 0.9446,
       "step": 950
     },
     {
       "epoch": 0.8814028610982926,
+      "grad_norm": 1.2680303522716787,
       "learning_rate": 8.402221575151238e-07,
+      "loss": 0.9161,
       "step": 955
     },
     {
       "epoch": 0.8860175357637287,
+      "grad_norm": 1.2495043326934117,
       "learning_rate": 7.767088237094578e-07,
+      "loss": 0.9333,
       "step": 960
     },
     {
       "epoch": 0.8906322104291647,
+      "grad_norm": 1.3345940160548069,
       "learning_rate": 7.155943136910193e-07,
+      "loss": 0.9353,
       "step": 965
     },
     {
       "epoch": 0.8952468850946008,
+      "grad_norm": 1.3252439901574087,
       "learning_rate": 6.568945223218048e-07,
+      "loss": 0.9381,
       "step": 970
     },
     {
       "epoch": 0.8998615597600369,
+      "grad_norm": 1.2795828639710098,
       "learning_rate": 6.00624716435868e-07,
+      "loss": 0.9199,
       "step": 975
     },
     {
       "epoch": 0.904476234425473,
+      "grad_norm": 1.3413550832303935,
       "learning_rate": 5.467995308686813e-07,
+      "loss": 0.94,
       "step": 980
     },
     {
       "epoch": 0.9090909090909091,
+      "grad_norm": 1.3436022079621268,
       "learning_rate": 4.954329646508505e-07,
+      "loss": 0.9313,
       "step": 985
     },
     {
       "epoch": 0.9137055837563451,
+      "grad_norm": 1.3709638383836422,
       "learning_rate": 4.4653837736721273e-07,
+      "loss": 0.9346,
       "step": 990
     },
     {
       "epoch": 0.9183202584217812,
+      "grad_norm": 1.2668090185362362,
       "learning_rate": 4.001284856822174e-07,
+      "loss": 0.9408,
       "step": 995
     },
     {
       "epoch": 0.9229349330872173,
+      "grad_norm": 1.2697339769613498,
       "learning_rate": 3.562153600325491e-07,
+      "loss": 0.9216,
       "step": 1000
     },
     {
       "epoch": 0.9229349330872173,
+      "eval_loss": 0.9448357224464417,
+      "eval_runtime": 634.4549,
+      "eval_samples_per_second": 24.194,
+      "eval_steps_per_second": 0.189,
       "step": 1000
     },
     {
       "epoch": 0.9275496077526535,
+      "grad_norm": 1.281655332093928,
       "learning_rate": 3.1481042148779674e-07,
+      "loss": 0.9399,
       "step": 1005
     },
     {
       "epoch": 0.9321642824180896,
+      "grad_norm": 1.3600956214897377,
       "learning_rate": 2.7592443878003196e-07,
+      "loss": 0.9408,
       "step": 1010
     },
     {
       "epoch": 0.9367789570835257,
+      "grad_norm": 1.3158687412306498,
       "learning_rate": 2.395675255030383e-07,
+      "loss": 0.9227,
       "step": 1015
     },
     {
       "epoch": 0.9413936317489617,
+      "grad_norm": 1.321042213237677,
       "learning_rate": 2.057491374819365e-07,
+      "loss": 0.9251,
       "step": 1020
     },
     {
       "epoch": 0.9460083064143978,
+      "grad_norm": 1.2706676798657595,
       "learning_rate": 1.7447807031388264e-07,
+      "loss": 0.9332,
       "step": 1025
     },
     {
       "epoch": 0.9506229810798339,
+      "grad_norm": 1.3025080688365438,
       "learning_rate": 1.457624570804772e-07,
+      "loss": 0.9171,
       "step": 1030
     },
     {
       "epoch": 0.95523765574527,
+      "grad_norm": 1.3183940856356338,
       "learning_rate": 1.196097662324902e-07,
+      "loss": 0.9394,
       "step": 1035
     },
     {
       "epoch": 0.9598523304107061,
+      "grad_norm": 1.2959502551091049,
       "learning_rate": 9.602679964744288e-08,
+      "loss": 0.9171,
       "step": 1040
     },
     {
       "epoch": 0.9644670050761421,
+      "grad_norm": 1.3183746243018815,
       "learning_rate": 7.501969086054717e-08,
+      "loss": 0.9328,
       "step": 1045
     },
     {
       "epoch": 0.9690816797415782,
+      "grad_norm": 1.3307943534831945,
       "learning_rate": 5.659390346948179e-08,
+      "loss": 0.9424,
       "step": 1050
     },
     {
       "epoch": 0.9736963544070143,
+      "grad_norm": 1.2730525780758684,
       "learning_rate": 4.075422971340115e-08,
+      "loss": 0.9402,
       "step": 1055
     },
     {
       "epoch": 0.9783110290724504,
+      "grad_norm": 1.3093625889696177,
       "learning_rate": 2.7504789226548977e-08,
+      "loss": 0.9275,
       "step": 1060
     },
     {
       "epoch": 0.9829257037378865,
+      "grad_norm": 1.2514296608879,
       "learning_rate": 1.6849027966816535e-08,
+      "loss": 0.9269,
       "step": 1065
     },
     {
       "epoch": 0.9875403784033225,
+      "grad_norm": 1.273379135333167,
       "learning_rate": 8.789717319505065e-09,
+      "loss": 0.9362,
       "step": 1070
     },
     {
       "epoch": 0.9921550530687586,
+      "grad_norm": 1.2811332538414983,
       "learning_rate": 3.328953376530164e-09,
+      "loss": 0.9313,
       "step": 1075
     },
     {
       "epoch": 0.9967697277341947,
+      "grad_norm": 1.3117234277097758,
       "learning_rate": 4.681563912700693e-10,
+      "loss": 0.9204,
       "step": 1080
     },
     {
       "epoch": 0.9995385325334564,
       "step": 1083,
       "total_flos": 453306954547200.0,
+      "train_loss": 0.986508995762382,
+      "train_runtime": 33955.1767,
+      "train_samples_per_second": 4.084,
+      "train_steps_per_second": 0.032
     }
   ],
   "logging_steps": 5,