Model save

Browse files

Files changed (8) hide show

README.md +2 -4
all_results.json +5 -5
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +508 -508

README.md CHANGED Viewed

@@ -1,10 +1,8 @@
 ---
-datasets: qingyangzhang/natural_reasoning_simple
 library_name: transformers
 model_name: Qwen2.5-3B-SFT-NR
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -12,7 +10,7 @@ licence: license
 # Model Card for Qwen2.5-3B-SFT-NR
-This model is a fine-tuned version of [None](https://huggingface.co/None) on the [qingyangzhang/natural_reasoning_simple](https://huggingface.co/datasets/qingyangzhang/natural_reasoning_simple) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -28,7 +26,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/zqyoung1127-tianjin-university/huggingface/runs/rq6uid9l)
 This model was trained with SFT.

 ---
 library_name: transformers
 model_name: Qwen2.5-3B-SFT-NR
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for Qwen2.5-3B-SFT-NR
+This model is a fine-tuned version of [None](https://huggingface.co/None).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/zqyoung1127-tianjin-university/huggingface/runs/iwcrfhuo)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9990049751243781,
-    "total_flos": 5.849427398046515e+16,
-    "train_loss": 0.6000438257755036,
-    "train_runtime": 5544.176,
     "train_samples": 12058,
-    "train_samples_per_second": 2.175,
-    "train_steps_per_second": 0.045
 }

 {
     "epoch": 0.9990049751243781,
+    "total_flos": 1.3756419824156672e+17,
+    "train_loss": 0.5190648520847716,
+    "train_runtime": 16049.3674,
     "train_samples": 12058,
+    "train_samples_per_second": 0.751,
+    "train_steps_per_second": 0.016
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998c8a02208e7f7db685f72280017c50de3dba0680318964ea7bb91011282c69
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:21822537d93795139db5e2a05d0782ba2b1d1d82fba5d8d4da29ce9f649a2e0a
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34605058b2d391627549bbdf623845d3f38dd00b9affc7ef9684cdb5393f37f4
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:e879926cd01bf245c5c5730b7aaf31a715fb1fda005a5c5a3c91571024ed53ea
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32b5a4cc8762f4784f4712433ff897f7c42b168b031bf75e8587dfcc3672057d
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8e188f27852a2145dd3852bc076dd9887ec79e37d7c081bcffa403a964886ac
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e6c38a45f0cfcc2cea2e1dcf080e6b4b22b19a12f1cb365416592aa582fd20c
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4815718d8936325e50130a9241155b6e796d4a2f031863cdf8fc1fb8d2715ad
 size 1089994880

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9990049751243781,
-    "total_flos": 5.849427398046515e+16,
-    "train_loss": 0.6000438257755036,
-    "train_runtime": 5544.176,
     "train_samples": 12058,
-    "train_samples_per_second": 2.175,
-    "train_steps_per_second": 0.045
 }

 {
     "epoch": 0.9990049751243781,
+    "total_flos": 1.3756419824156672e+17,
+    "train_loss": 0.5190648520847716,
+    "train_runtime": 16049.3674,
     "train_samples": 12058,
+    "train_samples_per_second": 0.751,
+    "train_steps_per_second": 0.016
 }

trainer_state.json CHANGED Viewed

@@ -10,1769 +10,1769 @@
   "log_history": [
     {
       "epoch": 0.003980099502487562,
-      "grad_norm": 1.8041054010391235,
       "learning_rate": 1e-06,
-      "loss": 1.2189,
       "step": 1
     },
     {
       "epoch": 0.007960199004975124,
-      "grad_norm": 1.606231451034546,
       "learning_rate": 1e-06,
-      "loss": 1.1372,
       "step": 2
     },
     {
       "epoch": 0.011940298507462687,
-      "grad_norm": 1.5864207744598389,
       "learning_rate": 1e-06,
-      "loss": 1.1304,
       "step": 3
     },
     {
       "epoch": 0.015920398009950248,
-      "grad_norm": 1.6760976314544678,
       "learning_rate": 1e-06,
-      "loss": 1.3062,
       "step": 4
     },
     {
       "epoch": 0.01990049751243781,
-      "grad_norm": 1.0894922018051147,
       "learning_rate": 1e-06,
-      "loss": 1.0851,
       "step": 5
     },
     {
       "epoch": 0.023880597014925373,
-      "grad_norm": 1.197535514831543,
       "learning_rate": 1e-06,
-      "loss": 1.2047,
       "step": 6
     },
     {
       "epoch": 0.027860696517412936,
-      "grad_norm": 1.1388044357299805,
       "learning_rate": 1e-06,
-      "loss": 1.1113,
       "step": 7
     },
     {
       "epoch": 0.031840796019900496,
-      "grad_norm": 1.118986964225769,
       "learning_rate": 1e-06,
-      "loss": 1.129,
       "step": 8
     },
     {
       "epoch": 0.03582089552238806,
-      "grad_norm": 1.1859782934188843,
       "learning_rate": 1e-06,
-      "loss": 1.1824,
       "step": 9
     },
     {
       "epoch": 0.03980099502487562,
-      "grad_norm": 1.0059858560562134,
       "learning_rate": 1e-06,
-      "loss": 1.0065,
       "step": 10
     },
     {
       "epoch": 0.04378109452736319,
-      "grad_norm": 1.088222622871399,
       "learning_rate": 1e-06,
-      "loss": 1.0444,
       "step": 11
     },
     {
       "epoch": 0.04776119402985075,
-      "grad_norm": 1.1014976501464844,
       "learning_rate": 1e-06,
-      "loss": 1.0654,
       "step": 12
     },
     {
       "epoch": 0.051741293532338306,
-      "grad_norm": 0.9451438188552856,
       "learning_rate": 1e-06,
-      "loss": 0.9278,
       "step": 13
     },
     {
       "epoch": 0.05572139303482587,
-      "grad_norm": 1.109749436378479,
       "learning_rate": 1e-06,
-      "loss": 1.0397,
       "step": 14
     },
     {
       "epoch": 0.05970149253731343,
-      "grad_norm": 1.0444092750549316,
       "learning_rate": 1e-06,
-      "loss": 1.0032,
       "step": 15
     },
     {
       "epoch": 0.06368159203980099,
-      "grad_norm": 1.056223750114441,
       "learning_rate": 1e-06,
-      "loss": 0.9843,
       "step": 16
     },
     {
       "epoch": 0.06766169154228856,
-      "grad_norm": 0.9420551657676697,
       "learning_rate": 1e-06,
-      "loss": 0.8722,
       "step": 17
     },
     {
       "epoch": 0.07164179104477612,
-      "grad_norm": 0.9519243240356445,
       "learning_rate": 1e-06,
-      "loss": 0.8713,
       "step": 18
     },
     {
       "epoch": 0.07562189054726368,
-      "grad_norm": 0.8667258620262146,
       "learning_rate": 1e-06,
-      "loss": 0.8384,
       "step": 19
     },
     {
       "epoch": 0.07960199004975124,
-      "grad_norm": 0.9024590253829956,
       "learning_rate": 1e-06,
-      "loss": 0.8198,
       "step": 20
     },
     {
       "epoch": 0.08358208955223881,
-      "grad_norm": 0.8790098428726196,
       "learning_rate": 1e-06,
-      "loss": 0.8539,
       "step": 21
     },
     {
       "epoch": 0.08756218905472637,
-      "grad_norm": 0.7695945501327515,
       "learning_rate": 1e-06,
-      "loss": 0.797,
       "step": 22
     },
     {
       "epoch": 0.09154228855721393,
-      "grad_norm": 0.830602765083313,
       "learning_rate": 1e-06,
-      "loss": 0.8038,
       "step": 23
     },
     {
       "epoch": 0.0955223880597015,
-      "grad_norm": 0.7355982661247253,
       "learning_rate": 1e-06,
-      "loss": 0.7901,
       "step": 24
     },
     {
       "epoch": 0.09950248756218906,
-      "grad_norm": 0.7058648467063904,
       "learning_rate": 1e-06,
-      "loss": 0.7933,
       "step": 25
     },
     {
       "epoch": 0.10348258706467661,
-      "grad_norm": 0.8061387538909912,
       "learning_rate": 1e-06,
-      "loss": 0.7369,
       "step": 26
     },
     {
       "epoch": 0.10746268656716418,
-      "grad_norm": 0.7414054870605469,
       "learning_rate": 1e-06,
-      "loss": 0.7798,
       "step": 27
     },
     {
       "epoch": 0.11144278606965174,
-      "grad_norm": 0.7229103446006775,
       "learning_rate": 1e-06,
-      "loss": 0.7071,
       "step": 28
     },
     {
       "epoch": 0.1154228855721393,
-      "grad_norm": 0.6890265345573425,
       "learning_rate": 1e-06,
-      "loss": 0.649,
       "step": 29
     },
     {
       "epoch": 0.11940298507462686,
-      "grad_norm": 0.6917344927787781,
       "learning_rate": 1e-06,
-      "loss": 0.7381,
       "step": 30
     },
     {
       "epoch": 0.12338308457711443,
-      "grad_norm": 0.6370529532432556,
       "learning_rate": 1e-06,
-      "loss": 0.7016,
       "step": 31
     },
     {
       "epoch": 0.12736318407960198,
-      "grad_norm": 0.5392922163009644,
       "learning_rate": 1e-06,
-      "loss": 0.5861,
       "step": 32
     },
     {
       "epoch": 0.13134328358208955,
-      "grad_norm": 0.5614864826202393,
       "learning_rate": 1e-06,
-      "loss": 0.637,
       "step": 33
     },
     {
       "epoch": 0.13532338308457711,
-      "grad_norm": 0.5575302839279175,
       "learning_rate": 1e-06,
-      "loss": 0.6303,
       "step": 34
     },
     {
       "epoch": 0.13930348258706468,
-      "grad_norm": 0.5416925549507141,
       "learning_rate": 1e-06,
-      "loss": 0.6533,
       "step": 35
     },
     {
       "epoch": 0.14328358208955225,
-      "grad_norm": 0.5551822185516357,
       "learning_rate": 1e-06,
-      "loss": 0.6362,
       "step": 36
     },
     {
       "epoch": 0.1472636815920398,
-      "grad_norm": 0.5346453785896301,
       "learning_rate": 1e-06,
-      "loss": 0.6369,
       "step": 37
     },
     {
       "epoch": 0.15124378109452735,
-      "grad_norm": 0.48347029089927673,
       "learning_rate": 1e-06,
-      "loss": 0.6146,
       "step": 38
     },
     {
       "epoch": 0.15522388059701492,
-      "grad_norm": 0.5139867663383484,
       "learning_rate": 1e-06,
-      "loss": 0.6108,
       "step": 39
     },
     {
       "epoch": 0.15920398009950248,
-      "grad_norm": 0.492990642786026,
       "learning_rate": 1e-06,
-      "loss": 0.6167,
       "step": 40
     },
     {
       "epoch": 0.16318407960199005,
-      "grad_norm": 0.4089691638946533,
       "learning_rate": 1e-06,
-      "loss": 0.5995,
       "step": 41
     },
     {
       "epoch": 0.16716417910447762,
-      "grad_norm": 0.3620274066925049,
       "learning_rate": 1e-06,
-      "loss": 0.5853,
       "step": 42
     },
     {
       "epoch": 0.17114427860696518,
-      "grad_norm": 0.35234397649765015,
       "learning_rate": 1e-06,
-      "loss": 0.5983,
       "step": 43
     },
     {
       "epoch": 0.17512437810945275,
-      "grad_norm": 0.3323567509651184,
       "learning_rate": 1e-06,
-      "loss": 0.5675,
       "step": 44
     },
     {
       "epoch": 0.1791044776119403,
-      "grad_norm": 0.3100694417953491,
       "learning_rate": 1e-06,
-      "loss": 0.6015,
       "step": 45
     },
     {
       "epoch": 0.18308457711442785,
-      "grad_norm": 0.31179943680763245,
       "learning_rate": 1e-06,
-      "loss": 0.592,
       "step": 46
     },
     {
       "epoch": 0.18706467661691542,
-      "grad_norm": 0.3240714967250824,
       "learning_rate": 1e-06,
-      "loss": 0.5945,
       "step": 47
     },
     {
       "epoch": 0.191044776119403,
-      "grad_norm": 0.30923616886138916,
       "learning_rate": 1e-06,
-      "loss": 0.5788,
       "step": 48
     },
     {
       "epoch": 0.19502487562189055,
-      "grad_norm": 0.3096090257167816,
       "learning_rate": 1e-06,
-      "loss": 0.5884,
       "step": 49
     },
     {
       "epoch": 0.19900497512437812,
-      "grad_norm": 0.2709506154060364,
       "learning_rate": 1e-06,
-      "loss": 0.544,
       "step": 50
     },
     {
       "epoch": 0.20298507462686566,
-      "grad_norm": 0.3078024089336395,
       "learning_rate": 1e-06,
-      "loss": 0.5854,
       "step": 51
     },
     {
       "epoch": 0.20696517412935322,
-      "grad_norm": 0.31205838918685913,
       "learning_rate": 1e-06,
-      "loss": 0.5846,
       "step": 52
     },
     {
       "epoch": 0.2109452736318408,
-      "grad_norm": 0.2879401743412018,
       "learning_rate": 1e-06,
-      "loss": 0.5937,
       "step": 53
     },
     {
       "epoch": 0.21492537313432836,
-      "grad_norm": 0.2684524953365326,
       "learning_rate": 1e-06,
-      "loss": 0.5209,
       "step": 54
     },
     {
       "epoch": 0.21890547263681592,
-      "grad_norm": 0.27748343348503113,
       "learning_rate": 1e-06,
-      "loss": 0.5575,
       "step": 55
     },
     {
       "epoch": 0.2228855721393035,
-      "grad_norm": 0.31936174631118774,
       "learning_rate": 1e-06,
-      "loss": 0.6562,
       "step": 56
     },
     {
       "epoch": 0.22686567164179106,
-      "grad_norm": 0.30099964141845703,
       "learning_rate": 1e-06,
-      "loss": 0.5912,
       "step": 57
     },
     {
       "epoch": 0.2308457711442786,
-      "grad_norm": 0.30249732732772827,
       "learning_rate": 1e-06,
-      "loss": 0.657,
       "step": 58
     },
     {
       "epoch": 0.23482587064676616,
-      "grad_norm": 0.28535589575767517,
       "learning_rate": 1e-06,
-      "loss": 0.5827,
       "step": 59
     },
     {
       "epoch": 0.23880597014925373,
-      "grad_norm": 0.2907682955265045,
       "learning_rate": 1e-06,
-      "loss": 0.5745,
       "step": 60
     },
     {
       "epoch": 0.2427860696517413,
-      "grad_norm": 0.2832544445991516,
       "learning_rate": 1e-06,
-      "loss": 0.5534,
       "step": 61
     },
     {
       "epoch": 0.24676616915422886,
-      "grad_norm": 0.2882274389266968,
       "learning_rate": 1e-06,
-      "loss": 0.5717,
       "step": 62
     },
     {
       "epoch": 0.2507462686567164,
-      "grad_norm": 0.28751009702682495,
       "learning_rate": 1e-06,
-      "loss": 0.5915,
       "step": 63
     },
     {
       "epoch": 0.25472636815920396,
-      "grad_norm": 0.2818026542663574,
       "learning_rate": 1e-06,
-      "loss": 0.5793,
       "step": 64
     },
     {
       "epoch": 0.25870646766169153,
-      "grad_norm": 0.29114875197410583,
       "learning_rate": 1e-06,
-      "loss": 0.5577,
       "step": 65
     },
     {
       "epoch": 0.2626865671641791,
-      "grad_norm": 0.3001895546913147,
       "learning_rate": 1e-06,
-      "loss": 0.5792,
       "step": 66
     },
     {
       "epoch": 0.26666666666666666,
-      "grad_norm": 0.28489118814468384,
       "learning_rate": 1e-06,
-      "loss": 0.6217,
       "step": 67
     },
     {
       "epoch": 0.27064676616915423,
-      "grad_norm": 0.27548784017562866,
       "learning_rate": 1e-06,
-      "loss": 0.603,
       "step": 68
     },
     {
       "epoch": 0.2746268656716418,
-      "grad_norm": 0.2983139455318451,
       "learning_rate": 1e-06,
-      "loss": 0.6069,
       "step": 69
     },
     {
       "epoch": 0.27860696517412936,
-      "grad_norm": 0.2885805070400238,
       "learning_rate": 1e-06,
-      "loss": 0.6058,
       "step": 70
     },
     {
       "epoch": 0.28258706467661693,
-      "grad_norm": 0.28651854395866394,
       "learning_rate": 1e-06,
-      "loss": 0.5814,
       "step": 71
     },
     {
       "epoch": 0.2865671641791045,
-      "grad_norm": 0.2910130023956299,
       "learning_rate": 1e-06,
-      "loss": 0.6039,
       "step": 72
     },
     {
       "epoch": 0.29054726368159206,
-      "grad_norm": 0.2883201241493225,
       "learning_rate": 1e-06,
-      "loss": 0.586,
       "step": 73
     },
     {
       "epoch": 0.2945273631840796,
-      "grad_norm": 0.27827897667884827,
       "learning_rate": 1e-06,
-      "loss": 0.5844,
       "step": 74
     },
     {
       "epoch": 0.29850746268656714,
-      "grad_norm": 0.2674331068992615,
       "learning_rate": 1e-06,
-      "loss": 0.5966,
       "step": 75
     },
     {
       "epoch": 0.3024875621890547,
-      "grad_norm": 0.27721738815307617,
       "learning_rate": 1e-06,
-      "loss": 0.5651,
       "step": 76
     },
     {
       "epoch": 0.30646766169154227,
-      "grad_norm": 0.29553672671318054,
       "learning_rate": 1e-06,
-      "loss": 0.5578,
       "step": 77
     },
     {
       "epoch": 0.31044776119402984,
-      "grad_norm": 0.27353787422180176,
       "learning_rate": 1e-06,
-      "loss": 0.5778,
       "step": 78
     },
     {
       "epoch": 0.3144278606965174,
-      "grad_norm": 0.2708923816680908,
       "learning_rate": 1e-06,
-      "loss": 0.5637,
       "step": 79
     },
     {
       "epoch": 0.31840796019900497,
-      "grad_norm": 0.2771095931529999,
       "learning_rate": 1e-06,
-      "loss": 0.5421,
       "step": 80
     },
     {
       "epoch": 0.32238805970149254,
-      "grad_norm": 0.28794559836387634,
       "learning_rate": 1e-06,
-      "loss": 0.56,
       "step": 81
     },
     {
       "epoch": 0.3263681592039801,
-      "grad_norm": 0.27953365445137024,
       "learning_rate": 1e-06,
-      "loss": 0.5943,
       "step": 82
     },
     {
       "epoch": 0.33034825870646767,
-      "grad_norm": 0.2918912470340729,
       "learning_rate": 1e-06,
-      "loss": 0.5797,
       "step": 83
     },
     {
       "epoch": 0.33432835820895523,
-      "grad_norm": 0.29445740580558777,
       "learning_rate": 1e-06,
-      "loss": 0.5675,
       "step": 84
     },
     {
       "epoch": 0.3383084577114428,
-      "grad_norm": 0.2901161313056946,
       "learning_rate": 1e-06,
-      "loss": 0.5775,
       "step": 85
     },
     {
       "epoch": 0.34228855721393037,
-      "grad_norm": 0.27226191759109497,
       "learning_rate": 1e-06,
-      "loss": 0.5638,
       "step": 86
     },
     {
       "epoch": 0.34626865671641793,
-      "grad_norm": 0.28128597140312195,
       "learning_rate": 1e-06,
-      "loss": 0.5591,
       "step": 87
     },
     {
       "epoch": 0.3502487562189055,
-      "grad_norm": 0.2813471853733063,
       "learning_rate": 1e-06,
-      "loss": 0.5989,
       "step": 88
     },
     {
       "epoch": 0.354228855721393,
-      "grad_norm": 0.2899133265018463,
       "learning_rate": 1e-06,
-      "loss": 0.584,
       "step": 89
     },
     {
       "epoch": 0.3582089552238806,
-      "grad_norm": 0.2919646203517914,
       "learning_rate": 1e-06,
-      "loss": 0.5764,
       "step": 90
     },
     {
       "epoch": 0.36218905472636814,
-      "grad_norm": 0.2885926365852356,
       "learning_rate": 1e-06,
-      "loss": 0.5623,
       "step": 91
     },
     {
       "epoch": 0.3661691542288557,
-      "grad_norm": 0.28255367279052734,
       "learning_rate": 1e-06,
-      "loss": 0.6061,
       "step": 92
     },
     {
       "epoch": 0.3701492537313433,
-      "grad_norm": 0.2776722013950348,
       "learning_rate": 1e-06,
-      "loss": 0.588,
       "step": 93
     },
     {
       "epoch": 0.37412935323383084,
-      "grad_norm": 0.3004148304462433,
       "learning_rate": 1e-06,
-      "loss": 0.6002,
       "step": 94
     },
     {
       "epoch": 0.3781094527363184,
-      "grad_norm": 0.2883853316307068,
       "learning_rate": 1e-06,
-      "loss": 0.5886,
       "step": 95
     },
     {
       "epoch": 0.382089552238806,
-      "grad_norm": 0.2858606278896332,
       "learning_rate": 1e-06,
-      "loss": 0.546,
       "step": 96
     },
     {
       "epoch": 0.38606965174129354,
-      "grad_norm": 0.30112016201019287,
       "learning_rate": 1e-06,
-      "loss": 0.5814,
       "step": 97
     },
     {
       "epoch": 0.3900497512437811,
-      "grad_norm": 0.2831226587295532,
       "learning_rate": 1e-06,
-      "loss": 0.5411,
       "step": 98
     },
     {
       "epoch": 0.3940298507462687,
-      "grad_norm": 0.3117291331291199,
       "learning_rate": 1e-06,
-      "loss": 0.6567,
       "step": 99
     },
     {
       "epoch": 0.39800995024875624,
-      "grad_norm": 0.2813672125339508,
       "learning_rate": 1e-06,
-      "loss": 0.5674,
       "step": 100
     },
     {
       "epoch": 0.4019900497512438,
-      "grad_norm": 0.2731095850467682,
       "learning_rate": 1e-06,
-      "loss": 0.5819,
       "step": 101
     },
     {
       "epoch": 0.4059701492537313,
-      "grad_norm": 0.29545432329177856,
       "learning_rate": 1e-06,
-      "loss": 0.5966,
       "step": 102
     },
     {
       "epoch": 0.4099502487562189,
-      "grad_norm": 0.26830869913101196,
       "learning_rate": 1e-06,
-      "loss": 0.5747,
       "step": 103
     },
     {
       "epoch": 0.41393034825870645,
-      "grad_norm": 0.30151620507240295,
       "learning_rate": 1e-06,
-      "loss": 0.6733,
       "step": 104
     },
     {
       "epoch": 0.417910447761194,
-      "grad_norm": 0.2833845317363739,
       "learning_rate": 1e-06,
-      "loss": 0.595,
       "step": 105
     },
     {
       "epoch": 0.4218905472636816,
-      "grad_norm": 0.27560508251190186,
       "learning_rate": 1e-06,
-      "loss": 0.5554,
       "step": 106
     },
     {
       "epoch": 0.42587064676616915,
-      "grad_norm": 0.3009320795536041,
       "learning_rate": 1e-06,
-      "loss": 0.5698,
       "step": 107
     },
     {
       "epoch": 0.4298507462686567,
-      "grad_norm": 0.2834017872810364,
       "learning_rate": 1e-06,
-      "loss": 0.5904,
       "step": 108
     },
     {
       "epoch": 0.4338308457711443,
-      "grad_norm": 0.27971693873405457,
       "learning_rate": 1e-06,
-      "loss": 0.5555,
       "step": 109
     },
     {
       "epoch": 0.43781094527363185,
-      "grad_norm": 0.27217191457748413,
       "learning_rate": 1e-06,
-      "loss": 0.5594,
       "step": 110
     },
     {
       "epoch": 0.4417910447761194,
-      "grad_norm": 0.28083258867263794,
       "learning_rate": 1e-06,
-      "loss": 0.5766,
       "step": 111
     },
     {
       "epoch": 0.445771144278607,
-      "grad_norm": 0.29860496520996094,
       "learning_rate": 1e-06,
-      "loss": 0.5622,
       "step": 112
     },
     {
       "epoch": 0.44975124378109455,
-      "grad_norm": 0.2839198410511017,
       "learning_rate": 1e-06,
-      "loss": 0.5441,
       "step": 113
     },
     {
       "epoch": 0.4537313432835821,
-      "grad_norm": 0.28053733706474304,
       "learning_rate": 1e-06,
-      "loss": 0.545,
       "step": 114
     },
     {
       "epoch": 0.4577114427860697,
-      "grad_norm": 0.28944674134254456,
       "learning_rate": 1e-06,
-      "loss": 0.5414,
       "step": 115
     },
     {
       "epoch": 0.4616915422885572,
-      "grad_norm": 1.7277145385742188,
       "learning_rate": 1e-06,
-      "loss": 0.5376,
       "step": 116
     },
     {
       "epoch": 0.46567164179104475,
-      "grad_norm": 0.26408037543296814,
       "learning_rate": 1e-06,
-      "loss": 0.5273,
       "step": 117
     },
     {
       "epoch": 0.4696517412935323,
-      "grad_norm": 0.2752501666545868,
       "learning_rate": 1e-06,
-      "loss": 0.5223,
       "step": 118
     },
     {
       "epoch": 0.4736318407960199,
-      "grad_norm": 0.31200143694877625,
       "learning_rate": 1e-06,
-      "loss": 0.6251,
       "step": 119
     },
     {
       "epoch": 0.47761194029850745,
-      "grad_norm": 0.2889968156814575,
       "learning_rate": 1e-06,
-      "loss": 0.548,
       "step": 120
     },
     {
       "epoch": 0.481592039800995,
-      "grad_norm": 0.272776335477829,
       "learning_rate": 1e-06,
-      "loss": 0.5353,
       "step": 121
     },
     {
       "epoch": 0.4855721393034826,
-      "grad_norm": 0.29524046182632446,
       "learning_rate": 1e-06,
-      "loss": 0.5834,
       "step": 122
     },
     {
       "epoch": 0.48955223880597015,
-      "grad_norm": 0.2750682830810547,
       "learning_rate": 1e-06,
-      "loss": 0.5769,
       "step": 123
     },
     {
       "epoch": 0.4935323383084577,
-      "grad_norm": 0.28290194272994995,
       "learning_rate": 1e-06,
-      "loss": 0.5749,
       "step": 124
     },
     {
       "epoch": 0.4975124378109453,
-      "grad_norm": 0.2784881889820099,
       "learning_rate": 1e-06,
-      "loss": 0.5675,
       "step": 125
     },
     {
       "epoch": 0.5014925373134328,
-      "grad_norm": 0.28352829813957214,
       "learning_rate": 1e-06,
-      "loss": 0.5544,
       "step": 126
     },
     {
       "epoch": 0.5054726368159204,
-      "grad_norm": 0.4005744457244873,
       "learning_rate": 1e-06,
-      "loss": 0.4916,
       "step": 127
     },
     {
       "epoch": 0.5094527363184079,
-      "grad_norm": 0.2907276153564453,
       "learning_rate": 1e-06,
-      "loss": 0.5842,
       "step": 128
     },
     {
       "epoch": 0.5134328358208955,
-      "grad_norm": 0.27371498942375183,
       "learning_rate": 1e-06,
-      "loss": 0.5298,
       "step": 129
     },
     {
       "epoch": 0.5174129353233831,
-      "grad_norm": 0.268046110868454,
       "learning_rate": 1e-06,
-      "loss": 0.5488,
       "step": 130
     },
     {
       "epoch": 0.5213930348258706,
-      "grad_norm": 0.27211833000183105,
       "learning_rate": 1e-06,
-      "loss": 0.548,
       "step": 131
     },
     {
       "epoch": 0.5253731343283582,
-      "grad_norm": 0.28055205941200256,
       "learning_rate": 1e-06,
-      "loss": 0.5506,
       "step": 132
     },
     {
       "epoch": 0.5293532338308458,
-      "grad_norm": 0.28549808263778687,
       "learning_rate": 1e-06,
-      "loss": 0.5514,
       "step": 133
     },
     {
       "epoch": 0.5333333333333333,
-      "grad_norm": 0.2873031198978424,
       "learning_rate": 1e-06,
-      "loss": 0.5868,
       "step": 134
     },
     {
       "epoch": 0.5373134328358209,
-      "grad_norm": 0.26007169485092163,
       "learning_rate": 1e-06,
-      "loss": 0.4835,
       "step": 135
     },
     {
       "epoch": 0.5412935323383085,
-      "grad_norm": 0.27581357955932617,
       "learning_rate": 1e-06,
-      "loss": 0.515,
       "step": 136
     },
     {
       "epoch": 0.545273631840796,
-      "grad_norm": 0.2559061050415039,
       "learning_rate": 1e-06,
-      "loss": 0.4964,
       "step": 137
     },
     {
       "epoch": 0.5492537313432836,
-      "grad_norm": 0.26830771565437317,
       "learning_rate": 1e-06,
-      "loss": 0.5285,
       "step": 138
     },
     {
       "epoch": 0.5532338308457712,
-      "grad_norm": 0.2840443253517151,
       "learning_rate": 1e-06,
-      "loss": 0.5135,
       "step": 139
     },
     {
       "epoch": 0.5572139303482587,
-      "grad_norm": 0.27029529213905334,
       "learning_rate": 1e-06,
-      "loss": 0.5273,
       "step": 140
     },
     {
       "epoch": 0.5611940298507463,
-      "grad_norm": 0.2841308116912842,
       "learning_rate": 1e-06,
-      "loss": 0.5804,
       "step": 141
     },
     {
       "epoch": 0.5651741293532339,
-      "grad_norm": 0.28251802921295166,
       "learning_rate": 1e-06,
-      "loss": 0.5554,
       "step": 142
     },
     {
       "epoch": 0.5691542288557214,
-      "grad_norm": 0.2795189321041107,
       "learning_rate": 1e-06,
-      "loss": 0.5299,
       "step": 143
     },
     {
       "epoch": 0.573134328358209,
-      "grad_norm": 0.29494765400886536,
       "learning_rate": 1e-06,
-      "loss": 0.5866,
       "step": 144
     },
     {
       "epoch": 0.5771144278606966,
-      "grad_norm": 0.26426634192466736,
       "learning_rate": 1e-06,
-      "loss": 0.4921,
       "step": 145
     },
     {
       "epoch": 0.5810945273631841,
-      "grad_norm": 0.27161064743995667,
       "learning_rate": 1e-06,
-      "loss": 0.5156,
       "step": 146
     },
     {
       "epoch": 0.5850746268656717,
-      "grad_norm": 0.2546272277832031,
       "learning_rate": 1e-06,
-      "loss": 0.4764,
       "step": 147
     },
     {
       "epoch": 0.5890547263681593,
-      "grad_norm": 0.26822739839553833,
       "learning_rate": 1e-06,
-      "loss": 0.5317,
       "step": 148
     },
     {
       "epoch": 0.5930348258706468,
-      "grad_norm": 0.28637799620628357,
       "learning_rate": 1e-06,
-      "loss": 0.5488,
       "step": 149
     },
     {
       "epoch": 0.5970149253731343,
-      "grad_norm": 0.29014742374420166,
       "learning_rate": 1e-06,
-      "loss": 0.5567,
       "step": 150
     },
     {
       "epoch": 0.6009950248756218,
-      "grad_norm": 0.2683526873588562,
       "learning_rate": 1e-06,
-      "loss": 0.5511,
       "step": 151
     },
     {
       "epoch": 0.6049751243781094,
-      "grad_norm": 0.27193310856819153,
       "learning_rate": 1e-06,
-      "loss": 0.5253,
       "step": 152
     },
     {
       "epoch": 0.608955223880597,
-      "grad_norm": 0.808740496635437,
       "learning_rate": 1e-06,
-      "loss": 0.5254,
       "step": 153
     },
     {
       "epoch": 0.6129353233830845,
-      "grad_norm": 0.2881057858467102,
       "learning_rate": 1e-06,
-      "loss": 0.5668,
       "step": 154
     },
     {
       "epoch": 0.6169154228855721,
-      "grad_norm": 0.28654593229293823,
       "learning_rate": 1e-06,
-      "loss": 0.6033,
       "step": 155
     },
     {
       "epoch": 0.6208955223880597,
-      "grad_norm": 0.29203689098358154,
       "learning_rate": 1e-06,
-      "loss": 0.5548,
       "step": 156
     },
     {
       "epoch": 0.6248756218905472,
-      "grad_norm": 0.2731221318244934,
       "learning_rate": 1e-06,
-      "loss": 0.4972,
       "step": 157
     },
     {
       "epoch": 0.6288557213930348,
-      "grad_norm": 0.27775096893310547,
       "learning_rate": 1e-06,
-      "loss": 0.4988,
       "step": 158
     },
     {
       "epoch": 0.6328358208955224,
-      "grad_norm": 0.2725508511066437,
       "learning_rate": 1e-06,
-      "loss": 0.5338,
       "step": 159
     },
     {
       "epoch": 0.6368159203980099,
-      "grad_norm": 0.2905254364013672,
       "learning_rate": 1e-06,
-      "loss": 0.5502,
       "step": 160
     },
     {
       "epoch": 0.6407960199004975,
-      "grad_norm": 0.2800814211368561,
       "learning_rate": 1e-06,
-      "loss": 0.524,
       "step": 161
     },
     {
       "epoch": 0.6447761194029851,
-      "grad_norm": 0.29800140857696533,
       "learning_rate": 1e-06,
-      "loss": 0.5658,
       "step": 162
     },
     {
       "epoch": 0.6487562189054726,
-      "grad_norm": 0.289701372385025,
       "learning_rate": 1e-06,
-      "loss": 0.5322,
       "step": 163
     },
     {
       "epoch": 0.6527363184079602,
-      "grad_norm": 0.3027022182941437,
       "learning_rate": 1e-06,
-      "loss": 0.5575,
       "step": 164
     },
     {
       "epoch": 0.6567164179104478,
-      "grad_norm": 0.29252082109451294,
       "learning_rate": 1e-06,
-      "loss": 0.559,
       "step": 165
     },
     {
       "epoch": 0.6606965174129353,
-      "grad_norm": 0.2698836326599121,
       "learning_rate": 1e-06,
-      "loss": 0.502,
       "step": 166
     },
     {
       "epoch": 0.6646766169154229,
-      "grad_norm": 0.27977052330970764,
       "learning_rate": 1e-06,
-      "loss": 0.483,
       "step": 167
     },
     {
       "epoch": 0.6686567164179105,
-      "grad_norm": 0.2937949001789093,
       "learning_rate": 1e-06,
-      "loss": 0.5613,
       "step": 168
     },
     {
       "epoch": 0.672636815920398,
-      "grad_norm": 0.2905248701572418,
       "learning_rate": 1e-06,
-      "loss": 0.5369,
       "step": 169
     },
     {
       "epoch": 0.6766169154228856,
-      "grad_norm": 0.27426132559776306,
       "learning_rate": 1e-06,
-      "loss": 0.4985,
       "step": 170
     },
     {
       "epoch": 0.6805970149253732,
-      "grad_norm": 0.2826381325721741,
       "learning_rate": 1e-06,
-      "loss": 0.525,
       "step": 171
     },
     {
       "epoch": 0.6845771144278607,
-      "grad_norm": 0.2896779477596283,
       "learning_rate": 1e-06,
-      "loss": 0.5503,
       "step": 172
     },
     {
       "epoch": 0.6885572139303483,
-      "grad_norm": 0.27713751792907715,
       "learning_rate": 1e-06,
-      "loss": 0.5198,
       "step": 173
     },
     {
       "epoch": 0.6925373134328359,
-      "grad_norm": 0.29340362548828125,
       "learning_rate": 1e-06,
-      "loss": 0.5588,
       "step": 174
     },
     {
       "epoch": 0.6965174129353234,
-      "grad_norm": 0.26327288150787354,
       "learning_rate": 1e-06,
-      "loss": 0.5044,
       "step": 175
     },
     {
       "epoch": 0.700497512437811,
-      "grad_norm": 0.2810980975627899,
       "learning_rate": 1e-06,
-      "loss": 0.5336,
       "step": 176
     },
     {
       "epoch": 0.7044776119402985,
-      "grad_norm": 0.2798118591308594,
       "learning_rate": 1e-06,
-      "loss": 0.5623,
       "step": 177
     },
     {
       "epoch": 0.708457711442786,
-      "grad_norm": 0.27893081307411194,
       "learning_rate": 1e-06,
-      "loss": 0.5098,
       "step": 178
     },
     {
       "epoch": 0.7124378109452736,
-      "grad_norm": 0.2879588305950165,
       "learning_rate": 1e-06,
-      "loss": 0.5581,
       "step": 179
     },
     {
       "epoch": 0.7164179104477612,
-      "grad_norm": 0.2735341787338257,
       "learning_rate": 1e-06,
-      "loss": 0.4972,
       "step": 180
     },
     {
       "epoch": 0.7203980099502487,
-      "grad_norm": 0.28305062651634216,
       "learning_rate": 1e-06,
-      "loss": 0.5198,
       "step": 181
     },
     {
       "epoch": 0.7243781094527363,
-      "grad_norm": 0.2881869375705719,
       "learning_rate": 1e-06,
-      "loss": 0.5236,
       "step": 182
     },
     {
       "epoch": 0.7283582089552239,
-      "grad_norm": 0.30144739151000977,
       "learning_rate": 1e-06,
-      "loss": 0.5406,
       "step": 183
     },
     {
       "epoch": 0.7323383084577114,
-      "grad_norm": 0.28926968574523926,
       "learning_rate": 1e-06,
-      "loss": 0.5571,
       "step": 184
     },
     {
       "epoch": 0.736318407960199,
-      "grad_norm": 0.29733872413635254,
       "learning_rate": 1e-06,
-      "loss": 0.6002,
       "step": 185
     },
     {
       "epoch": 0.7402985074626866,
-      "grad_norm": 0.28750744462013245,
       "learning_rate": 1e-06,
-      "loss": 0.5629,
       "step": 186
     },
     {
       "epoch": 0.7442786069651741,
-      "grad_norm": 0.25272336602211,
       "learning_rate": 1e-06,
-      "loss": 0.5315,
       "step": 187
     },
     {
       "epoch": 0.7482587064676617,
-      "grad_norm": 0.3123670220375061,
       "learning_rate": 1e-06,
-      "loss": 0.5518,
       "step": 188
     },
     {
       "epoch": 0.7522388059701492,
-      "grad_norm": 0.287804514169693,
       "learning_rate": 1e-06,
-      "loss": 0.5308,
       "step": 189
     },
     {
       "epoch": 0.7562189054726368,
-      "grad_norm": 0.27801209688186646,
       "learning_rate": 1e-06,
-      "loss": 0.4952,
       "step": 190
     },
     {
       "epoch": 0.7601990049751244,
-      "grad_norm": 0.29395267367362976,
       "learning_rate": 1e-06,
-      "loss": 0.5072,
       "step": 191
     },
     {
       "epoch": 0.764179104477612,
-      "grad_norm": 0.29356127977371216,
       "learning_rate": 1e-06,
-      "loss": 0.5451,
       "step": 192
     },
     {
       "epoch": 0.7681592039800995,
-      "grad_norm": 0.27663421630859375,
       "learning_rate": 1e-06,
-      "loss": 0.5338,
       "step": 193
     },
     {
       "epoch": 0.7721393034825871,
-      "grad_norm": 0.27448275685310364,
       "learning_rate": 1e-06,
-      "loss": 0.5382,
       "step": 194
     },
     {
       "epoch": 0.7761194029850746,
-      "grad_norm": 0.2774457037448883,
       "learning_rate": 1e-06,
-      "loss": 0.4961,
       "step": 195
     },
     {
       "epoch": 0.7800995024875622,
-      "grad_norm": 0.30790749192237854,
       "learning_rate": 1e-06,
-      "loss": 0.5553,
       "step": 196
     },
     {
       "epoch": 0.7840796019900498,
-      "grad_norm": 0.30943363904953003,
       "learning_rate": 1e-06,
-      "loss": 0.5514,
       "step": 197
     },
     {
       "epoch": 0.7880597014925373,
-      "grad_norm": 0.265715092420578,
       "learning_rate": 1e-06,
-      "loss": 0.494,
       "step": 198
     },
     {
       "epoch": 0.7920398009950249,
-      "grad_norm": 0.28460168838500977,
       "learning_rate": 1e-06,
-      "loss": 0.5318,
       "step": 199
     },
     {
       "epoch": 0.7960199004975125,
-      "grad_norm": 0.2925533354282379,
       "learning_rate": 1e-06,
-      "loss": 0.5197,
       "step": 200
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.2781723141670227,
       "learning_rate": 1e-06,
-      "loss": 0.4839,
       "step": 201
     },
     {
       "epoch": 0.8039800995024876,
-      "grad_norm": 0.28367018699645996,
       "learning_rate": 1e-06,
-      "loss": 0.5533,
       "step": 202
     },
     {
       "epoch": 0.8079601990049752,
-      "grad_norm": 0.2904638350009918,
       "learning_rate": 1e-06,
-      "loss": 0.5128,
       "step": 203
     },
     {
       "epoch": 0.8119402985074626,
-      "grad_norm": 0.2869066596031189,
       "learning_rate": 1e-06,
-      "loss": 0.5842,
       "step": 204
     },
     {
       "epoch": 0.8159203980099502,
-      "grad_norm": 0.2981327176094055,
       "learning_rate": 1e-06,
-      "loss": 0.6124,
       "step": 205
     },
     {
       "epoch": 0.8199004975124378,
-      "grad_norm": 0.3040124177932739,
       "learning_rate": 1e-06,
-      "loss": 0.5407,
       "step": 206
     },
     {
       "epoch": 0.8238805970149253,
-      "grad_norm": 0.283186674118042,
       "learning_rate": 1e-06,
-      "loss": 0.5559,
       "step": 207
     },
     {
       "epoch": 0.8278606965174129,
-      "grad_norm": 0.29206421971321106,
       "learning_rate": 1e-06,
-      "loss": 0.5143,
       "step": 208
     },
     {
       "epoch": 0.8318407960199005,
-      "grad_norm": 0.2698039412498474,
       "learning_rate": 1e-06,
-      "loss": 0.5092,
       "step": 209
     },
     {
       "epoch": 0.835820895522388,
-      "grad_norm": 0.3050399720668793,
       "learning_rate": 1e-06,
-      "loss": 0.5436,
       "step": 210
     },
     {
       "epoch": 0.8398009950248756,
-      "grad_norm": 0.2690124809741974,
       "learning_rate": 1e-06,
-      "loss": 0.5118,
       "step": 211
     },
     {
       "epoch": 0.8437810945273632,
-      "grad_norm": 0.2941598892211914,
       "learning_rate": 1e-06,
-      "loss": 0.5776,
       "step": 212
     },
     {
       "epoch": 0.8477611940298507,
-      "grad_norm": 0.267484188079834,
       "learning_rate": 1e-06,
-      "loss": 0.481,
       "step": 213
     },
     {
       "epoch": 0.8517412935323383,
-      "grad_norm": 0.3034264147281647,
       "learning_rate": 1e-06,
-      "loss": 0.5479,
       "step": 214
     },
     {
       "epoch": 0.8557213930348259,
-      "grad_norm": 0.29359570145606995,
       "learning_rate": 1e-06,
-      "loss": 0.5369,
       "step": 215
     },
     {
       "epoch": 0.8597014925373134,
-      "grad_norm": 0.2907046377658844,
       "learning_rate": 1e-06,
-      "loss": 0.5127,
       "step": 216
     },
     {
       "epoch": 0.863681592039801,
-      "grad_norm": 0.2787851095199585,
       "learning_rate": 1e-06,
-      "loss": 0.5398,
       "step": 217
     },
     {
       "epoch": 0.8676616915422886,
-      "grad_norm": 0.29438599944114685,
       "learning_rate": 1e-06,
-      "loss": 0.5337,
       "step": 218
     },
     {
       "epoch": 0.8716417910447761,
-      "grad_norm": 0.2769269645214081,
       "learning_rate": 1e-06,
-      "loss": 0.5016,
       "step": 219
     },
     {
       "epoch": 0.8756218905472637,
-      "grad_norm": 0.27982795238494873,
       "learning_rate": 1e-06,
-      "loss": 0.5489,
       "step": 220
     },
     {
       "epoch": 0.8796019900497513,
-      "grad_norm": 0.2620881497859955,
       "learning_rate": 1e-06,
-      "loss": 0.4893,
       "step": 221
     },
     {
       "epoch": 0.8835820895522388,
-      "grad_norm": 0.2869341969490051,
       "learning_rate": 1e-06,
-      "loss": 0.5365,
       "step": 222
     },
     {
       "epoch": 0.8875621890547264,
-      "grad_norm": 0.28541088104248047,
       "learning_rate": 1e-06,
-      "loss": 0.5234,
       "step": 223
     },
     {
       "epoch": 0.891542288557214,
-      "grad_norm": 0.2907220125198364,
       "learning_rate": 1e-06,
-      "loss": 0.5224,
       "step": 224
     },
     {
       "epoch": 0.8955223880597015,
-      "grad_norm": 0.3106067180633545,
       "learning_rate": 1e-06,
-      "loss": 0.5616,
       "step": 225
     },
     {
       "epoch": 0.8995024875621891,
-      "grad_norm": 0.2765253782272339,
       "learning_rate": 1e-06,
-      "loss": 0.4978,
       "step": 226
     },
     {
       "epoch": 0.9034825870646767,
-      "grad_norm": 0.2780396342277527,
       "learning_rate": 1e-06,
-      "loss": 0.5197,
       "step": 227
     },
     {
       "epoch": 0.9074626865671642,
-      "grad_norm": 0.2735743224620819,
       "learning_rate": 1e-06,
-      "loss": 0.5081,
       "step": 228
     },
     {
       "epoch": 0.9114427860696518,
-      "grad_norm": 0.2986888289451599,
       "learning_rate": 1e-06,
-      "loss": 0.504,
       "step": 229
     },
     {
       "epoch": 0.9154228855721394,
-      "grad_norm": 0.2711998522281647,
       "learning_rate": 1e-06,
-      "loss": 0.5258,
       "step": 230
     },
     {
       "epoch": 0.9194029850746268,
-      "grad_norm": 0.27429237961769104,
       "learning_rate": 1e-06,
-      "loss": 0.4983,
       "step": 231
     },
     {
       "epoch": 0.9233830845771144,
-      "grad_norm": 0.28108328580856323,
       "learning_rate": 1e-06,
-      "loss": 0.5817,
       "step": 232
     },
     {
       "epoch": 0.9273631840796019,
-      "grad_norm": 0.273513525724411,
       "learning_rate": 1e-06,
-      "loss": 0.5024,
       "step": 233
     },
     {
       "epoch": 0.9313432835820895,
-      "grad_norm": 0.2856132686138153,
       "learning_rate": 1e-06,
-      "loss": 0.5257,
       "step": 234
     },
     {
       "epoch": 0.9353233830845771,
-      "grad_norm": 0.2727264165878296,
       "learning_rate": 1e-06,
-      "loss": 0.4796,
       "step": 235
     },
     {
       "epoch": 0.9393034825870646,
-      "grad_norm": 0.2819795608520508,
       "learning_rate": 1e-06,
-      "loss": 0.4993,
       "step": 236
     },
     {
       "epoch": 0.9432835820895522,
-      "grad_norm": 0.29131144285202026,
       "learning_rate": 1e-06,
-      "loss": 0.492,
       "step": 237
     },
     {
       "epoch": 0.9472636815920398,
-      "grad_norm": 0.29098305106163025,
       "learning_rate": 1e-06,
-      "loss": 0.5257,
       "step": 238
     },
     {
       "epoch": 0.9512437810945273,
-      "grad_norm": 0.2734336853027344,
       "learning_rate": 1e-06,
-      "loss": 0.487,
       "step": 239
     },
     {
       "epoch": 0.9552238805970149,
-      "grad_norm": 0.26648443937301636,
       "learning_rate": 1e-06,
-      "loss": 0.4864,
       "step": 240
     },
     {
       "epoch": 0.9592039800995025,
-      "grad_norm": 0.2583979666233063,
       "learning_rate": 1e-06,
-      "loss": 0.4622,
       "step": 241
     },
     {
       "epoch": 0.96318407960199,
-      "grad_norm": 0.26614758372306824,
       "learning_rate": 1e-06,
-      "loss": 0.5096,
       "step": 242
     },
     {
       "epoch": 0.9671641791044776,
-      "grad_norm": 0.25741949677467346,
       "learning_rate": 1e-06,
-      "loss": 0.4801,
       "step": 243
     },
     {
       "epoch": 0.9711442786069652,
-      "grad_norm": 0.2788185477256775,
       "learning_rate": 1e-06,
-      "loss": 0.4905,
       "step": 244
     },
     {
       "epoch": 0.9751243781094527,
-      "grad_norm": 0.282296746969223,
       "learning_rate": 1e-06,
-      "loss": 0.5223,
       "step": 245
     },
     {
       "epoch": 0.9791044776119403,
-      "grad_norm": 0.2750173509120941,
       "learning_rate": 1e-06,
-      "loss": 0.5051,
       "step": 246
     },
     {
       "epoch": 0.9830845771144279,
-      "grad_norm": 0.2807095944881439,
       "learning_rate": 1e-06,
-      "loss": 0.503,
       "step": 247
     },
     {
       "epoch": 0.9870646766169154,
-      "grad_norm": 0.2665058970451355,
       "learning_rate": 1e-06,
-      "loss": 0.4514,
       "step": 248
     },
     {
       "epoch": 0.991044776119403,
-      "grad_norm": 0.26747071743011475,
       "learning_rate": 1e-06,
-      "loss": 0.4601,
       "step": 249
     },
     {
       "epoch": 0.9950248756218906,
-      "grad_norm": 0.2884337306022644,
       "learning_rate": 1e-06,
-      "loss": 0.4899,
       "step": 250
     },
     {
       "epoch": 0.9990049751243781,
-      "grad_norm": 0.29180482029914856,
       "learning_rate": 1e-06,
-      "loss": 0.4998,
       "step": 251
     },
     {
       "epoch": 0.9990049751243781,
       "step": 251,
-      "total_flos": 5.849427398046515e+16,
-      "train_loss": 0.6000438257755036,
-      "train_runtime": 5544.176,
-      "train_samples_per_second": 2.175,
-      "train_steps_per_second": 0.045
     }
   ],
   "logging_steps": 1,
@@ -1792,7 +1792,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.849427398046515e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.003980099502487562,
+      "grad_norm": 8.602572441101074,
       "learning_rate": 1e-06,
+      "loss": 1.2197,
       "step": 1
     },
     {
       "epoch": 0.007960199004975124,
+      "grad_norm": 9.213591575622559,
       "learning_rate": 1e-06,
+      "loss": 1.132,
       "step": 2
     },
     {
       "epoch": 0.011940298507462687,
+      "grad_norm": 169.98960876464844,
       "learning_rate": 1e-06,
+      "loss": 1.118,
       "step": 3
     },
     {
       "epoch": 0.015920398009950248,
+      "grad_norm": 11.449417114257812,
       "learning_rate": 1e-06,
+      "loss": 1.2842,
       "step": 4
     },
     {
       "epoch": 0.01990049751243781,
+      "grad_norm": 16.207637786865234,
       "learning_rate": 1e-06,
+      "loss": 1.1521,
       "step": 5
     },
     {
       "epoch": 0.023880597014925373,
+      "grad_norm": 14.257845878601074,
       "learning_rate": 1e-06,
+      "loss": 1.2443,
       "step": 6
     },
     {
       "epoch": 0.027860696517412936,
+      "grad_norm": 10.684178352355957,
       "learning_rate": 1e-06,
+      "loss": 1.1476,
       "step": 7
     },
     {
       "epoch": 0.031840796019900496,
+      "grad_norm": 10.902571678161621,
       "learning_rate": 1e-06,
+      "loss": 1.1492,
       "step": 8
     },
     {
       "epoch": 0.03582089552238806,
+      "grad_norm": 31.9368839263916,
       "learning_rate": 1e-06,
+      "loss": 1.2449,
       "step": 9
     },
     {
       "epoch": 0.03980099502487562,
+      "grad_norm": 29.409448623657227,
       "learning_rate": 1e-06,
+      "loss": 0.9893,
       "step": 10
     },
     {
       "epoch": 0.04378109452736319,
+      "grad_norm": 35.553062438964844,
       "learning_rate": 1e-06,
+      "loss": 0.9807,
       "step": 11
     },
     {
       "epoch": 0.04776119402985075,
+      "grad_norm": 17.210281372070312,
       "learning_rate": 1e-06,
+      "loss": 0.9567,
       "step": 12
     },
     {
       "epoch": 0.051741293532338306,
+      "grad_norm": 18.666950225830078,
       "learning_rate": 1e-06,
+      "loss": 0.8209,
       "step": 13
     },
     {
       "epoch": 0.05572139303482587,
+      "grad_norm": 11.282356262207031,
       "learning_rate": 1e-06,
+      "loss": 0.9215,
       "step": 14
     },
     {
       "epoch": 0.05970149253731343,
+      "grad_norm": 36.11897659301758,
       "learning_rate": 1e-06,
+      "loss": 0.8758,
       "step": 15
     },
     {
       "epoch": 0.06368159203980099,
+      "grad_norm": 8.626749038696289,
       "learning_rate": 1e-06,
+      "loss": 0.8582,
       "step": 16
     },
     {
       "epoch": 0.06766169154228856,
+      "grad_norm": 11.078080177307129,
       "learning_rate": 1e-06,
+      "loss": 0.8324,
       "step": 17
     },
     {
       "epoch": 0.07164179104477612,
+      "grad_norm": 8.919255256652832,
       "learning_rate": 1e-06,
+      "loss": 0.832,
       "step": 18
     },
     {
       "epoch": 0.07562189054726368,
+      "grad_norm": 2.5705490112304688,
       "learning_rate": 1e-06,
+      "loss": 0.7914,
       "step": 19
     },
     {
       "epoch": 0.07960199004975124,
+      "grad_norm": 3.116955280303955,
       "learning_rate": 1e-06,
+      "loss": 0.7534,
       "step": 20
     },
     {
       "epoch": 0.08358208955223881,
+      "grad_norm": 3.8580944538116455,
       "learning_rate": 1e-06,
+      "loss": 0.7618,
       "step": 21
     },
     {
       "epoch": 0.08756218905472637,
+      "grad_norm": 3.251260995864868,
       "learning_rate": 1e-06,
+      "loss": 0.7007,
       "step": 22
     },
     {
       "epoch": 0.09154228855721393,
+      "grad_norm": 3.630941152572632,
       "learning_rate": 1e-06,
+      "loss": 0.6953,
       "step": 23
     },
     {
       "epoch": 0.0955223880597015,
+      "grad_norm": 3.7083191871643066,
       "learning_rate": 1e-06,
+      "loss": 0.6851,
       "step": 24
     },
     {
       "epoch": 0.09950248756218906,
+      "grad_norm": 3.5167739391326904,
       "learning_rate": 1e-06,
+      "loss": 0.6843,
       "step": 25
     },
     {
       "epoch": 0.10348258706467661,
+      "grad_norm": 2.4625730514526367,
       "learning_rate": 1e-06,
+      "loss": 0.6154,
       "step": 26
     },
     {
       "epoch": 0.10746268656716418,
+      "grad_norm": 2.900531768798828,
       "learning_rate": 1e-06,
+      "loss": 0.6588,
       "step": 27
     },
     {
       "epoch": 0.11144278606965174,
+      "grad_norm": 2.720223903656006,
       "learning_rate": 1e-06,
+      "loss": 0.5933,
       "step": 28
     },
     {
       "epoch": 0.1154228855721393,
+      "grad_norm": 2.8841376304626465,
       "learning_rate": 1e-06,
+      "loss": 0.5398,
       "step": 29
     },
     {
       "epoch": 0.11940298507462686,
+      "grad_norm": 2.3240113258361816,
       "learning_rate": 1e-06,
+      "loss": 0.617,
       "step": 30
     },
     {
       "epoch": 0.12338308457711443,
+      "grad_norm": 1.750429630279541,
       "learning_rate": 1e-06,
+      "loss": 0.6119,
       "step": 31
     },
     {
       "epoch": 0.12736318407960198,
+      "grad_norm": 0.7355216145515442,
       "learning_rate": 1e-06,
+      "loss": 0.512,
       "step": 32
     },
     {
       "epoch": 0.13134328358208955,
+      "grad_norm": 1.8516645431518555,
       "learning_rate": 1e-06,
+      "loss": 0.5669,
       "step": 33
     },
     {
       "epoch": 0.13532338308457711,
+      "grad_norm": 1.235843539237976,
       "learning_rate": 1e-06,
+      "loss": 0.5609,
       "step": 34
     },
     {
       "epoch": 0.13930348258706468,
+      "grad_norm": 2.795116424560547,
       "learning_rate": 1e-06,
+      "loss": 0.5855,
       "step": 35
     },
     {
       "epoch": 0.14328358208955225,
+      "grad_norm": 1.3828765153884888,
       "learning_rate": 1e-06,
+      "loss": 0.5657,
       "step": 36
     },
     {
       "epoch": 0.1472636815920398,
+      "grad_norm": 0.7134882807731628,
       "learning_rate": 1e-06,
+      "loss": 0.5639,
       "step": 37
     },
     {
       "epoch": 0.15124378109452735,
+      "grad_norm": 0.5558878183364868,
       "learning_rate": 1e-06,
+      "loss": 0.5444,
       "step": 38
     },
     {
       "epoch": 0.15522388059701492,
+      "grad_norm": 0.6173982620239258,
       "learning_rate": 1e-06,
+      "loss": 0.54,
       "step": 39
     },
     {
       "epoch": 0.15920398009950248,
+      "grad_norm": 0.49912330508232117,
       "learning_rate": 1e-06,
+      "loss": 0.5523,
       "step": 40
     },
     {
       "epoch": 0.16318407960199005,
+      "grad_norm": 0.4737468361854553,
       "learning_rate": 1e-06,
+      "loss": 0.5371,
       "step": 41
     },
     {
       "epoch": 0.16716417910447762,
+      "grad_norm": 0.4051644504070282,
       "learning_rate": 1e-06,
+      "loss": 0.5309,
       "step": 42
     },
     {
       "epoch": 0.17114427860696518,
+      "grad_norm": 0.42458516359329224,
       "learning_rate": 1e-06,
+      "loss": 0.5355,
       "step": 43
     },
     {
       "epoch": 0.17512437810945275,
+      "grad_norm": 0.3913373351097107,
       "learning_rate": 1e-06,
+      "loss": 0.5142,
       "step": 44
     },
     {
       "epoch": 0.1791044776119403,
+      "grad_norm": 0.3934544324874878,
       "learning_rate": 1e-06,
+      "loss": 0.5441,
       "step": 45
     },
     {
       "epoch": 0.18308457711442785,
+      "grad_norm": 0.4370742440223694,
       "learning_rate": 1e-06,
+      "loss": 0.5367,
       "step": 46
     },
     {
       "epoch": 0.18706467661691542,
+      "grad_norm": 0.4685991704463959,
       "learning_rate": 1e-06,
+      "loss": 0.5377,
       "step": 47
     },
     {
       "epoch": 0.191044776119403,
+      "grad_norm": 0.44145771861076355,
       "learning_rate": 1e-06,
+      "loss": 0.5221,
       "step": 48
     },
     {
       "epoch": 0.19502487562189055,
+      "grad_norm": 0.4267702102661133,
       "learning_rate": 1e-06,
+      "loss": 0.5303,
       "step": 49
     },
     {
       "epoch": 0.19900497512437812,
+      "grad_norm": 0.369733065366745,
       "learning_rate": 1e-06,
+      "loss": 0.4982,
       "step": 50
     },
     {
       "epoch": 0.20298507462686566,
+      "grad_norm": 0.3949680030345917,
       "learning_rate": 1e-06,
+      "loss": 0.5177,
       "step": 51
     },
     {
       "epoch": 0.20696517412935322,
+      "grad_norm": 0.4119485914707184,
       "learning_rate": 1e-06,
+      "loss": 0.5207,
       "step": 52
     },
     {
       "epoch": 0.2109452736318408,
+      "grad_norm": 0.3837582767009735,
       "learning_rate": 1e-06,
+      "loss": 0.5275,
       "step": 53
     },
     {
       "epoch": 0.21492537313432836,
+      "grad_norm": 0.36209946870803833,
       "learning_rate": 1e-06,
+      "loss": 0.4727,
       "step": 54
     },
     {
       "epoch": 0.21890547263681592,
+      "grad_norm": 0.38610896468162537,
       "learning_rate": 1e-06,
+      "loss": 0.4986,
       "step": 55
     },
     {
       "epoch": 0.2228855721393035,
+      "grad_norm": 0.45478999614715576,
       "learning_rate": 1e-06,
+      "loss": 0.5893,
       "step": 56
     },
     {
       "epoch": 0.22686567164179106,
+      "grad_norm": 0.4074576795101166,
       "learning_rate": 1e-06,
+      "loss": 0.5324,
       "step": 57
     },
     {
       "epoch": 0.2308457711442786,
+      "grad_norm": 0.5080429315567017,
       "learning_rate": 1e-06,
+      "loss": 0.5774,
       "step": 58
     },
     {
       "epoch": 0.23482587064676616,
+      "grad_norm": 0.40697044134140015,
       "learning_rate": 1e-06,
+      "loss": 0.5357,
       "step": 59
     },
     {
       "epoch": 0.23880597014925373,
+      "grad_norm": 0.40931448340415955,
       "learning_rate": 1e-06,
+      "loss": 0.5142,
       "step": 60
     },
     {
       "epoch": 0.2427860696517413,
+      "grad_norm": 0.38639310002326965,
       "learning_rate": 1e-06,
+      "loss": 0.4934,
       "step": 61
     },
     {
       "epoch": 0.24676616915422886,
+      "grad_norm": 0.3946526050567627,
       "learning_rate": 1e-06,
+      "loss": 0.5117,
       "step": 62
     },
     {
       "epoch": 0.2507462686567164,
+      "grad_norm": 0.4127659797668457,
       "learning_rate": 1e-06,
+      "loss": 0.5322,
       "step": 63
     },
     {
       "epoch": 0.25472636815920396,
+      "grad_norm": 0.39072689414024353,
       "learning_rate": 1e-06,
+      "loss": 0.5116,
       "step": 64
     },
     {
       "epoch": 0.25870646766169153,
+      "grad_norm": 0.4337158501148224,
       "learning_rate": 1e-06,
+      "loss": 0.4974,
       "step": 65
     },
     {
       "epoch": 0.2626865671641791,
+      "grad_norm": 0.4008353352546692,
       "learning_rate": 1e-06,
+      "loss": 0.5221,
       "step": 66
     },
     {
       "epoch": 0.26666666666666666,
+      "grad_norm": 0.3955201208591461,
       "learning_rate": 1e-06,
+      "loss": 0.5538,
       "step": 67
     },
     {
       "epoch": 0.27064676616915423,
+      "grad_norm": 0.3759704530239105,
       "learning_rate": 1e-06,
+      "loss": 0.5423,
       "step": 68
     },
     {
       "epoch": 0.2746268656716418,
+      "grad_norm": 0.4024805426597595,
       "learning_rate": 1e-06,
+      "loss": 0.542,
       "step": 69
     },
     {
       "epoch": 0.27860696517412936,
+      "grad_norm": 0.4321470856666565,
       "learning_rate": 1e-06,
+      "loss": 0.544,
       "step": 70
     },
     {
       "epoch": 0.28258706467661693,
+      "grad_norm": 0.41789472103118896,
       "learning_rate": 1e-06,
+      "loss": 0.521,
       "step": 71
     },
     {
       "epoch": 0.2865671641791045,
+      "grad_norm": 0.40374019742012024,
       "learning_rate": 1e-06,
+      "loss": 0.5361,
       "step": 72
     },
     {
       "epoch": 0.29054726368159206,
+      "grad_norm": 0.3968409299850464,
       "learning_rate": 1e-06,
+      "loss": 0.5189,
       "step": 73
     },
     {
       "epoch": 0.2945273631840796,
+      "grad_norm": 0.41135865449905396,
       "learning_rate": 1e-06,
+      "loss": 0.521,
       "step": 74
     },
     {
       "epoch": 0.29850746268656714,
+      "grad_norm": 0.37400493025779724,
       "learning_rate": 1e-06,
+      "loss": 0.5249,
       "step": 75
     },
     {
       "epoch": 0.3024875621890547,
+      "grad_norm": 0.39351746439933777,
       "learning_rate": 1e-06,
+      "loss": 0.5013,
       "step": 76
     },
     {
       "epoch": 0.30646766169154227,
+      "grad_norm": 0.409321665763855,
       "learning_rate": 1e-06,
+      "loss": 0.4912,
       "step": 77
     },
     {
       "epoch": 0.31044776119402984,
+      "grad_norm": 0.38681185245513916,
       "learning_rate": 1e-06,
+      "loss": 0.5099,
       "step": 78
     },
     {
       "epoch": 0.3144278606965174,
+      "grad_norm": 0.37752920389175415,
       "learning_rate": 1e-06,
+      "loss": 0.4987,
       "step": 79
     },
     {
       "epoch": 0.31840796019900497,
+      "grad_norm": 0.41034936904907227,
       "learning_rate": 1e-06,
+      "loss": 0.4803,
       "step": 80
     },
     {
       "epoch": 0.32238805970149254,
+      "grad_norm": 0.39453473687171936,
       "learning_rate": 1e-06,
+      "loss": 0.4932,
       "step": 81
     },
     {
       "epoch": 0.3263681592039801,
+      "grad_norm": 0.3872039020061493,
       "learning_rate": 1e-06,
+      "loss": 0.5196,
       "step": 82
     },
     {
       "epoch": 0.33034825870646767,
+      "grad_norm": 0.4377211332321167,
       "learning_rate": 1e-06,
+      "loss": 0.5017,
       "step": 83
     },
     {
       "epoch": 0.33432835820895523,
+      "grad_norm": 0.4183085560798645,
       "learning_rate": 1e-06,
+      "loss": 0.5048,
       "step": 84
     },
     {
       "epoch": 0.3383084577114428,
+      "grad_norm": 0.4024551510810852,
       "learning_rate": 1e-06,
+      "loss": 0.5096,
       "step": 85
     },
     {
       "epoch": 0.34228855721393037,
+      "grad_norm": 0.39065393805503845,
       "learning_rate": 1e-06,
+      "loss": 0.4971,
       "step": 86
     },
     {
       "epoch": 0.34626865671641793,
+      "grad_norm": 0.3872017562389374,
       "learning_rate": 1e-06,
+      "loss": 0.4991,
       "step": 87
     },
     {
       "epoch": 0.3502487562189055,
+      "grad_norm": 0.38857075572013855,
       "learning_rate": 1e-06,
+      "loss": 0.5274,
       "step": 88
     },
     {
       "epoch": 0.354228855721393,
+      "grad_norm": 0.3992158770561218,
       "learning_rate": 1e-06,
+      "loss": 0.5069,
       "step": 89
     },
     {
       "epoch": 0.3582089552238806,
+      "grad_norm": 0.4116052985191345,
       "learning_rate": 1e-06,
+      "loss": 0.5048,
       "step": 90
     },
     {
       "epoch": 0.36218905472636814,
+      "grad_norm": 0.3963039815425873,
       "learning_rate": 1e-06,
+      "loss": 0.488,
       "step": 91
     },
     {
       "epoch": 0.3661691542288557,
+      "grad_norm": 0.3977671265602112,
       "learning_rate": 1e-06,
+      "loss": 0.5362,
       "step": 92
     },
     {
       "epoch": 0.3701492537313433,
+      "grad_norm": 0.40321069955825806,
       "learning_rate": 1e-06,
+      "loss": 0.5116,
       "step": 93
     },
     {
       "epoch": 0.37412935323383084,
+      "grad_norm": 0.4177272915840149,
       "learning_rate": 1e-06,
+      "loss": 0.524,
       "step": 94
     },
     {
       "epoch": 0.3781094527363184,
+      "grad_norm": 0.4061485230922699,
       "learning_rate": 1e-06,
+      "loss": 0.5228,
       "step": 95
     },
     {
       "epoch": 0.382089552238806,
+      "grad_norm": 0.39875149726867676,
       "learning_rate": 1e-06,
+      "loss": 0.4782,
       "step": 96
     },
     {
       "epoch": 0.38606965174129354,
+      "grad_norm": 0.4054339528083801,
       "learning_rate": 1e-06,
+      "loss": 0.4998,
       "step": 97
     },
     {
       "epoch": 0.3900497512437811,
+      "grad_norm": 0.3824702501296997,
       "learning_rate": 1e-06,
+      "loss": 0.4701,
       "step": 98
     },
     {
       "epoch": 0.3940298507462687,
+      "grad_norm": 0.4319639801979065,
       "learning_rate": 1e-06,
+      "loss": 0.5651,
       "step": 99
     },
     {
       "epoch": 0.39800995024875624,
+      "grad_norm": 0.39380550384521484,
       "learning_rate": 1e-06,
+      "loss": 0.4958,
       "step": 100
     },
     {
       "epoch": 0.4019900497512438,
+      "grad_norm": 0.38747814297676086,
       "learning_rate": 1e-06,
+      "loss": 0.5067,
       "step": 101
     },
     {
       "epoch": 0.4059701492537313,
+      "grad_norm": 0.41260620951652527,
       "learning_rate": 1e-06,
+      "loss": 0.5148,
       "step": 102
     },
     {
       "epoch": 0.4099502487562189,
+      "grad_norm": 0.3776450455188751,
       "learning_rate": 1e-06,
+      "loss": 0.5009,
       "step": 103
     },
     {
       "epoch": 0.41393034825870645,
+      "grad_norm": 0.4281792938709259,
       "learning_rate": 1e-06,
+      "loss": 0.5878,
       "step": 104
     },
     {
       "epoch": 0.417910447761194,
+      "grad_norm": 0.4015783965587616,
       "learning_rate": 1e-06,
+      "loss": 0.5137,
       "step": 105
     },
     {
       "epoch": 0.4218905472636816,
+      "grad_norm": 0.38817304372787476,
       "learning_rate": 1e-06,
+      "loss": 0.4847,
       "step": 106
     },
     {
       "epoch": 0.42587064676616915,
+      "grad_norm": 0.4299408495426178,
       "learning_rate": 1e-06,
+      "loss": 0.4906,
       "step": 107
     },
     {
       "epoch": 0.4298507462686567,
+      "grad_norm": 0.3869856595993042,
       "learning_rate": 1e-06,
+      "loss": 0.5093,
       "step": 108
     },
     {
       "epoch": 0.4338308457711443,
+      "grad_norm": 0.38563865423202515,
       "learning_rate": 1e-06,
+      "loss": 0.4807,
       "step": 109
     },
     {
       "epoch": 0.43781094527363185,
+      "grad_norm": 0.39928150177001953,
       "learning_rate": 1e-06,
+      "loss": 0.4896,
       "step": 110
     },
     {
       "epoch": 0.4417910447761194,
+      "grad_norm": 0.39707064628601074,
       "learning_rate": 1e-06,
+      "loss": 0.5104,
       "step": 111
     },
     {
       "epoch": 0.445771144278607,
+      "grad_norm": 0.4231569468975067,
       "learning_rate": 1e-06,
+      "loss": 0.4862,
       "step": 112
     },
     {
       "epoch": 0.44975124378109455,
+      "grad_norm": 0.4070363938808441,
       "learning_rate": 1e-06,
+      "loss": 0.4649,
       "step": 113
     },
     {
       "epoch": 0.4537313432835821,
+      "grad_norm": 0.39055392146110535,
       "learning_rate": 1e-06,
+      "loss": 0.4679,
       "step": 114
     },
     {
       "epoch": 0.4577114427860697,
+      "grad_norm": 0.3945823013782501,
       "learning_rate": 1e-06,
+      "loss": 0.4686,
       "step": 115
     },
     {
       "epoch": 0.4616915422885572,
+      "grad_norm": 0.37572288513183594,
       "learning_rate": 1e-06,
+      "loss": 0.4594,
       "step": 116
     },
     {
       "epoch": 0.46567164179104475,
+      "grad_norm": 0.368758887052536,
       "learning_rate": 1e-06,
+      "loss": 0.4539,
       "step": 117
     },
     {
       "epoch": 0.4696517412935323,
+      "grad_norm": 0.37711796164512634,
       "learning_rate": 1e-06,
+      "loss": 0.4532,
       "step": 118
     },
     {
       "epoch": 0.4736318407960199,
+      "grad_norm": 0.43404269218444824,
       "learning_rate": 1e-06,
+      "loss": 0.544,
       "step": 119
     },
     {
       "epoch": 0.47761194029850745,
+      "grad_norm": 0.3962051272392273,
       "learning_rate": 1e-06,
+      "loss": 0.471,
       "step": 120
     },
     {
       "epoch": 0.481592039800995,
+      "grad_norm": 0.3800894618034363,
       "learning_rate": 1e-06,
+      "loss": 0.4606,
       "step": 121
     },
     {
       "epoch": 0.4855721393034826,
+      "grad_norm": 0.41219913959503174,
       "learning_rate": 1e-06,
+      "loss": 0.4979,
       "step": 122
     },
     {
       "epoch": 0.48955223880597015,
+      "grad_norm": 0.39176592230796814,
       "learning_rate": 1e-06,
+      "loss": 0.4987,
       "step": 123
     },
     {
       "epoch": 0.4935323383084577,
+      "grad_norm": 0.39850085973739624,
       "learning_rate": 1e-06,
+      "loss": 0.5003,
       "step": 124
     },
     {
       "epoch": 0.4975124378109453,
+      "grad_norm": 0.38991016149520874,
       "learning_rate": 1e-06,
+      "loss": 0.4912,
       "step": 125
     },
     {
       "epoch": 0.5014925373134328,
+      "grad_norm": 0.3829534351825714,
       "learning_rate": 1e-06,
+      "loss": 0.4662,
       "step": 126
     },
     {
       "epoch": 0.5054726368159204,
+      "grad_norm": 0.36051082611083984,
       "learning_rate": 1e-06,
+      "loss": 0.4173,
       "step": 127
     },
     {
       "epoch": 0.5094527363184079,
+      "grad_norm": 0.39890432357788086,
       "learning_rate": 1e-06,
+      "loss": 0.5032,
       "step": 128
     },
     {
       "epoch": 0.5134328358208955,
+      "grad_norm": 0.3870425224304199,
       "learning_rate": 1e-06,
+      "loss": 0.4465,
       "step": 129
     },
     {
       "epoch": 0.5174129353233831,
+      "grad_norm": 0.37743470072746277,
       "learning_rate": 1e-06,
+      "loss": 0.4665,
       "step": 130
     },
     {
       "epoch": 0.5213930348258706,
+      "grad_norm": 0.389920175075531,
       "learning_rate": 1e-06,
+      "loss": 0.4723,
       "step": 131
     },
     {
       "epoch": 0.5253731343283582,
+      "grad_norm": 0.3944704830646515,
       "learning_rate": 1e-06,
+      "loss": 0.4666,
       "step": 132
     },
     {
       "epoch": 0.5293532338308458,
+      "grad_norm": 0.3912000358104706,
       "learning_rate": 1e-06,
+      "loss": 0.4649,
       "step": 133
     },
     {
       "epoch": 0.5333333333333333,
+      "grad_norm": 0.4006643295288086,
       "learning_rate": 1e-06,
+      "loss": 0.4928,
       "step": 134
     },
     {
       "epoch": 0.5373134328358209,
+      "grad_norm": 0.3699991703033447,
       "learning_rate": 1e-06,
+      "loss": 0.4092,
       "step": 135
     },
     {
       "epoch": 0.5412935323383085,
+      "grad_norm": 0.38336026668548584,
       "learning_rate": 1e-06,
+      "loss": 0.4419,
       "step": 136
     },
     {
       "epoch": 0.545273631840796,
+      "grad_norm": 0.35077640414237976,
       "learning_rate": 1e-06,
+      "loss": 0.4206,
       "step": 137
     },
     {
       "epoch": 0.5492537313432836,
+      "grad_norm": 0.3833373188972473,
       "learning_rate": 1e-06,
+      "loss": 0.45,
       "step": 138
     },
     {
       "epoch": 0.5532338308457712,
+      "grad_norm": 0.38633936643600464,
       "learning_rate": 1e-06,
+      "loss": 0.4289,
       "step": 139
     },
     {
       "epoch": 0.5572139303482587,
+      "grad_norm": 0.36919641494750977,
       "learning_rate": 1e-06,
+      "loss": 0.4515,
       "step": 140
     },
     {
       "epoch": 0.5611940298507463,
+      "grad_norm": 0.398011714220047,
       "learning_rate": 1e-06,
+      "loss": 0.4959,
       "step": 141
     },
     {
       "epoch": 0.5651741293532339,
+      "grad_norm": 0.38399818539619446,
       "learning_rate": 1e-06,
+      "loss": 0.4676,
       "step": 142
     },
     {
       "epoch": 0.5691542288557214,
+      "grad_norm": 0.389676958322525,
       "learning_rate": 1e-06,
+      "loss": 0.4481,
       "step": 143
     },
     {
       "epoch": 0.573134328358209,
+      "grad_norm": 0.4080444574356079,
       "learning_rate": 1e-06,
+      "loss": 0.508,
       "step": 144
     },
     {
       "epoch": 0.5771144278606966,
+      "grad_norm": 0.36857450008392334,
       "learning_rate": 1e-06,
+      "loss": 0.4124,
       "step": 145
     },
     {
       "epoch": 0.5810945273631841,
+      "grad_norm": 0.39227306842803955,
       "learning_rate": 1e-06,
+      "loss": 0.4373,
       "step": 146
     },
     {
       "epoch": 0.5850746268656717,
+      "grad_norm": 0.35137900710105896,
       "learning_rate": 1e-06,
+      "loss": 0.3968,
       "step": 147
     },
     {
       "epoch": 0.5890547263681593,
+      "grad_norm": 0.3839924931526184,
       "learning_rate": 1e-06,
+      "loss": 0.4501,
       "step": 148
     },
     {
       "epoch": 0.5930348258706468,
+      "grad_norm": 0.40611201524734497,
       "learning_rate": 1e-06,
+      "loss": 0.4623,
       "step": 149
     },
     {
       "epoch": 0.5970149253731343,
+      "grad_norm": 0.40611159801483154,
       "learning_rate": 1e-06,
+      "loss": 0.4752,
       "step": 150
     },
     {
       "epoch": 0.6009950248756218,
+      "grad_norm": 0.3694476783275604,
       "learning_rate": 1e-06,
+      "loss": 0.4645,
       "step": 151
     },
     {
       "epoch": 0.6049751243781094,
+      "grad_norm": 0.3776058554649353,
       "learning_rate": 1e-06,
+      "loss": 0.4398,
       "step": 152
     },
     {
       "epoch": 0.608955223880597,
+      "grad_norm": 0.3951246440410614,
       "learning_rate": 1e-06,
+      "loss": 0.4395,
       "step": 153
     },
     {
       "epoch": 0.6129353233830845,
+      "grad_norm": 0.4008040726184845,
       "learning_rate": 1e-06,
+      "loss": 0.4805,
       "step": 154
     },
     {
       "epoch": 0.6169154228855721,
+      "grad_norm": 0.39640602469444275,
       "learning_rate": 1e-06,
+      "loss": 0.51,
       "step": 155
     },
     {
       "epoch": 0.6208955223880597,
+      "grad_norm": 0.392069548368454,
       "learning_rate": 1e-06,
+      "loss": 0.464,
       "step": 156
     },
     {
       "epoch": 0.6248756218905472,
+      "grad_norm": 0.3650537133216858,
       "learning_rate": 1e-06,
+      "loss": 0.4243,
       "step": 157
     },
     {
       "epoch": 0.6288557213930348,
+      "grad_norm": 0.38185617327690125,
       "learning_rate": 1e-06,
+      "loss": 0.4174,
       "step": 158
     },
     {
       "epoch": 0.6328358208955224,
+      "grad_norm": 0.3775487244129181,
       "learning_rate": 1e-06,
+      "loss": 0.4471,
       "step": 159
     },
     {
       "epoch": 0.6368159203980099,
+      "grad_norm": 0.3903777003288269,
       "learning_rate": 1e-06,
+      "loss": 0.4595,
       "step": 160
     },
     {
       "epoch": 0.6407960199004975,
+      "grad_norm": 0.3664606213569641,
       "learning_rate": 1e-06,
+      "loss": 0.4309,
       "step": 161
     },
     {
       "epoch": 0.6447761194029851,
+      "grad_norm": 0.3931891918182373,
       "learning_rate": 1e-06,
+      "loss": 0.4724,
       "step": 162
     },
     {
       "epoch": 0.6487562189054726,
+      "grad_norm": 0.3914732038974762,
       "learning_rate": 1e-06,
+      "loss": 0.4491,
       "step": 163
     },
     {
       "epoch": 0.6527363184079602,
+      "grad_norm": 0.4103309214115143,
       "learning_rate": 1e-06,
+      "loss": 0.4591,
       "step": 164
     },
     {
       "epoch": 0.6567164179104478,
+      "grad_norm": 0.402506560087204,
       "learning_rate": 1e-06,
+      "loss": 0.463,
       "step": 165
     },
     {
       "epoch": 0.6606965174129353,
+      "grad_norm": 0.36114874482154846,
       "learning_rate": 1e-06,
+      "loss": 0.4156,
       "step": 166
     },
     {
       "epoch": 0.6646766169154229,
+      "grad_norm": 0.3747994899749756,
       "learning_rate": 1e-06,
+      "loss": 0.3993,
       "step": 167
     },
     {
       "epoch": 0.6686567164179105,
+      "grad_norm": 0.3962922692298889,
       "learning_rate": 1e-06,
+      "loss": 0.4604,
       "step": 168
     },
     {
       "epoch": 0.672636815920398,
+      "grad_norm": 0.3930504322052002,
       "learning_rate": 1e-06,
+      "loss": 0.4467,
       "step": 169
     },
     {
       "epoch": 0.6766169154228856,
+      "grad_norm": 0.3787241280078888,
       "learning_rate": 1e-06,
+      "loss": 0.4205,
       "step": 170
     },
     {
       "epoch": 0.6805970149253732,
+      "grad_norm": 0.3823286294937134,
       "learning_rate": 1e-06,
+      "loss": 0.4289,
       "step": 171
     },
     {
       "epoch": 0.6845771144278607,
+      "grad_norm": 0.3922288715839386,
       "learning_rate": 1e-06,
+      "loss": 0.4603,
       "step": 172
     },
     {
       "epoch": 0.6885572139303483,
+      "grad_norm": 0.37836119532585144,
       "learning_rate": 1e-06,
+      "loss": 0.4314,
       "step": 173
     },
     {
       "epoch": 0.6925373134328359,
+      "grad_norm": 0.39417001605033875,
       "learning_rate": 1e-06,
+      "loss": 0.4682,
       "step": 174
     },
     {
       "epoch": 0.6965174129353234,
+      "grad_norm": 0.3708493709564209,
       "learning_rate": 1e-06,
+      "loss": 0.4137,
       "step": 175
     },
     {
       "epoch": 0.700497512437811,
+      "grad_norm": 0.37407782673835754,
       "learning_rate": 1e-06,
+      "loss": 0.4383,
       "step": 176
     },
     {
       "epoch": 0.7044776119402985,
+      "grad_norm": 0.3718623220920563,
       "learning_rate": 1e-06,
+      "loss": 0.4675,
       "step": 177
     },
     {
       "epoch": 0.708457711442786,
+      "grad_norm": 0.3738034963607788,
       "learning_rate": 1e-06,
+      "loss": 0.415,
       "step": 178
     },
     {
       "epoch": 0.7124378109452736,
+      "grad_norm": 0.3950786888599396,
       "learning_rate": 1e-06,
+      "loss": 0.4529,
       "step": 179
     },
     {
       "epoch": 0.7164179104477612,
+      "grad_norm": 0.3632413148880005,
       "learning_rate": 1e-06,
+      "loss": 0.4084,
       "step": 180
     },
     {
       "epoch": 0.7203980099502487,
+      "grad_norm": 0.37233033776283264,
       "learning_rate": 1e-06,
+      "loss": 0.4297,
       "step": 181
     },
     {
       "epoch": 0.7243781094527363,
+      "grad_norm": 0.37420183420181274,
       "learning_rate": 1e-06,
+      "loss": 0.4277,
       "step": 182
     },
     {
       "epoch": 0.7283582089552239,
+      "grad_norm": 0.3963206112384796,
       "learning_rate": 1e-06,
+      "loss": 0.4435,
       "step": 183
     },
     {
       "epoch": 0.7323383084577114,
+      "grad_norm": 0.3932362198829651,
       "learning_rate": 1e-06,
+      "loss": 0.4591,
       "step": 184
     },
     {
       "epoch": 0.736318407960199,
+      "grad_norm": 0.3874463737010956,
       "learning_rate": 1e-06,
+      "loss": 0.4989,
       "step": 185
     },
     {
       "epoch": 0.7402985074626866,
+      "grad_norm": 0.38697943091392517,
       "learning_rate": 1e-06,
+      "loss": 0.4557,
       "step": 186
     },
     {
       "epoch": 0.7442786069651741,
+      "grad_norm": 0.3465070128440857,
       "learning_rate": 1e-06,
+      "loss": 0.44,
       "step": 187
     },
     {
       "epoch": 0.7482587064676617,
+      "grad_norm": 0.4213728904724121,
       "learning_rate": 1e-06,
+      "loss": 0.4519,
       "step": 188
     },
     {
       "epoch": 0.7522388059701492,
+      "grad_norm": 0.38543012738227844,
       "learning_rate": 1e-06,
+      "loss": 0.4341,
       "step": 189
     },
     {
       "epoch": 0.7562189054726368,
+      "grad_norm": 0.37096357345581055,
       "learning_rate": 1e-06,
+      "loss": 0.405,
       "step": 190
     },
     {
       "epoch": 0.7601990049751244,
+      "grad_norm": 0.387590616941452,
       "learning_rate": 1e-06,
+      "loss": 0.4121,
       "step": 191
     },
     {
       "epoch": 0.764179104477612,
+      "grad_norm": 0.3805396854877472,
       "learning_rate": 1e-06,
+      "loss": 0.449,
       "step": 192
     },
     {
       "epoch": 0.7681592039800995,
+      "grad_norm": 0.3715638220310211,
       "learning_rate": 1e-06,
+      "loss": 0.4406,
       "step": 193
     },
     {
       "epoch": 0.7721393034825871,
+      "grad_norm": 0.3621780574321747,
       "learning_rate": 1e-06,
+      "loss": 0.4342,
       "step": 194
     },
     {
       "epoch": 0.7761194029850746,
+      "grad_norm": 0.3717781603336334,
       "learning_rate": 1e-06,
+      "loss": 0.402,
       "step": 195
     },
     {
       "epoch": 0.7800995024875622,
+      "grad_norm": 0.39843422174453735,
       "learning_rate": 1e-06,
+      "loss": 0.4413,
       "step": 196
     },
     {
       "epoch": 0.7840796019900498,
+      "grad_norm": 0.39430034160614014,
       "learning_rate": 1e-06,
+      "loss": 0.4441,
       "step": 197
     },
     {
       "epoch": 0.7880597014925373,
+      "grad_norm": 0.3567056953907013,
       "learning_rate": 1e-06,
+      "loss": 0.4016,
       "step": 198
     },
     {
       "epoch": 0.7920398009950249,
+      "grad_norm": 0.3838033676147461,
       "learning_rate": 1e-06,
+      "loss": 0.4321,
       "step": 199
     },
     {
       "epoch": 0.7960199004975125,
+      "grad_norm": 0.3709229826927185,
       "learning_rate": 1e-06,
+      "loss": 0.4101,
       "step": 200
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.3614198863506317,
       "learning_rate": 1e-06,
+      "loss": 0.3899,
       "step": 201
     },
     {
       "epoch": 0.8039800995024876,
+      "grad_norm": 0.37470588088035583,
       "learning_rate": 1e-06,
+      "loss": 0.4513,
       "step": 202
     },
     {
       "epoch": 0.8079601990049752,
+      "grad_norm": 0.3992566764354706,
       "learning_rate": 1e-06,
+      "loss": 0.4141,
       "step": 203
     },
     {
       "epoch": 0.8119402985074626,
+      "grad_norm": 0.37168097496032715,
       "learning_rate": 1e-06,
+      "loss": 0.4859,
       "step": 204
     },
     {
       "epoch": 0.8159203980099502,
+      "grad_norm": 0.37951424717903137,
       "learning_rate": 1e-06,
+      "loss": 0.4998,
       "step": 205
     },
     {
       "epoch": 0.8199004975124378,
+      "grad_norm": 0.40707215666770935,
       "learning_rate": 1e-06,
+      "loss": 0.4393,
       "step": 206
     },
     {
       "epoch": 0.8238805970149253,
+      "grad_norm": 0.36012160778045654,
       "learning_rate": 1e-06,
+      "loss": 0.4427,
       "step": 207
     },
     {
       "epoch": 0.8278606965174129,
+      "grad_norm": 0.36330950260162354,
       "learning_rate": 1e-06,
+      "loss": 0.4144,
       "step": 208
     },
     {
       "epoch": 0.8318407960199005,
+      "grad_norm": 0.3411954343318939,
       "learning_rate": 1e-06,
+      "loss": 0.4102,
       "step": 209
     },
     {
       "epoch": 0.835820895522388,
+      "grad_norm": 0.38081133365631104,
       "learning_rate": 1e-06,
+      "loss": 0.4357,
       "step": 210
     },
     {
       "epoch": 0.8398009950248756,
+      "grad_norm": 0.34949833154678345,
       "learning_rate": 1e-06,
+      "loss": 0.4092,
       "step": 211
     },
     {
       "epoch": 0.8437810945273632,
+      "grad_norm": 0.37800830602645874,
       "learning_rate": 1e-06,
+      "loss": 0.4707,
       "step": 212
     },
     {
       "epoch": 0.8477611940298507,
+      "grad_norm": 0.3320818245410919,
       "learning_rate": 1e-06,
+      "loss": 0.3851,
       "step": 213
     },
     {
       "epoch": 0.8517412935323383,
+      "grad_norm": 0.37317031621932983,
       "learning_rate": 1e-06,
+      "loss": 0.4383,
       "step": 214
     },
     {
       "epoch": 0.8557213930348259,
+      "grad_norm": 0.359311044216156,
       "learning_rate": 1e-06,
+      "loss": 0.4377,
       "step": 215
     },
     {
       "epoch": 0.8597014925373134,
+      "grad_norm": 0.36889392137527466,
       "learning_rate": 1e-06,
+      "loss": 0.4049,
       "step": 216
     },
     {
       "epoch": 0.863681592039801,
+      "grad_norm": 0.3456409275531769,
       "learning_rate": 1e-06,
+      "loss": 0.4379,
       "step": 217
     },
     {
       "epoch": 0.8676616915422886,
+      "grad_norm": 0.3650165796279907,
       "learning_rate": 1e-06,
+      "loss": 0.418,
       "step": 218
     },
     {
       "epoch": 0.8716417910447761,
+      "grad_norm": 0.3336452543735504,
       "learning_rate": 1e-06,
+      "loss": 0.4024,
       "step": 219
     },
     {
       "epoch": 0.8756218905472637,
+      "grad_norm": 0.3477398157119751,
       "learning_rate": 1e-06,
+      "loss": 0.4429,
       "step": 220
     },
     {
       "epoch": 0.8796019900497513,
+      "grad_norm": 0.32343724370002747,
       "learning_rate": 1e-06,
+      "loss": 0.3906,
       "step": 221
     },
     {
       "epoch": 0.8835820895522388,
+      "grad_norm": 0.3510162830352783,
       "learning_rate": 1e-06,
+      "loss": 0.4281,
       "step": 222
     },
     {
       "epoch": 0.8875621890547264,
+      "grad_norm": 0.34209561347961426,
       "learning_rate": 1e-06,
+      "loss": 0.4144,
       "step": 223
     },
     {
       "epoch": 0.891542288557214,
+      "grad_norm": 0.33722636103630066,
       "learning_rate": 1e-06,
+      "loss": 0.4049,
       "step": 224
     },
     {
       "epoch": 0.8955223880597015,
+      "grad_norm": 0.36703479290008545,
       "learning_rate": 1e-06,
+      "loss": 0.4383,
       "step": 225
     },
     {
       "epoch": 0.8995024875621891,
+      "grad_norm": 0.3338935375213623,
       "learning_rate": 1e-06,
+      "loss": 0.397,
       "step": 226
     },
     {
       "epoch": 0.9034825870646767,
+      "grad_norm": 0.3336848318576813,
       "learning_rate": 1e-06,
+      "loss": 0.4111,
       "step": 227
     },
     {
       "epoch": 0.9074626865671642,
+      "grad_norm": 0.33100321888923645,
       "learning_rate": 1e-06,
+      "loss": 0.4093,
       "step": 228
     },
     {
       "epoch": 0.9114427860696518,
+      "grad_norm": 0.33970826864242554,
       "learning_rate": 1e-06,
+      "loss": 0.39,
       "step": 229
     },
     {
       "epoch": 0.9154228855721394,
+      "grad_norm": 0.3213025629520416,
       "learning_rate": 1e-06,
+      "loss": 0.4266,
       "step": 230
     },
     {
       "epoch": 0.9194029850746268,
+      "grad_norm": 0.31836453080177307,
       "learning_rate": 1e-06,
+      "loss": 0.3955,
       "step": 231
     },
     {
       "epoch": 0.9233830845771144,
+      "grad_norm": 0.33137357234954834,
       "learning_rate": 1e-06,
+      "loss": 0.4623,
       "step": 232
     },
     {
       "epoch": 0.9273631840796019,
+      "grad_norm": 0.3153519034385681,
       "learning_rate": 1e-06,
+      "loss": 0.4005,
       "step": 233
     },
     {
       "epoch": 0.9313432835820895,
+      "grad_norm": 0.3291514217853546,
       "learning_rate": 1e-06,
+      "loss": 0.4156,
       "step": 234
     },
     {
       "epoch": 0.9353233830845771,
+      "grad_norm": 0.31078243255615234,
       "learning_rate": 1e-06,
+      "loss": 0.3792,
       "step": 235
     },
     {
       "epoch": 0.9393034825870646,
+      "grad_norm": 0.32149940729141235,
       "learning_rate": 1e-06,
+      "loss": 0.3913,
       "step": 236
     },
     {
       "epoch": 0.9432835820895522,
+      "grad_norm": 0.3273887634277344,
       "learning_rate": 1e-06,
+      "loss": 0.3881,
       "step": 237
     },
     {
       "epoch": 0.9472636815920398,
+      "grad_norm": 0.33803319931030273,
       "learning_rate": 1e-06,
+      "loss": 0.4183,
       "step": 238
     },
     {
       "epoch": 0.9512437810945273,
+      "grad_norm": 0.30867457389831543,
       "learning_rate": 1e-06,
+      "loss": 0.3875,
       "step": 239
     },
     {
       "epoch": 0.9552238805970149,
+      "grad_norm": 0.30503326654434204,
       "learning_rate": 1e-06,
+      "loss": 0.383,
       "step": 240
     },
     {
       "epoch": 0.9592039800995025,
+      "grad_norm": 0.28712713718414307,
       "learning_rate": 1e-06,
+      "loss": 0.371,
       "step": 241
     },
     {
       "epoch": 0.96318407960199,
+      "grad_norm": 0.2912638783454895,
       "learning_rate": 1e-06,
+      "loss": 0.4035,
       "step": 242
     },
     {
       "epoch": 0.9671641791044776,
+      "grad_norm": 0.2781634032726288,
       "learning_rate": 1e-06,
+      "loss": 0.3848,
       "step": 243
     },
     {
       "epoch": 0.9711442786069652,
+      "grad_norm": 0.3457436263561249,
       "learning_rate": 1e-06,
+      "loss": 0.3857,
       "step": 244
     },
     {
       "epoch": 0.9751243781094527,
+      "grad_norm": 0.3145085871219635,
       "learning_rate": 1e-06,
+      "loss": 0.4167,
       "step": 245
     },
     {
       "epoch": 0.9791044776119403,
+      "grad_norm": 0.3100230097770691,
       "learning_rate": 1e-06,
+      "loss": 0.4051,
       "step": 246
     },
     {
       "epoch": 0.9830845771144279,
+      "grad_norm": 0.29953938722610474,
       "learning_rate": 1e-06,
+      "loss": 0.3985,
       "step": 247
     },
     {
       "epoch": 0.9870646766169154,
+      "grad_norm": 0.27779054641723633,
       "learning_rate": 1e-06,
+      "loss": 0.355,
       "step": 248
     },
     {
       "epoch": 0.991044776119403,
+      "grad_norm": 0.3015543818473816,
       "learning_rate": 1e-06,
+      "loss": 0.3636,
       "step": 249
     },
     {
       "epoch": 0.9950248756218906,
+      "grad_norm": 0.2899494767189026,
       "learning_rate": 1e-06,
+      "loss": 0.3871,
       "step": 250
     },
     {
       "epoch": 0.9990049751243781,
+      "grad_norm": 0.30889588594436646,
       "learning_rate": 1e-06,
+      "loss": 0.3905,
       "step": 251
     },
     {
       "epoch": 0.9990049751243781,
       "step": 251,
+      "total_flos": 1.3756419824156672e+17,
+      "train_loss": 0.5190648520847716,
+      "train_runtime": 16049.3674,
+      "train_samples_per_second": 0.751,
+      "train_steps_per_second": 0.016
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3756419824156672e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null