tongliuphysics
/

Qwen2.5-3B-MATH-lighteval-gen-SFT-15epoch

@@ -1,11 +1,9 @@
 ---
 base_model: Qwen/Qwen2.5-3B
-datasets: ebony59/MATH-lighteval-gen-correct
 library_name: transformers
 model_name: Qwen2.5-3B-MATH-lighteval-gen-SFT-15epoch
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for Qwen2.5-3B-MATH-lighteval-gen-SFT-15epoch
-This model is a fine-tuned version of [Qwen/Qwen2.5-3B](https://huggingface.co/Qwen/Qwen2.5-3B) on the [ebony59/MATH-lighteval-gen-correct](https://huggingface.co/datasets/ebony59/MATH-lighteval-gen-correct) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/pl03818948-ludwig-maximilianuniversity-of-munich/qwen-math-sft/runs/q3cj7whd)
 This model was trained with SFT.

 ---
 base_model: Qwen/Qwen2.5-3B
 library_name: transformers
 model_name: Qwen2.5-3B-MATH-lighteval-gen-SFT-15epoch
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for Qwen2.5-3B-MATH-lighteval-gen-SFT-15epoch
+This model is a fine-tuned version of [Qwen/Qwen2.5-3B](https://huggingface.co/Qwen/Qwen2.5-3B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/pl03818948-ludwig-maximilianuniversity-of-munich/qwen-math-sft/runs/uujrvm5v)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,12 +1,7 @@
 {
-    "eval_loss": 0.46884241700172424,
-    "eval_runtime": 69.6122,
-    "eval_samples": 3537,
-    "eval_samples_per_second": 12.282,
-    "eval_steps_per_second": 1.537,
     "total_flos": 24409842647040.0,
-    "train_loss": 0.12131776079243305,
-    "train_runtime": 3783.5615,
     "train_samples": 6726,
     "train_samples_per_second": 2.194,
     "train_steps_per_second": 0.067

 {
     "total_flos": 24409842647040.0,
+    "train_loss": 0.12274208276295194,
+    "train_runtime": 3782.9235,
     "train_samples": 6726,
     "train_samples_per_second": 2.194,
     "train_steps_per_second": 0.067

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "total_flos": 24409842647040.0,
-    "train_loss": 0.12131776079243305,
-    "train_runtime": 3783.5615,
     "train_samples": 6726,
     "train_samples_per_second": 2.194,
     "train_steps_per_second": 0.067

 {
     "total_flos": 24409842647040.0,
+    "train_loss": 0.12274208276295194,
+    "train_runtime": 3782.9235,
     "train_samples": 6726,
     "train_samples_per_second": 2.194,
     "train_steps_per_second": 0.067

trainer_state.json CHANGED Viewed

@@ -11,8 +11,8 @@
   "log_history": [
     {
       "epoch": 0.03855421686746988,
-      "grad_norm": 2.0454819276337846,
-      "learning_rate": 7.692307692307694e-07,
       "loss": 0.2354,
       "mean_token_accuracy": 0.930065356194973,
       "num_tokens": 131072.0,
@@ -20,1266 +20,1266 @@
     },
     {
       "epoch": 0.07710843373493977,
-      "grad_norm": 2.1298212530091987,
-      "learning_rate": 2.307692307692308e-06,
-      "loss": 0.25,
-      "mean_token_accuracy": 0.9257908090949059,
       "num_tokens": 262144.0,
       "step": 4
     },
     {
       "epoch": 0.11566265060240964,
-      "grad_norm": 1.7456338929875892,
-      "learning_rate": 3.846153846153847e-06,
-      "loss": 0.2397,
-      "mean_token_accuracy": 0.9267907477915287,
       "num_tokens": 393216.0,
       "step": 6
     },
     {
       "epoch": 0.15421686746987953,
-      "grad_norm": 0.9706871081058248,
-      "learning_rate": 5.384615384615385e-06,
-      "loss": 0.2015,
-      "mean_token_accuracy": 0.935897059738636,
       "num_tokens": 524288.0,
       "step": 8
     },
     {
       "epoch": 0.1927710843373494,
-      "grad_norm": 0.8194838637969071,
-      "learning_rate": 6.923076923076923e-06,
-      "loss": 0.2008,
-      "mean_token_accuracy": 0.9353887066245079,
       "num_tokens": 654484.0,
       "step": 10
     },
     {
       "epoch": 0.23132530120481928,
-      "grad_norm": 1.0319387664578734,
-      "learning_rate": 8.461538461538462e-06,
-      "loss": 0.2011,
-      "mean_token_accuracy": 0.9345459975302219,
       "num_tokens": 785556.0,
       "step": 12
     },
     {
       "epoch": 0.26987951807228916,
-      "grad_norm": 0.8352922078235848,
-      "learning_rate": 1e-05,
-      "loss": 0.2003,
-      "mean_token_accuracy": 0.935283150523901,
       "num_tokens": 915519.0,
       "step": 14
     },
     {
       "epoch": 0.30843373493975906,
-      "grad_norm": 0.7906073173343502,
-      "learning_rate": 9.998314826517564e-06,
-      "loss": 0.1966,
-      "mean_token_accuracy": 0.935897059738636,
       "num_tokens": 1046591.0,
       "step": 16
     },
     {
       "epoch": 0.3469879518072289,
-      "grad_norm": 0.6846232792864836,
-      "learning_rate": 9.993260441994116e-06,
-      "loss": 0.2035,
-      "mean_token_accuracy": 0.9336223900318146,
       "num_tokens": 1177663.0,
       "step": 18
     },
     {
       "epoch": 0.3855421686746988,
-      "grad_norm": 0.7432991959274129,
-      "learning_rate": 9.984840253435569e-06,
-      "loss": 0.1936,
-      "mean_token_accuracy": 0.9368893653154373,
       "num_tokens": 1308735.0,
       "step": 20
     },
     {
       "epoch": 0.3855421686746988,
-      "eval_loss": 0.33434972167015076,
-      "eval_mean_token_accuracy": 0.9007918210787194,
       "eval_num_tokens": 1308735.0,
-      "eval_runtime": 70.1692,
-      "eval_samples_per_second": 12.185,
-      "eval_steps_per_second": 1.525,
       "step": 20
     },
     {
       "epoch": 0.42409638554216866,
-      "grad_norm": 0.669864276674794,
-      "learning_rate": 9.973059936633308e-06,
-      "loss": 0.1824,
-      "mean_token_accuracy": 0.9392937980592251,
       "num_tokens": 1439807.0,
       "step": 22
     },
     {
       "epoch": 0.46265060240963857,
-      "grad_norm": 0.6077910575622785,
-      "learning_rate": 9.957927432338332e-06,
-      "loss": 0.1921,
-      "mean_token_accuracy": 0.9366323500871658,
       "num_tokens": 1570062.0,
       "step": 24
     },
     {
       "epoch": 0.5012048192771085,
-      "grad_norm": 0.630582765660151,
-      "learning_rate": 9.939452940908627e-06,
-      "loss": 0.1835,
-      "mean_token_accuracy": 0.939194567501545,
       "num_tokens": 1701134.0,
       "step": 26
     },
     {
       "epoch": 0.5397590361445783,
-      "grad_norm": 0.6225933778125143,
-      "learning_rate": 9.917648915433413e-06,
-      "loss": 0.1815,
-      "mean_token_accuracy": 0.9395865201950073,
       "num_tokens": 1832133.0,
       "step": 28
     },
     {
       "epoch": 0.5783132530120482,
-      "grad_norm": 0.5894844338892736,
-      "learning_rate": 9.892530053338909e-06,
-      "loss": 0.19,
-      "mean_token_accuracy": 0.9367748685181141,
       "num_tokens": 1963205.0,
       "step": 30
     },
     {
       "epoch": 0.6168674698795181,
-      "grad_norm": 0.5961481326657901,
-      "learning_rate": 9.864113286481237e-06,
-      "loss": 0.1818,
-      "mean_token_accuracy": 0.940141074359417,
       "num_tokens": 2094277.0,
       "step": 32
     },
     {
       "epoch": 0.655421686746988,
-      "grad_norm": 0.6661943256583603,
-      "learning_rate": 9.832417769733185e-06,
-      "loss": 0.1816,
-      "mean_token_accuracy": 0.9397670514881611,
       "num_tokens": 2225349.0,
       "step": 34
     },
     {
       "epoch": 0.6939759036144578,
-      "grad_norm": 0.5553420813627787,
-      "learning_rate": 9.797464868072489e-06,
-      "loss": 0.1827,
-      "mean_token_accuracy": 0.9393003061413765,
       "num_tokens": 2355263.0,
       "step": 36
     },
     {
       "epoch": 0.7325301204819277,
-      "grad_norm": 32.92043661735329,
-      "learning_rate": 9.759278142180348e-06,
-      "loss": 0.2111,
-      "mean_token_accuracy": 0.9326835125684738,
       "num_tokens": 2486335.0,
       "step": 38
     },
     {
       "epoch": 0.7710843373493976,
-      "grad_norm": 0.6431446641342233,
-      "learning_rate": 9.717883332559911e-06,
-      "loss": 0.1751,
-      "mean_token_accuracy": 0.9413776397705078,
       "num_tokens": 2617407.0,
       "step": 40
     },
     {
       "epoch": 0.7710843373493976,
-      "eval_loss": 0.3249877095222473,
-      "eval_mean_token_accuracy": 0.9019412114241413,
       "eval_num_tokens": 2617407.0,
-      "eval_runtime": 69.6759,
-      "eval_samples_per_second": 12.271,
       "eval_steps_per_second": 1.536,
       "step": 40
     },
     {
       "epoch": 0.8096385542168675,
-      "grad_norm": 0.6295006274836726,
-      "learning_rate": 9.673308342185366e-06,
-      "loss": 0.1758,
-      "mean_token_accuracy": 0.9410570487380028,
       "num_tokens": 2748479.0,
       "step": 42
     },
     {
       "epoch": 0.8481927710843373,
-      "grad_norm": 0.6463634329636155,
-      "learning_rate": 9.625583217693419e-06,
-      "loss": 0.1852,
-      "mean_token_accuracy": 0.9372252225875854,
       "num_tokens": 2879551.0,
       "step": 44
     },
     {
       "epoch": 0.8867469879518072,
-      "grad_norm": 0.6060328826450527,
-      "learning_rate": 9.574740129129767e-06,
-      "loss": 0.1785,
-      "mean_token_accuracy": 0.940302312374115,
       "num_tokens": 3010185.0,
       "step": 46
     },
     {
       "epoch": 0.9253012048192771,
-      "grad_norm": 0.5780214961275311,
-      "learning_rate": 9.520813348264252e-06,
-      "loss": 0.1876,
-      "mean_token_accuracy": 0.9373778849840164,
       "num_tokens": 3141257.0,
       "step": 48
     },
     {
       "epoch": 0.963855421686747,
-      "grad_norm": 0.5827155602222767,
-      "learning_rate": 9.46383922548932e-06,
-      "loss": 0.1821,
-      "mean_token_accuracy": 0.9392147175967693,
       "num_tokens": 3271788.0,
       "step": 50
     },
     {
       "epoch": 1.0192771084337349,
-      "grad_norm": 0.9342011171038088,
-      "learning_rate": 9.403856165317322e-06,
-      "loss": 0.2506,
-      "mean_token_accuracy": 0.9448522359132767,
       "num_tokens": 3435628.0,
       "step": 52
     },
     {
       "epoch": 1.0578313253012048,
-      "grad_norm": 0.704578477475784,
-      "learning_rate": 9.34090460049322e-06,
-      "loss": 0.1469,
-      "mean_token_accuracy": 0.9520105756819248,
       "num_tokens": 3566700.0,
       "step": 54
     },
     {
       "epoch": 1.0963855421686748,
-      "grad_norm": 0.6346717783932901,
-      "learning_rate": 9.275026964740101e-06,
-      "loss": 0.1398,
-      "mean_token_accuracy": 0.9541020505130291,
       "num_tokens": 3697772.0,
       "step": 56
     },
     {
       "epoch": 1.1349397590361445,
-      "grad_norm": 0.6428670080495259,
-      "learning_rate": 9.206267664155906e-06,
-      "loss": 0.1456,
-      "mean_token_accuracy": 0.951331228017807,
       "num_tokens": 3828844.0,
       "step": 58
     },
     {
       "epoch": 1.1734939759036145,
-      "grad_norm": 0.8091470665632142,
-      "learning_rate": 9.134673047280644e-06,
-      "loss": 0.1443,
-      "mean_token_accuracy": 0.9527967870235443,
       "num_tokens": 3959916.0,
       "step": 60
     },
     {
       "epoch": 1.1734939759036145,
-      "eval_loss": 0.35964083671569824,
-      "eval_mean_token_accuracy": 0.9007457895813701,
       "eval_num_tokens": 3959916.0,
-      "eval_runtime": 69.862,
-      "eval_samples_per_second": 12.238,
       "eval_steps_per_second": 1.532,
       "step": 60
     },
     {
       "epoch": 1.2120481927710842,
-      "grad_norm": 0.6832260425200906,
-      "learning_rate": 9.060291373854252e-06,
-      "loss": 0.1373,
-      "mean_token_accuracy": 0.9543332494795322,
       "num_tokens": 4089879.0,
       "step": 62
     },
     {
       "epoch": 1.2506024096385542,
-      "grad_norm": 0.6250669964271302,
-      "learning_rate": 8.98317278228618e-06,
-      "loss": 0.1321,
-      "mean_token_accuracy": 0.9564301520586014,
       "num_tokens": 4220951.0,
       "step": 64
     },
     {
       "epoch": 1.2891566265060241,
-      "grad_norm": 0.6305219631459404,
-      "learning_rate": 8.90336925585864e-06,
-      "loss": 0.1489,
-      "mean_token_accuracy": 0.9517128840088844,
       "num_tokens": 4352023.0,
       "step": 66
     },
     {
       "epoch": 1.3277108433734939,
-      "grad_norm": 0.6841999502708318,
-      "learning_rate": 8.820934587686247e-06,
-      "loss": 0.1529,
-      "mean_token_accuracy": 0.9492626525461674,
       "num_tokens": 4483095.0,
       "step": 68
     },
     {
       "epoch": 1.3662650602409638,
-      "grad_norm": 0.6276577378608187,
-      "learning_rate": 8.735924344455732e-06,
-      "loss": 0.1385,
-      "mean_token_accuracy": 0.9543463103473186,
       "num_tokens": 4614167.0,
       "step": 70
     },
     {
       "epoch": 1.4048192771084338,
-      "grad_norm": 0.6218471880996238,
-      "learning_rate": 8.64839582897015e-06,
-      "loss": 0.1393,
-      "mean_token_accuracy": 0.9541173167526722,
       "num_tokens": 4745239.0,
       "step": 72
     },
     {
       "epoch": 1.4433734939759035,
-      "grad_norm": 0.6120450655890222,
-      "learning_rate": 8.558408041522801e-06,
-      "loss": 0.1384,
-      "mean_token_accuracy": 0.9534379690885544,
       "num_tokens": 4876311.0,
       "step": 74
     },
     {
       "epoch": 1.4819277108433735,
-      "grad_norm": 0.6447124346757005,
-      "learning_rate": 8.466021640126946e-06,
-      "loss": 0.1358,
-      "mean_token_accuracy": 0.9546592682600021,
       "num_tokens": 5007383.0,
       "step": 76
     },
     {
       "epoch": 1.5204819277108435,
-      "grad_norm": 0.6318066424629517,
-      "learning_rate": 8.371298899628091e-06,
-      "loss": 0.1507,
-      "mean_token_accuracy": 0.950941938906908,
       "num_tokens": 5138455.0,
       "step": 78
     },
     {
       "epoch": 1.5590361445783132,
-      "grad_norm": 0.6610045275388146,
-      "learning_rate": 8.274303669726427e-06,
-      "loss": 0.1433,
-      "mean_token_accuracy": 0.9530486799776554,
       "num_tokens": 5269527.0,
       "step": 80
     },
     {
       "epoch": 1.5590361445783132,
-      "eval_loss": 0.34594476222991943,
-      "eval_mean_token_accuracy": 0.9009478883208516,
       "eval_num_tokens": 5269527.0,
-      "eval_runtime": 69.6764,
-      "eval_samples_per_second": 12.271,
       "eval_steps_per_second": 1.536,
       "step": 80
     },
     {
       "epoch": 1.5975903614457831,
-      "grad_norm": 0.5753891679678019,
-      "learning_rate": 8.175101331937692e-06,
-      "loss": 0.1404,
-      "mean_token_accuracy": 0.9533847123384476,
       "num_tokens": 5400161.0,
       "step": 82
     },
     {
       "epoch": 1.636144578313253,
-      "grad_norm": 0.5509379887731481,
-      "learning_rate": 8.073758755521506e-06,
-      "loss": 0.145,
-      "mean_token_accuracy": 0.9521632380783558,
       "num_tokens": 5531233.0,
       "step": 84
     },
     {
       "epoch": 1.6746987951807228,
-      "grad_norm": 0.6885182433226127,
-      "learning_rate": 7.970344252406832e-06,
-      "loss": 0.1528,
-      "mean_token_accuracy": 0.9493084512650967,
       "num_tokens": 5662305.0,
       "step": 86
     },
     {
       "epoch": 1.7132530120481928,
-      "grad_norm": 0.6297519017429533,
-      "learning_rate": 7.864927531145012e-06,
-      "loss": 0.1316,
-      "mean_token_accuracy": 0.9559161737561226,
       "num_tokens": 5792219.0,
       "step": 88
     },
     {
       "epoch": 1.7518072289156628,
-      "grad_norm": 0.561550567385262,
-      "learning_rate": 7.757579649921354e-06,
-      "loss": 0.1428,
-      "mean_token_accuracy": 0.9523311667144299,
       "num_tokens": 5923291.0,
       "step": 90
     },
     {
       "epoch": 1.7903614457831325,
-      "grad_norm": 0.6644550404207953,
-      "learning_rate": 7.648372968656995e-06,
-      "loss": 0.1501,
-      "mean_token_accuracy": 0.9510430619120598,
       "num_tokens": 6053822.0,
       "step": 92
     },
     {
       "epoch": 1.8289156626506025,
-      "grad_norm": 0.9843503664159776,
-      "learning_rate": 7.5373811002332785e-06,
-      "loss": 0.144,
-      "mean_token_accuracy": 0.951483890414238,
       "num_tokens": 6184894.0,
       "step": 94
     },
     {
       "epoch": 1.8674698795180724,
-      "grad_norm": 0.5903343417311625,
-      "learning_rate": 7.424678860871584e-06,
-      "loss": 0.151,
-      "mean_token_accuracy": 0.9494382441043854,
       "num_tokens": 6315149.0,
       "step": 96
     },
     {
       "epoch": 1.9060240963855422,
-      "grad_norm": 0.5907430095754442,
-      "learning_rate": 7.310342219701981e-06,
-      "loss": 0.1387,
-      "mean_token_accuracy": 0.9540838934481144,
       "num_tokens": 6445345.0,
       "step": 98
     },
     {
       "epoch": 1.944578313253012,
-      "grad_norm": 0.6208604074228016,
-      "learning_rate": 7.19444824755478e-06,
-      "loss": 0.14,
-      "mean_token_accuracy": 0.9524588361382484,
       "num_tokens": 6576344.0,
       "step": 100
     },
     {
       "epoch": 1.944578313253012,
-      "eval_loss": 0.3435918688774109,
-      "eval_mean_token_accuracy": 0.9010296330273708,
       "eval_num_tokens": 6576344.0,
-      "eval_runtime": 69.7068,
-      "eval_samples_per_second": 12.266,
-      "eval_steps_per_second": 1.535,
       "step": 100
     },
     {
       "epoch": 1.983132530120482,
-      "grad_norm": 0.622234817214251,
-      "learning_rate": 7.0770750650094335e-06,
-      "loss": 0.1467,
-      "mean_token_accuracy": 0.9509495720267296,
       "num_tokens": 6707416.0,
       "step": 102
     },
     {
       "epoch": 2.0385542168674697,
-      "grad_norm": 0.6076186741247155,
-      "learning_rate": 6.958301789735853e-06,
-      "loss": 0.1728,
-      "mean_token_accuracy": 0.9648021578788757,
       "num_tokens": 6871256.0,
       "step": 104
     },
     {
       "epoch": 2.07710843373494,
-      "grad_norm": 0.5962392778723037,
-      "learning_rate": 6.838208483163601e-06,
-      "loss": 0.1072,
-      "mean_token_accuracy": 0.9662502221763134,
       "num_tokens": 7002255.0,
       "step": 106
     },
     {
       "epoch": 2.1156626506024097,
-      "grad_norm": 0.6146925265036353,
-      "learning_rate": 6.716876096514944e-06,
-      "loss": 0.107,
-      "mean_token_accuracy": 0.9663150422275066,
       "num_tokens": 7133327.0,
       "step": 108
     },
     {
       "epoch": 2.1542168674698794,
-      "grad_norm": 0.5878685827878811,
-      "learning_rate": 6.594386416238095e-06,
-      "loss": 0.1066,
-      "mean_token_accuracy": 0.9652048833668232,
       "num_tokens": 7263523.0,
       "step": 110
     },
     {
       "epoch": 2.1927710843373496,
-      "grad_norm": 0.6074328881642814,
-      "learning_rate": 6.470822008877482e-06,
-      "loss": 0.1029,
-      "mean_token_accuracy": 0.9668646268546581,
       "num_tokens": 7394595.0,
       "step": 112
     },
     {
       "epoch": 2.2313253012048193,
-      "grad_norm": 0.7137977824767872,
-      "learning_rate": 6.346266165418173e-06,
-      "loss": 0.1028,
-      "mean_token_accuracy": 0.9666585326194763,
       "num_tokens": 7525667.0,
       "step": 114
     },
     {
       "epoch": 2.269879518072289,
-      "grad_norm": 0.5894226672362628,
-      "learning_rate": 6.2208028451419575e-06,
-      "loss": 0.111,
-      "mean_token_accuracy": 0.9638800770044327,
       "num_tokens": 7656739.0,
       "step": 116
     },
     {
       "epoch": 2.3084337349397592,
-      "grad_norm": 0.6184779986012526,
-      "learning_rate": 6.094516619032975e-06,
-      "loss": 0.1036,
-      "mean_token_accuracy": 0.9668951593339443,
       "num_tokens": 7787811.0,
       "step": 118
     },
     {
       "epoch": 2.346987951807229,
-      "grad_norm": 0.6253267998013609,
-      "learning_rate": 5.967492612770999e-06,
-      "loss": 0.1156,
-      "mean_token_accuracy": 0.9622229151427746,
       "num_tokens": 7916616.0,
       "step": 120
     },
     {
       "epoch": 2.346987951807229,
-      "eval_loss": 0.38264763355255127,
-      "eval_mean_token_accuracy": 0.8993682889180763,
       "eval_num_tokens": 7916616.0,
-      "eval_runtime": 69.7137,
-      "eval_samples_per_second": 12.264,
-      "eval_steps_per_second": 1.535,
       "step": 120
     },
     {
       "epoch": 2.3855421686746987,
-      "grad_norm": 0.5808338051377092,
-      "learning_rate": 5.839816449350824e-06,
-      "loss": 0.096,
-      "mean_token_accuracy": 0.9689866341650486,
       "num_tokens": 8047688.0,
       "step": 122
     },
     {
       "epoch": 2.4240963855421684,
-      "grad_norm": 0.6319642719991769,
-      "learning_rate": 5.711574191366427e-06,
-      "loss": 0.1064,
-      "mean_token_accuracy": 0.9659181199967861,
       "num_tokens": 8178760.0,
       "step": 124
     },
     {
       "epoch": 2.4626506024096386,
-      "grad_norm": 0.6159005696450227,
-      "learning_rate": 5.5828522829987965e-06,
-      "loss": 0.1124,
-      "mean_token_accuracy": 0.9639564082026482,
       "num_tokens": 8309832.0,
       "step": 126
     },
     {
       "epoch": 2.5012048192771084,
-      "grad_norm": 0.5961087714027195,
-      "learning_rate": 5.453737491746572e-06,
-      "loss": 0.1027,
-      "mean_token_accuracy": 0.9668798930943012,
       "num_tokens": 8440904.0,
       "step": 128
     },
     {
       "epoch": 2.539759036144578,
-      "grad_norm": 0.6095611549299057,
-      "learning_rate": 5.324316849938715e-06,
-      "loss": 0.1053,
-      "mean_token_accuracy": 0.965734925121069,
       "num_tokens": 8571976.0,
       "step": 130
     },
     {
       "epoch": 2.5783132530120483,
-      "grad_norm": 0.5508938269425927,
-      "learning_rate": 5.194677596068689e-06,
-      "loss": 0.1078,
-      "mean_token_accuracy": 0.9649029150605202,
       "num_tokens": 8703048.0,
       "step": 132
     },
     {
       "epoch": 2.616867469879518,
-      "grad_norm": 0.5459171806933576,
-      "learning_rate": 5.064907115989655e-06,
-      "loss": 0.1061,
-      "mean_token_accuracy": 0.9655211977660656,
       "num_tokens": 8834120.0,
       "step": 134
     },
     {
       "epoch": 2.6554216867469878,
-      "grad_norm": 0.5700055233131458,
-      "learning_rate": 4.935092884010347e-06,
-      "loss": 0.1132,
-      "mean_token_accuracy": 0.9629833847284317,
       "num_tokens": 8964375.0,
       "step": 136
     },
     {
       "epoch": 2.693975903614458,
-      "grad_norm": 0.5624039262809987,
-      "learning_rate": 4.805322403931312e-06,
-      "loss": 0.1033,
-      "mean_token_accuracy": 0.966806173324585,
       "num_tokens": 9094906.0,
       "step": 138
     },
     {
       "epoch": 2.7325301204819277,
-      "grad_norm": 0.5859071114828392,
-      "learning_rate": 4.6756831500612846e-06,
-      "loss": 0.1055,
-      "mean_token_accuracy": 0.9653303697705269,
       "num_tokens": 9225978.0,
       "step": 140
     },
     {
       "epoch": 2.7325301204819277,
-      "eval_loss": 0.38171321153640747,
-      "eval_mean_token_accuracy": 0.8996138817796083,
       "eval_num_tokens": 9225978.0,
-      "eval_runtime": 69.6997,
-      "eval_samples_per_second": 12.267,
-      "eval_steps_per_second": 1.535,
       "step": 140
     },
     {
       "epoch": 2.7710843373493974,
-      "grad_norm": 0.6722991310212527,
-      "learning_rate": 4.546262508253429e-06,
-      "loss": 0.1021,
-      "mean_token_accuracy": 0.9667806625366211,
       "num_tokens": 9357050.0,
       "step": 142
     },
     {
       "epoch": 2.8096385542168676,
-      "grad_norm": 0.6406013030976072,
-      "learning_rate": 4.417147717001205e-06,
-      "loss": 0.1135,
-      "mean_token_accuracy": 0.9634297229349613,
       "num_tokens": 9488122.0,
       "step": 144
     },
     {
       "epoch": 2.8481927710843373,
-      "grad_norm": 0.5462219273577149,
-      "learning_rate": 4.2884258086335755e-06,
-      "loss": 0.1084,
-      "mean_token_accuracy": 0.9645517915487289,
       "num_tokens": 9619194.0,
       "step": 146
     },
     {
       "epoch": 2.886746987951807,
-      "grad_norm": 0.6163829542440136,
-      "learning_rate": 4.160183550649176e-06,
-      "loss": 0.1136,
-      "mean_token_accuracy": 0.963452622294426,
       "num_tokens": 9750266.0,
       "step": 148
     },
     {
       "epoch": 2.9253012048192772,
-      "grad_norm": 0.5303018809042978,
-      "learning_rate": 4.032507387229002e-06,
-      "loss": 0.1027,
-      "mean_token_accuracy": 0.9666890650987625,
       "num_tokens": 9881338.0,
       "step": 150
     },
     {
       "epoch": 2.963855421686747,
-      "grad_norm": 0.5435012633400901,
-      "learning_rate": 3.905483380967027e-06,
-      "loss": 0.1034,
-      "mean_token_accuracy": 0.9660157673060894,
       "num_tokens": 10011972.0,
       "step": 152
     },
     {
       "epoch": 3.019277108433735,
-      "grad_norm": 0.9816680723651049,
-      "learning_rate": 3.779197154858044e-06,
-      "loss": 0.1457,
-      "mean_token_accuracy": 0.9704201340675354,
       "num_tokens": 10175812.0,
       "step": 154
     },
     {
       "epoch": 3.057831325301205,
-      "grad_norm": 0.613237465904118,
-      "learning_rate": 3.6537338345818273e-06,
-      "loss": 0.0837,
-      "mean_token_accuracy": 0.97471147403121,
       "num_tokens": 10306884.0,
       "step": 156
     },
     {
       "epoch": 3.0963855421686746,
-      "grad_norm": 0.5444415226957525,
-      "learning_rate": 3.529177991122519e-06,
-      "loss": 0.0833,
-      "mean_token_accuracy": 0.9740656353533268,
       "num_tokens": 10437883.0,
       "step": 158
     },
     {
       "epoch": 3.1349397590361447,
-      "grad_norm": 0.5037775641719325,
-      "learning_rate": 3.4056135837619077e-06,
-      "loss": 0.0808,
-      "mean_token_accuracy": 0.9754060879349709,
       "num_tokens": 10568955.0,
       "step": 160
     },
     {
       "epoch": 3.1349397590361447,
-      "eval_loss": 0.4214092493057251,
-      "eval_mean_token_accuracy": 0.8985673874338097,
       "eval_num_tokens": 10568955.0,
-      "eval_runtime": 69.9377,
-      "eval_samples_per_second": 12.225,
-      "eval_steps_per_second": 1.53,
       "step": 160
     },
     {
       "epoch": 3.1734939759036145,
-      "grad_norm": 0.5101646067201494,
-      "learning_rate": 3.2831239034850593e-06,
-      "loss": 0.0836,
-      "mean_token_accuracy": 0.974490113556385,
       "num_tokens": 10700027.0,
       "step": 162
     },
     {
       "epoch": 3.212048192771084,
-      "grad_norm": 0.513538637831937,
-      "learning_rate": 3.1617915168363994e-06,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9749175682663918,
       "num_tokens": 10831099.0,
       "step": 164
     },
     {
       "epoch": 3.2506024096385544,
-      "grad_norm": 0.6172273027962087,
-      "learning_rate": 3.041698210264149e-06,
-      "loss": 0.0846,
-      "mean_token_accuracy": 0.9737649671733379,
       "num_tokens": 10962171.0,
       "step": 166
     },
     {
       "epoch": 3.289156626506024,
-      "grad_norm": 0.598237570073578,
-      "learning_rate": 2.9229249349905686e-06,
-      "loss": 0.0822,
-      "mean_token_accuracy": 0.9747206009924412,
       "num_tokens": 11092367.0,
       "step": 168
     },
     {
       "epoch": 3.327710843373494,
-      "grad_norm": 0.5468187405423223,
-      "learning_rate": 2.805551752445222e-06,
-      "loss": 0.0741,
-      "mean_token_accuracy": 0.9763831272721291,
       "num_tokens": 11223439.0,
       "step": 170
     },
     {
       "epoch": 3.3662650602409636,
-      "grad_norm": 0.5360576538075228,
-      "learning_rate": 2.689657780298019e-06,
-      "loss": 0.0845,
-      "mean_token_accuracy": 0.9735130742192268,
       "num_tokens": 11354511.0,
       "step": 172
     },
     {
       "epoch": 3.404819277108434,
-      "grad_norm": 0.553617670290852,
-      "learning_rate": 2.5753211391284172e-06,
-      "loss": 0.0909,
-      "mean_token_accuracy": 0.9720780476927757,
       "num_tokens": 11485583.0,
       "step": 174
     },
     {
       "epoch": 3.4433734939759035,
-      "grad_norm": 0.5270914482632371,
-      "learning_rate": 2.4626188997667224e-06,
-      "loss": 0.0785,
-      "mean_token_accuracy": 0.9754440970718861,
       "num_tokens": 11616217.0,
       "step": 176
     },
     {
       "epoch": 3.4819277108433733,
-      "grad_norm": 0.5812147686235462,
-      "learning_rate": 2.3516270313430085e-06,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9763373285531998,
       "num_tokens": 11747289.0,
       "step": 178
     },
     {
       "epoch": 3.5204819277108435,
-      "grad_norm": 0.5745069078285343,
-      "learning_rate": 2.2424203500786473e-06,
       "loss": 0.0777,
-      "mean_token_accuracy": 0.9760472699999809,
       "num_tokens": 11878361.0,
       "step": 180
     },
     {
       "epoch": 3.5204819277108435,
-      "eval_loss": 0.434172123670578,
-      "eval_mean_token_accuracy": 0.8980075516433359,
       "eval_num_tokens": 11878361.0,
-      "eval_runtime": 69.6978,
-      "eval_samples_per_second": 12.267,
-      "eval_steps_per_second": 1.535,
       "step": 180
     },
     {
       "epoch": 3.559036144578313,
-      "grad_norm": 0.5256822014984209,
-      "learning_rate": 2.1350724688549906e-06,
-      "loss": 0.0799,
-      "mean_token_accuracy": 0.9748259708285332,
       "num_tokens": 12009433.0,
       "step": 182
     },
     {
       "epoch": 3.597590361445783,
-      "grad_norm": 0.5162737081731001,
-      "learning_rate": 2.029655747593169e-06,
-      "loss": 0.0853,
-      "mean_token_accuracy": 0.9729176908731461,
       "num_tokens": 12140505.0,
       "step": 184
     },
     {
       "epoch": 3.636144578313253,
-      "grad_norm": 0.5160106591794058,
-      "learning_rate": 1.926241244478496e-06,
-      "loss": 0.08,
-      "mean_token_accuracy": 0.975032065063715,
       "num_tokens": 12271577.0,
       "step": 186
     },
     {
       "epoch": 3.674698795180723,
-      "grad_norm": 0.5536351679795151,
-      "learning_rate": 1.8248986680623077e-06,
-      "loss": 0.0826,
-      "mean_token_accuracy": 0.973932895809412,
       "num_tokens": 12402649.0,
       "step": 188
     },
     {
       "epoch": 3.7132530120481926,
-      "grad_norm": 0.524697340208831,
-      "learning_rate": 1.7256963302735752e-06,
-      "loss": 0.0861,
-      "mean_token_accuracy": 0.973070353269577,
       "num_tokens": 12533721.0,
       "step": 190
     },
     {
       "epoch": 3.7518072289156628,
-      "grad_norm": 0.5391119770045195,
-      "learning_rate": 1.6287011003719105e-06,
-      "loss": 0.0845,
-      "mean_token_accuracy": 0.9731407649815083,
       "num_tokens": 12663435.0,
       "step": 192
     },
     {
       "epoch": 3.7903614457831325,
-      "grad_norm": 0.5377909222832687,
-      "learning_rate": 1.5339783598730568e-06,
-      "loss": 0.0765,
-      "mean_token_accuracy": 0.9760778024792671,
       "num_tokens": 12794507.0,
       "step": 194
     },
     {
       "epoch": 3.8289156626506022,
-      "grad_norm": 0.5713118205205915,
-      "learning_rate": 1.4415919584771999e-06,
-      "loss": 0.0843,
-      "mean_token_accuracy": 0.9733833111822605,
       "num_tokens": 12925579.0,
       "step": 196
     },
     {
       "epoch": 3.8674698795180724,
-      "grad_norm": 0.5356073069528993,
-      "learning_rate": 1.35160417102985e-06,
-      "loss": 0.0808,
-      "mean_token_accuracy": 0.9754137210547924,
       "num_tokens": 13056651.0,
       "step": 198
     },
     {
       "epoch": 3.906024096385542,
-      "grad_norm": 0.5286524017708772,
-      "learning_rate": 1.2640756555442684e-06,
-      "loss": 0.0818,
-      "mean_token_accuracy": 0.9743756167590618,
       "num_tokens": 13187723.0,
       "step": 200
     },
     {
       "epoch": 3.906024096385542,
-      "eval_loss": 0.436479389667511,
-      "eval_mean_token_accuracy": 0.8978864634148428,
       "eval_num_tokens": 13187723.0,
-      "eval_runtime": 69.707,
-      "eval_samples_per_second": 12.266,
-      "eval_steps_per_second": 1.535,
       "step": 200
     },
     {
       "epoch": 3.944578313253012,
-      "grad_norm": 0.5493055348438105,
-      "learning_rate": 1.1790654123137552e-06,
-      "loss": 0.0838,
-      "mean_token_accuracy": 0.9733658656477928,
       "num_tokens": 13317686.0,
       "step": 202
     },
     {
       "epoch": 3.983132530120482,
-      "grad_norm": 0.5079057943600861,
-      "learning_rate": 1.0966307441413598e-06,
-      "loss": 0.0777,
-      "mean_token_accuracy": 0.9752789959311485,
       "num_tokens": 13447600.0,
       "step": 204
     },
     {
       "epoch": 4.03855421686747,
-      "grad_norm": 0.48888783353685356,
-      "learning_rate": 1.01682721771382e-06,
-      "loss": 0.1076,
-      "mean_token_accuracy": 0.978389111161232,
       "num_tokens": 13611440.0,
       "step": 206
     },
     {
       "epoch": 4.0771084337349395,
-      "grad_norm": 0.501089775240556,
-      "learning_rate": 9.397086261457511e-07,
-      "loss": 0.068,
-      "mean_token_accuracy": 0.9800592921674252,
       "num_tokens": 13740537.0,
       "step": 208
     },
     {
       "epoch": 4.11566265060241,
-      "grad_norm": 0.48538593277097636,
-      "learning_rate": 8.65326952719357e-07,
-      "loss": 0.0725,
-      "mean_token_accuracy": 0.97826087474823,
       "num_tokens": 13871609.0,
       "step": 210
     },
     {
       "epoch": 4.15421686746988,
-      "grad_norm": 0.4434876328787144,
-      "learning_rate": 7.937323358440935e-07,
-      "loss": 0.0736,
-      "mean_token_accuracy": 0.9777952544391155,
       "num_tokens": 14002681.0,
       "step": 212
     },
     {
       "epoch": 4.192771084337349,
-      "grad_norm": 0.4774125338338672,
-      "learning_rate": 7.249730352599e-07,
-      "loss": 0.0757,
-      "mean_token_accuracy": 0.9774899296462536,
       "num_tokens": 14133753.0,
       "step": 214
     },
     {
       "epoch": 4.231325301204819,
-      "grad_norm": 0.4885171753944554,
-      "learning_rate": 6.590953995067812e-07,
-      "loss": 0.0706,
-      "mean_token_accuracy": 0.9788230285048485,
       "num_tokens": 14264314.0,
       "step": 216
     },
     {
       "epoch": 4.2698795180722895,
-      "grad_norm": 0.43295382737919863,
-      "learning_rate": 5.961438346826792e-07,
-      "loss": 0.0671,
-      "mean_token_accuracy": 0.9799401611089706,
       "num_tokens": 14395386.0,
       "step": 218
     },
     {
       "epoch": 4.308433734939759,
-      "grad_norm": 0.44853208185927035,
-      "learning_rate": 5.361607745106817e-07,
-      "loss": 0.0709,
-      "mean_token_accuracy": 0.9785433001816273,
       "num_tokens": 14526458.0,
       "step": 220
     },
     {
       "epoch": 4.308433734939759,
-      "eval_loss": 0.4599273204803467,
-      "eval_mean_token_accuracy": 0.8972330873257646,
       "eval_num_tokens": 14526458.0,
-      "eval_runtime": 69.7106,
-      "eval_samples_per_second": 12.265,
-      "eval_steps_per_second": 1.535,
       "step": 220
     },
     {
       "epoch": 4.346987951807229,
-      "grad_norm": 0.47608905203927504,
-      "learning_rate": 4.791866517357491e-07,
-      "loss": 0.0689,
-      "mean_token_accuracy": 0.9793831780552864,
       "num_tokens": 14656421.0,
       "step": 222
     },
     {
       "epoch": 4.385542168674699,
-      "grad_norm": 0.44038761142354355,
-      "learning_rate": 4.2525987087023433e-07,
-      "loss": 0.0676,
-      "mean_token_accuracy": 0.9797569662332535,
       "num_tokens": 14787493.0,
       "step": 224
     },
     {
       "epoch": 4.424096385542168,
-      "grad_norm": 0.45920050524546036,
-      "learning_rate": 3.744167823065814e-07,
-      "loss": 0.0662,
-      "mean_token_accuracy": 0.9802683852612972,
       "num_tokens": 14918565.0,
       "step": 226
     },
     {
       "epoch": 4.462650602409639,
-      "grad_norm": 0.47097840934998153,
-      "learning_rate": 3.26691657814634e-07,
-      "loss": 0.0682,
-      "mean_token_accuracy": 0.979138683527708,
       "num_tokens": 15049637.0,
       "step": 228
     },
     {
       "epoch": 4.501204819277109,
-      "grad_norm": 0.5013631017535977,
-      "learning_rate": 2.821166674400905e-07,
-      "loss": 0.071,
-      "mean_token_accuracy": 0.9781845435500145,
       "num_tokens": 15180709.0,
       "step": 230
     },
     {
       "epoch": 4.539759036144578,
-      "grad_norm": 0.4623396825811124,
-      "learning_rate": 2.407218578196524e-07,
-      "loss": 0.0702,
-      "mean_token_accuracy": 0.9783219397068024,
       "num_tokens": 15311781.0,
       "step": 232
     },
     {
       "epoch": 4.578313253012048,
-      "grad_norm": 0.4902395855979876,
-      "learning_rate": 2.0253513192751374e-07,
-      "loss": 0.0664,
-      "mean_token_accuracy": 0.9796730019152164,
       "num_tokens": 15442853.0,
       "step": 234
     },
     {
       "epoch": 4.6168674698795185,
-      "grad_norm": 0.5039049018398478,
-      "learning_rate": 1.6758223026681507e-07,
-      "loss": 0.0798,
-      "mean_token_accuracy": 0.9753297567367554,
       "num_tokens": 15573925.0,
       "step": 236
     },
     {
       "epoch": 4.655421686746988,
-      "grad_norm": 0.46061650797882114,
-      "learning_rate": 1.358867135187636e-07,
-      "loss": 0.0724,
-      "mean_token_accuracy": 0.9777494557201862,
       "num_tokens": 15704997.0,
       "step": 238
     },
     {
       "epoch": 4.693975903614458,
-      "grad_norm": 0.4625716914461487,
-      "learning_rate": 1.0746994666109234e-07,
-      "loss": 0.0669,
-      "mean_token_accuracy": 0.9799096286296844,
       "num_tokens": 15836069.0,
       "step": 240
     },
     {
       "epoch": 4.693975903614458,
-      "eval_loss": 0.46857714653015137,
-      "eval_mean_token_accuracy": 0.8969991552495511,
       "eval_num_tokens": 15836069.0,
-      "eval_runtime": 69.7554,
-      "eval_samples_per_second": 12.257,
-      "eval_steps_per_second": 1.534,
       "step": 240
     },
     {
       "epoch": 4.732530120481927,
-      "grad_norm": 0.4944699774543825,
-      "learning_rate": 8.235108456658814e-08,
-      "loss": 0.078,
-      "mean_token_accuracy": 0.9763373285531998,
       "num_tokens": 15967141.0,
       "step": 242
     },
     {
       "epoch": 4.771084337349397,
-      "grad_norm": 0.44131491699880177,
-      "learning_rate": 6.054705909137426e-08,
-      "loss": 0.064,
-      "mean_token_accuracy": 0.9806805737316608,
       "num_tokens": 16098213.0,
       "step": 244
     },
     {
       "epoch": 4.809638554216868,
-      "grad_norm": 0.4628370285868946,
-      "learning_rate": 4.207256766166845e-08,
-      "loss": 0.0695,
-      "mean_token_accuracy": 0.9792837128043175,
       "num_tokens": 16229285.0,
       "step": 246
     },
     {
       "epoch": 4.848192771084337,
-      "grad_norm": 0.5090336786908616,
-      "learning_rate": 2.6940063366693303e-08,
-      "loss": 0.0702,
-      "mean_token_accuracy": 0.9789783880114555,
       "num_tokens": 16360357.0,
       "step": 248
     },
     {
       "epoch": 4.886746987951807,
-      "grad_norm": 0.4552845063798719,
-      "learning_rate": 1.51597465644332e-08,
-      "loss": 0.0664,
-      "mean_token_accuracy": 0.9799019955098629,
       "num_tokens": 16491429.0,
       "step": 250
     },
     {
       "epoch": 4.925301204819277,
-      "grad_norm": 0.456376642155954,
-      "learning_rate": 6.739558005884883e-09,
-      "loss": 0.0656,
-      "mean_token_accuracy": 0.9802608676254749,
       "num_tokens": 16621960.0,
       "step": 252
     },
     {
       "epoch": 4.9638554216867465,
-      "grad_norm": 0.4501859344400936,
-      "learning_rate": 1.6851734824380184e-09,
-      "loss": 0.0698,
-      "mean_token_accuracy": 0.9787566177546978,
       "num_tokens": 16752156.0,
       "step": 254
     },
     {
       "epoch": 4.983132530120482,
-      "mean_token_accuracy": 0.9759251400828362,
       "num_tokens": 16817692.0,
       "step": 255,
       "total_flos": 24409842647040.0,
-      "train_loss": 0.12131776079243305,
-      "train_runtime": 3783.5615,
       "train_samples_per_second": 2.194,
       "train_steps_per_second": 0.067
     }

   "log_history": [
     {
       "epoch": 0.03855421686746988,
+      "grad_norm": 2.0457221564142256,
+      "learning_rate": 3.846153846153847e-07,
       "loss": 0.2354,
       "mean_token_accuracy": 0.930065356194973,
       "num_tokens": 131072.0,
     },
     {
       "epoch": 0.07710843373493977,
+      "grad_norm": 2.1086974646270145,
+      "learning_rate": 1.153846153846154e-06,
+      "loss": 0.2508,
+      "mean_token_accuracy": 0.9255465492606163,
       "num_tokens": 262144.0,
       "step": 4
     },
     {
       "epoch": 0.11566265060240964,
+      "grad_norm": 1.698182282959437,
+      "learning_rate": 1.9230769230769234e-06,
+      "loss": 0.2473,
+      "mean_token_accuracy": 0.9256381466984749,
       "num_tokens": 393216.0,
       "step": 6
     },
     {
       "epoch": 0.15421686746987953,
+      "grad_norm": 1.4331583326698771,
+      "learning_rate": 2.6923076923076923e-06,
+      "loss": 0.2193,
+      "mean_token_accuracy": 0.9314393177628517,
       "num_tokens": 524288.0,
       "step": 8
     },
     {
       "epoch": 0.1927710843373494,
+      "grad_norm": 1.280978852144958,
+      "learning_rate": 3.4615384615384617e-06,
+      "loss": 0.2205,
+      "mean_token_accuracy": 0.930450152605772,
       "num_tokens": 654484.0,
       "step": 10
     },
     {
       "epoch": 0.23132530120481928,
+      "grad_norm": 0.8255955634911271,
+      "learning_rate": 4.230769230769231e-06,
+      "loss": 0.2117,
+      "mean_token_accuracy": 0.9317141100764275,
       "num_tokens": 785556.0,
       "step": 12
     },
     {
       "epoch": 0.26987951807228916,
+      "grad_norm": 0.7584680371226415,
+      "learning_rate": 5e-06,
+      "loss": 0.206,
+      "mean_token_accuracy": 0.9338631108403206,
       "num_tokens": 915519.0,
       "step": 14
     },
     {
       "epoch": 0.30843373493975906,
+      "grad_norm": 0.9495192852210463,
+      "learning_rate": 5.769230769230769e-06,
+      "loss": 0.1982,
+      "mean_token_accuracy": 0.9358359947800636,
       "num_tokens": 1046591.0,
       "step": 16
     },
     {
       "epoch": 0.3469879518072289,
+      "grad_norm": 0.9714974283482016,
+      "learning_rate": 6.538461538461539e-06,
+      "loss": 0.2055,
+      "mean_token_accuracy": 0.9338132180273533,
       "num_tokens": 1177663.0,
       "step": 18
     },
     {
       "epoch": 0.3855421686746988,
+      "grad_norm": 0.6339236056292388,
+      "learning_rate": 7.307692307692308e-06,
+      "loss": 0.1917,
+      "mean_token_accuracy": 0.9378740377724171,
       "num_tokens": 1308735.0,
       "step": 20
     },
     {
       "epoch": 0.3855421686746988,
+      "eval_loss": 0.3343917727470398,
+      "eval_mean_token_accuracy": 0.9013295725127247,
       "eval_num_tokens": 1308735.0,
+      "eval_runtime": 70.0593,
+      "eval_samples_per_second": 12.204,
+      "eval_steps_per_second": 1.527,
       "step": 20
     },
     {
       "epoch": 0.42409638554216866,
+      "grad_norm": 0.7315888499202351,
+      "learning_rate": 8.076923076923077e-06,
+      "loss": 0.1809,
+      "mean_token_accuracy": 0.9400189444422722,
       "num_tokens": 1439807.0,
       "step": 22
     },
     {
       "epoch": 0.46265060240963857,
+      "grad_norm": 0.7642349616310066,
+      "learning_rate": 8.846153846153847e-06,
+      "loss": 0.1928,
+      "mean_token_accuracy": 0.9367095269262791,
       "num_tokens": 1570062.0,
       "step": 24
     },
     {
       "epoch": 0.5012048192771085,
+      "grad_norm": 0.6114978913375759,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 0.1828,
+      "mean_token_accuracy": 0.9394693598151207,
       "num_tokens": 1701134.0,
       "step": 26
     },
     {
       "epoch": 0.5397590361445783,
+      "grad_norm": 0.6229653774047121,
+      "learning_rate": 9.999529497453782e-06,
+      "loss": 0.1806,
+      "mean_token_accuracy": 0.9402282536029816,
       "num_tokens": 1832133.0,
       "step": 28
     },
     {
       "epoch": 0.5783132530120482,
+      "grad_norm": 0.6722415161460822,
+      "learning_rate": 9.99576600836172e-06,
+      "loss": 0.1896,
+      "mean_token_accuracy": 0.9363855794072151,
       "num_tokens": 1963205.0,
       "step": 30
     },
     {
       "epoch": 0.6168674698795181,
+      "grad_norm": 0.5974286474799401,
+      "learning_rate": 9.988241863214212e-06,
+      "loss": 0.1814,
+      "mean_token_accuracy": 0.9404540322721004,
       "num_tokens": 2094277.0,
       "step": 32
     },
     {
       "epoch": 0.655421686746988,
+      "grad_norm": 0.601035342701654,
+      "learning_rate": 9.976962725951878e-06,
+      "loss": 0.1801,
+      "mean_token_accuracy": 0.9400342106819153,
       "num_tokens": 2225349.0,
       "step": 34
     },
     {
       "epoch": 0.6939759036144578,
+      "grad_norm": 0.5765003488310966,
+      "learning_rate": 9.961937087155697e-06,
+      "loss": 0.1828,
+      "mean_token_accuracy": 0.9392519034445286,
       "num_tokens": 2355263.0,
       "step": 36
     },
     {
       "epoch": 0.7325301204819277,
+      "grad_norm": 34.52047518558373,
+      "learning_rate": 9.943176257655567e-06,
+      "loss": 0.2098,
+      "mean_token_accuracy": 0.9331491328775883,
       "num_tokens": 2486335.0,
       "step": 38
     },
     {
       "epoch": 0.7710843373493976,
+      "grad_norm": 0.6276699276820382,
+      "learning_rate": 9.920694360015864e-06,
+      "loss": 0.1745,
+      "mean_token_accuracy": 0.9413929060101509,
       "num_tokens": 2617407.0,
       "step": 40
     },
     {
       "epoch": 0.7710843373493976,
+      "eval_loss": 0.32280808687210083,
+      "eval_mean_token_accuracy": 0.9021720039510281,
       "eval_num_tokens": 2617407.0,
+      "eval_runtime": 69.6577,
+      "eval_samples_per_second": 12.274,
       "eval_steps_per_second": 1.536,
       "step": 40
     },
     {
       "epoch": 0.8096385542168675,
+      "grad_norm": 0.6015365123041743,
+      "learning_rate": 9.894508317904418e-06,
+      "loss": 0.1751,
+      "mean_token_accuracy": 0.9412707760930061,
       "num_tokens": 2748479.0,
       "step": 42
     },
     {
       "epoch": 0.8481927710843373,
+      "grad_norm": 0.6316203175238668,
+      "learning_rate": 9.864637843352916e-06,
+      "loss": 0.184,
+      "mean_token_accuracy": 0.9374923817813396,
       "num_tokens": 2879551.0,
       "step": 44
     },
     {
       "epoch": 0.8867469879518072,
+      "grad_norm": 0.5904610746669308,
+      "learning_rate": 9.831105421918287e-06,
+      "loss": 0.1777,
+      "mean_token_accuracy": 0.9405580870807171,
       "num_tokens": 3010185.0,
       "step": 46
     },
     {
       "epoch": 0.9253012048192771,
+      "grad_norm": 0.5994215271575196,
+      "learning_rate": 9.793936295756292e-06,
+      "loss": 0.187,
+      "mean_token_accuracy": 0.9375152811408043,
       "num_tokens": 3141257.0,
       "step": 48
     },
     {
       "epoch": 0.963855421686747,
+      "grad_norm": 0.5854742456446934,
+      "learning_rate": 9.753158444620013e-06,
+      "loss": 0.1815,
+      "mean_token_accuracy": 0.9394976831972599,
       "num_tokens": 3271788.0,
       "step": 50
     },
     {
       "epoch": 1.0192771084337349,
+      "grad_norm": 0.957499837849808,
+      "learning_rate": 9.70880256479758e-06,
+      "loss": 0.2534,
+      "mean_token_accuracy": 0.9437652796506881,
       "num_tokens": 3435628.0,
       "step": 52
     },
     {
       "epoch": 1.0578313253012048,
+      "grad_norm": 0.6854514205992324,
+      "learning_rate": 9.660902046004954e-06,
+      "loss": 0.151,
+      "mean_token_accuracy": 0.9503083899617195,
       "num_tokens": 3566700.0,
       "step": 54
     },
     {
       "epoch": 1.0963855421686748,
+      "grad_norm": 0.6080507225701574,
+      "learning_rate": 9.60949294625121e-06,
+      "loss": 0.1415,
+      "mean_token_accuracy": 0.9535066671669483,
       "num_tokens": 3697772.0,
       "step": 56
     },
     {
       "epoch": 1.1349397590361445,
+      "grad_norm": 0.6054065882233389,
+      "learning_rate": 9.554613964695189e-06,
+      "loss": 0.1493,
+      "mean_token_accuracy": 0.9502549581229687,
       "num_tokens": 3828844.0,
       "step": 58
     },
     {
       "epoch": 1.1734939759036145,
+      "grad_norm": 0.7694600057204949,
+      "learning_rate": 9.496306412513989e-06,
+      "loss": 0.1462,
+      "mean_token_accuracy": 0.9519953094422817,
       "num_tokens": 3959916.0,
       "step": 60
     },
     {
       "epoch": 1.1734939759036145,
+      "eval_loss": 0.359206885099411,
+      "eval_mean_token_accuracy": 0.9007850846397543,
       "eval_num_tokens": 3959916.0,
+      "eval_runtime": 69.8215,
+      "eval_samples_per_second": 12.246,
       "eval_steps_per_second": 1.532,
       "step": 60
     },
     {
       "epoch": 1.2120481927710842,
+      "grad_norm": 0.6845669867023433,
+      "learning_rate": 9.434614181805203e-06,
+      "loss": 0.1407,
+      "mean_token_accuracy": 0.9533876590430737,
       "num_tokens": 4089879.0,
       "step": 62
     },
     {
       "epoch": 1.2506024096385542,
+      "grad_norm": 0.6197114152379135,
+      "learning_rate": 9.369583712546322e-06,
+      "loss": 0.1349,
+      "mean_token_accuracy": 0.9554836452007294,
       "num_tokens": 4220951.0,
       "step": 64
     },
     {
       "epoch": 1.2891566265060241,
+      "grad_norm": 0.6172158164875755,
+      "learning_rate": 9.30126395763618e-06,
+      "loss": 0.1535,
+      "mean_token_accuracy": 0.95006413012743,
       "num_tokens": 4352023.0,
       "step": 66
     },
     {
       "epoch": 1.3277108433734939,
+      "grad_norm": 0.6409060214608714,
+      "learning_rate": 9.229706346044749e-06,
+      "loss": 0.156,
+      "mean_token_accuracy": 0.9484306424856186,
       "num_tokens": 4483095.0,
       "step": 68
     },
     {
       "epoch": 1.3662650602409638,
+      "grad_norm": 0.6166450609513697,
+      "learning_rate": 9.154964744099006e-06,
+      "loss": 0.1419,
+      "mean_token_accuracy": 0.9533540047705173,
       "num_tokens": 4614167.0,
       "step": 70
     },
     {
       "epoch": 1.4048192771084338,
+      "grad_norm": 0.6058092262037136,
+      "learning_rate": 9.077095414934076e-06,
+      "loss": 0.1439,
+      "mean_token_accuracy": 0.9524685628712177,
       "num_tokens": 4745239.0,
       "step": 72
     },
     {
       "epoch": 1.4433734939759035,
+      "grad_norm": 0.6464674278239464,
+      "learning_rate": 8.996156976140088e-06,
+      "loss": 0.1427,
+      "mean_token_accuracy": 0.9521632380783558,
       "num_tokens": 4876311.0,
       "step": 74
     },
     {
       "epoch": 1.4819277108433735,
+      "grad_norm": 0.6232124362016298,
+      "learning_rate": 8.91221035563669e-06,
+      "loss": 0.1387,
+      "mean_token_accuracy": 0.9537738263607025,
       "num_tokens": 5007383.0,
       "step": 76
     },
     {
       "epoch": 1.5204819277108435,
+      "grad_norm": 0.6251055517263481,
+      "learning_rate": 8.82531874580844e-06,
+      "loss": 0.1544,
+      "mean_token_accuracy": 0.9496977403759956,
       "num_tokens": 5138455.0,
       "step": 78
     },
     {
       "epoch": 1.5590361445783132,
+      "grad_norm": 0.6597130966145244,
+      "learning_rate": 8.735547555935538e-06,
+      "loss": 0.1467,
+      "mean_token_accuracy": 0.951957143843174,
       "num_tokens": 5269527.0,
       "step": 80
     },
     {
       "epoch": 1.5590361445783132,
+      "eval_loss": 0.34304243326187134,
+      "eval_mean_token_accuracy": 0.9011661727851796,
       "eval_num_tokens": 5269527.0,
+      "eval_runtime": 69.6573,
+      "eval_samples_per_second": 12.274,
       "eval_steps_per_second": 1.536,
       "step": 80
     },
     {
       "epoch": 1.5975903614457831,
+      "grad_norm": 0.6093216234766912,
+      "learning_rate": 8.642964362955781e-06,
+      "loss": 0.145,
+      "mean_token_accuracy": 0.9515700563788414,
       "num_tokens": 5400161.0,
       "step": 82
     },
     {
       "epoch": 1.636144578313253,
+      "grad_norm": 0.5687703380048487,
+      "learning_rate": 8.547638860594765e-06,
+      "loss": 0.1484,
+      "mean_token_accuracy": 0.9509495720267296,
       "num_tokens": 5531233.0,
       "step": 84
     },
     {
       "epoch": 1.6746987951807228,
+      "grad_norm": 0.6551898466798518,
+      "learning_rate": 8.449642806902623e-06,
+      "loss": 0.1568,
+      "mean_token_accuracy": 0.9481558501720428,
       "num_tokens": 5662305.0,
       "step": 86
     },
     {
       "epoch": 1.7132530120481928,
+      "grad_norm": 0.6433780292504243,
+      "learning_rate": 8.349049970236822e-06,
+      "loss": 0.1349,
+      "mean_token_accuracy": 0.954715259373188,
       "num_tokens": 5792219.0,
       "step": 88
     },
     {
       "epoch": 1.7518072289156628,
+      "grad_norm": 0.5701046312406493,
+      "learning_rate": 8.245936073731654e-06,
+      "loss": 0.147,
+      "mean_token_accuracy": 0.9507969096302986,
       "num_tokens": 5923291.0,
       "step": 90
     },
     {
       "epoch": 1.7903614457831325,
+      "grad_norm": 0.6865332623152001,
+      "learning_rate": 8.140378738296233e-06,
+      "loss": 0.1529,
+      "mean_token_accuracy": 0.9498768150806427,
       "num_tokens": 6053822.0,
       "step": 92
     },
     {
       "epoch": 1.8289156626506025,
+      "grad_norm": 0.6305307568855328,
+      "learning_rate": 8.032457424183909e-06,
+      "loss": 0.1476,
+      "mean_token_accuracy": 0.9505984485149384,
       "num_tokens": 6184894.0,
       "step": 94
     },
     {
       "epoch": 1.8674698795180724,
+      "grad_norm": 0.5748443476790706,
+      "learning_rate": 7.922253371177081e-06,
+      "loss": 0.155,
+      "mean_token_accuracy": 0.9482144415378571,
       "num_tokens": 6315149.0,
       "step": 96
     },
     {
       "epoch": 1.9060240963855422,
+      "grad_norm": 0.5993128969226361,
+      "learning_rate": 7.809849537432432e-06,
+      "loss": 0.1434,
+      "mean_token_accuracy": 0.9525645859539509,
       "num_tokens": 6445345.0,
       "step": 98
     },
     {
       "epoch": 1.944578313253012,
+      "grad_norm": 0.6280456904784001,
+      "learning_rate": 7.695330537032629e-06,
+      "loss": 0.1445,
+      "mean_token_accuracy": 0.9512222707271576,
       "num_tokens": 6576344.0,
       "step": 100
     },
     {
       "epoch": 1.944578313253012,
+      "eval_loss": 0.3398211598396301,
+      "eval_mean_token_accuracy": 0.901328669530209,
       "eval_num_tokens": 6576344.0,
+      "eval_runtime": 69.654,
+      "eval_samples_per_second": 12.275,
+      "eval_steps_per_second": 1.536,
       "step": 100
     },
     {
       "epoch": 1.983132530120482,
+      "grad_norm": 0.6197902890500856,
+      "learning_rate": 7.578782576291501e-06,
+      "loss": 0.1506,
+      "mean_token_accuracy": 0.9492092207074165,
       "num_tokens": 6707416.0,
       "step": 102
     },
     {
       "epoch": 2.0385542168674697,
+      "grad_norm": 0.6409344863530665,
+      "learning_rate": 7.460293388860616e-06,
+      "loss": 0.1754,
+      "mean_token_accuracy": 0.9643502771854401,
       "num_tokens": 6871256.0,
       "step": 104
     },
     {
       "epoch": 2.07710843373494,
+      "grad_norm": 0.6097248296204885,
+      "learning_rate": 7.3399521696861505e-06,
+      "loss": 0.1092,
+      "mean_token_accuracy": 0.9659219309687614,
       "num_tokens": 7002255.0,
       "step": 106
     },
     {
       "epoch": 2.1156626506024097,
+      "grad_norm": 0.5903613108322504,
+      "learning_rate": 7.217849507865724e-06,
+      "loss": 0.1066,
+      "mean_token_accuracy": 0.9660860486328602,
       "num_tokens": 7133327.0,
       "step": 108
     },
     {
       "epoch": 2.1542168674698794,
+      "grad_norm": 0.625091072426359,
+      "learning_rate": 7.094077318455762e-06,
+      "loss": 0.1091,
+      "mean_token_accuracy": 0.9645588099956512,
       "num_tokens": 7263523.0,
       "step": 110
     },
     {
       "epoch": 2.1927710843373496,
+      "grad_norm": 0.6604015968164485,
+      "learning_rate": 6.96872877328073e-06,
+      "loss": 0.1052,
+      "mean_token_accuracy": 0.9661929123103619,
       "num_tokens": 7394595.0,
       "step": 112
     },
     {
       "epoch": 2.2313253012048193,
+      "grad_norm": 0.7455880093770229,
+      "learning_rate": 6.841898230796302e-06,
+      "loss": 0.1049,
+      "mean_token_accuracy": 0.9661089479923248,
       "num_tokens": 7525667.0,
       "step": 114
     },
     {
       "epoch": 2.269879518072289,
+      "grad_norm": 0.6028303919109465,
+      "learning_rate": 6.713681165059271e-06,
+      "loss": 0.1127,
+      "mean_token_accuracy": 0.9631625637412071,
       "num_tokens": 7656739.0,
       "step": 116
     },
     {
       "epoch": 2.3084337349397592,
+      "grad_norm": 0.6799912009709536,
+      "learning_rate": 6.584174093857676e-06,
+      "loss": 0.1035,
+      "mean_token_accuracy": 0.9669562242925167,
       "num_tokens": 7787811.0,
       "step": 118
     },
     {
       "epoch": 2.346987951807229,
+      "grad_norm": 0.6255570427114552,
+      "learning_rate": 6.453474506055228e-06,
+      "loss": 0.1176,
+      "mean_token_accuracy": 0.9615787602961063,
       "num_tokens": 7916616.0,
       "step": 120
     },
     {
       "epoch": 2.346987951807229,
+      "eval_loss": 0.38193774223327637,
+      "eval_mean_token_accuracy": 0.8994210568543907,
       "eval_num_tokens": 7916616.0,
+      "eval_runtime": 69.6436,
+      "eval_samples_per_second": 12.277,
+      "eval_steps_per_second": 1.536,
       "step": 120
     },
     {
       "epoch": 2.3855421686746987,
+      "grad_norm": 0.6279356138996781,
+      "learning_rate": 6.3216807882047585e-06,
+      "loss": 0.0974,
+      "mean_token_accuracy": 0.968185156583786,
       "num_tokens": 8047688.0,
       "step": 122
     },
     {
       "epoch": 2.4240963855421684,
+      "grad_norm": 0.6479503216427691,
+      "learning_rate": 6.188892150485904e-06,
+      "loss": 0.1087,
+      "mean_token_accuracy": 0.9651853404939175,
       "num_tokens": 8178760.0,
       "step": 124
     },
     {
       "epoch": 2.4626506024096386,
+      "grad_norm": 0.7228376218883897,
+      "learning_rate": 6.0552085520227875e-06,
+      "loss": 0.1136,
+      "mean_token_accuracy": 0.9631396643817425,
       "num_tokens": 8309832.0,
       "step": 126
     },
     {
       "epoch": 2.5012048192771084,
+      "grad_norm": 0.6292530226739607,
+      "learning_rate": 5.920730625637934e-06,
+      "loss": 0.1043,
+      "mean_token_accuracy": 0.9666203670203686,
       "num_tokens": 8440904.0,
       "step": 128
     },
     {
       "epoch": 2.539759036144578,
+      "grad_norm": 0.6120273359022707,
+      "learning_rate": 5.785559602099019e-06,
+      "loss": 0.1073,
+      "mean_token_accuracy": 0.9648876488208771,
       "num_tokens": 8571976.0,
       "step": 130
     },
     {
       "epoch": 2.5783132530120483,
+      "grad_norm": 0.6294342722298523,
+      "learning_rate": 5.649797233915539e-06,
+      "loss": 0.1092,
+      "mean_token_accuracy": 0.9644067622721195,
       "num_tokens": 8703048.0,
       "step": 132
     },
     {
       "epoch": 2.616867469879518,
+      "grad_norm": 0.5665304014502571,
+      "learning_rate": 5.513545718742702e-06,
+      "loss": 0.1086,
+      "mean_token_accuracy": 0.9646815545856953,
       "num_tokens": 8834120.0,
       "step": 134
     },
     {
       "epoch": 2.6554216867469878,
+      "grad_norm": 0.5673111264101424,
+      "learning_rate": 5.376907622450229e-06,
+      "loss": 0.1154,
+      "mean_token_accuracy": 0.9624109007418156,
       "num_tokens": 8964375.0,
       "step": 136
     },
     {
       "epoch": 2.693975903614458,
+      "grad_norm": 0.5636466902202368,
+      "learning_rate": 5.2399858019140005e-06,
+      "loss": 0.1045,
+      "mean_token_accuracy": 0.9666311480104923,
       "num_tokens": 9094906.0,
       "step": 138
     },
     {
       "epoch": 2.7325301204819277,
+      "grad_norm": 0.5754464602822424,
+      "learning_rate": 5.102883327588608e-06,
+      "loss": 0.1075,
+      "mean_token_accuracy": 0.9647044539451599,
       "num_tokens": 9225978.0,
       "step": 140
     },
     {
       "epoch": 2.7325301204819277,
+      "eval_loss": 0.37826669216156006,
+      "eval_mean_token_accuracy": 0.8995784972315637,
       "eval_num_tokens": 9225978.0,
+      "eval_runtime": 69.6803,
+      "eval_samples_per_second": 12.27,
+      "eval_steps_per_second": 1.536,
       "step": 140
     },
     {
       "epoch": 2.7710843373493974,
+      "grad_norm": 0.5987257906687522,
+      "learning_rate": 4.965703405919154e-06,
+      "loss": 0.1041,
+      "mean_token_accuracy": 0.9660173505544662,
       "num_tokens": 9357050.0,
       "step": 142
     },
     {
       "epoch": 2.8096385542168676,
+      "grad_norm": 0.6727909756019579,
+      "learning_rate": 4.828549301650673e-06,
+      "loss": 0.1165,
+      "mean_token_accuracy": 0.9626206122338772,
       "num_tokens": 9488122.0,
       "step": 144
     },
     {
       "epoch": 2.8481927710843373,
+      "grad_norm": 0.5483728501054262,
+      "learning_rate": 4.691524260093672e-06,
+      "loss": 0.1101,
+      "mean_token_accuracy": 0.9640556387603283,
       "num_tokens": 9619194.0,
       "step": 146
     },
     {
       "epoch": 2.886746987951807,
+      "grad_norm": 0.6578615356471254,
+      "learning_rate": 4.554731429404293e-06,
+      "loss": 0.1167,
+      "mean_token_accuracy": 0.9623610861599445,
       "num_tokens": 9750266.0,
       "step": 148
     },
     {
       "epoch": 2.9253012048192772,
+      "grad_norm": 0.544341897970942,
+      "learning_rate": 4.4182737829376135e-06,
+      "loss": 0.1068,
+      "mean_token_accuracy": 0.965429600328207,
       "num_tokens": 9881338.0,
       "step": 150
     },
     {
       "epoch": 2.963855421686747,
+      "grad_norm": 0.5807218274090602,
+      "learning_rate": 4.28225404173254e-06,
+      "loss": 0.1058,
+      "mean_token_accuracy": 0.965176422148943,
       "num_tokens": 10011972.0,
       "step": 152
     },
     {
       "epoch": 3.019277108433735,
+      "grad_norm": 1.007803950038667,
+      "learning_rate": 4.146774597186622e-06,
+      "loss": 0.1488,
+      "mean_token_accuracy": 0.9695591181516647,
       "num_tokens": 10175812.0,
       "step": 154
     },
     {
       "epoch": 3.057831325301205,
+      "grad_norm": 0.6613641201206724,
+      "learning_rate": 4.011937433979014e-06,
+      "loss": 0.0847,
+      "mean_token_accuracy": 0.9746656753122807,
       "num_tokens": 10306884.0,
       "step": 156
     },
     {
       "epoch": 3.0963855421686746,
+      "grad_norm": 0.5427167115705699,
+      "learning_rate": 3.87784405329962e-06,
+      "loss": 0.0838,
+      "mean_token_accuracy": 0.9741344675421715,
       "num_tokens": 10437883.0,
       "step": 158
     },
     {
       "epoch": 3.1349397590361447,
+      "grad_norm": 0.5059704125761413,
+      "learning_rate": 3.744595396442169e-06,
+      "loss": 0.0814,
+      "mean_token_accuracy": 0.9750473313033581,
       "num_tokens": 10568955.0,
       "step": 160
     },
     {
       "epoch": 3.1349397590361447,
+      "eval_loss": 0.4201391637325287,
+      "eval_mean_token_accuracy": 0.8986482670374005,
       "eval_num_tokens": 10568955.0,
+      "eval_runtime": 69.8903,
+      "eval_samples_per_second": 12.233,
+      "eval_steps_per_second": 1.531,
       "step": 160
     },
     {
       "epoch": 3.1734939759036145,
+      "grad_norm": 0.4955524619584041,
+      "learning_rate": 3.612291768818772e-06,
+      "loss": 0.0827,
+      "mean_token_accuracy": 0.9744977466762066,
       "num_tokens": 10700027.0,
       "step": 162
     },
     {
       "epoch": 3.212048192771084,
+      "grad_norm": 0.5481909266796648,
+      "learning_rate": 3.4810327644531606e-06,
+      "loss": 0.0804,
+      "mean_token_accuracy": 0.9746122434735298,
       "num_tokens": 10831099.0,
       "step": 164
     },
     {
       "epoch": 3.2506024096385544,
+      "grad_norm": 0.5869274418415635,
+      "learning_rate": 3.3509171910094162e-06,
+      "loss": 0.0849,
+      "mean_token_accuracy": 0.9735665060579777,
       "num_tokens": 10962171.0,
       "step": 166
     },
     {
       "epoch": 3.289156626506024,
+      "grad_norm": 0.5997938570160334,
+      "learning_rate": 3.222042995412669e-06,
+      "loss": 0.0826,
+      "mean_token_accuracy": 0.9744274839758873,
       "num_tokens": 11092367.0,
       "step": 168
     },
     {
       "epoch": 3.327710843373494,
+      "grad_norm": 0.5638967234440626,
+      "learning_rate": 3.094507190117715e-06,
+      "loss": 0.0752,
+      "mean_token_accuracy": 0.9760014712810516,
       "num_tokens": 11223439.0,
       "step": 170
     },
     {
       "epoch": 3.3662650602409636,
+      "grad_norm": 0.5677450107311146,
+      "learning_rate": 2.9684057800810844e-06,
+      "loss": 0.0849,
+      "mean_token_accuracy": 0.9734520092606544,
       "num_tokens": 11354511.0,
       "step": 172
     },
     {
       "epoch": 3.404819277108434,
+      "grad_norm": 0.5694190125459168,
+      "learning_rate": 2.8438336904915186e-06,
+      "loss": 0.0907,
+      "mean_token_accuracy": 0.9719940833747387,
       "num_tokens": 11485583.0,
       "step": 174
     },
     {
       "epoch": 3.4433734939759035,
+      "grad_norm": 0.5008764813796651,
+      "learning_rate": 2.7208846953132685e-06,
+      "loss": 0.0782,
+      "mean_token_accuracy": 0.9755356945097446,
       "num_tokens": 11616217.0,
       "step": 176
     },
     {
       "epoch": 3.4819277108433733,
+      "grad_norm": 0.5027767263738213,
+      "learning_rate": 2.599651346695979e-06,
+      "loss": 0.0773,
+      "mean_token_accuracy": 0.9762609973549843,
       "num_tokens": 11747289.0,
       "step": 178
     },
     {
       "epoch": 3.5204819277108435,
+      "grad_norm": 0.5747857741850161,
+      "learning_rate": 2.4802249053043525e-06,
       "loss": 0.0777,
+      "mean_token_accuracy": 0.976215198636055,
       "num_tokens": 11878361.0,
       "step": 180
     },
     {
       "epoch": 3.5204819277108435,
+      "eval_loss": 0.43149346113204956,
+      "eval_mean_token_accuracy": 0.898219308563482,
       "eval_num_tokens": 11878361.0,
+      "eval_runtime": 69.6743,
+      "eval_samples_per_second": 12.271,
+      "eval_steps_per_second": 1.536,
       "step": 180
     },
     {
       "epoch": 3.559036144578313,
+      "grad_norm": 0.5115273312879999,
+      "learning_rate": 2.3626952716199647e-06,
+      "loss": 0.0792,
+      "mean_token_accuracy": 0.9750167988240719,
       "num_tokens": 12009433.0,
       "step": 182
     },
     {
       "epoch": 3.597590361445783,
+      "grad_norm": 0.5172911491980401,
+      "learning_rate": 2.247150918267008e-06,
+      "loss": 0.0851,
+      "mean_token_accuracy": 0.9730398207902908,
       "num_tokens": 12140505.0,
       "step": 184
     },
     {
       "epoch": 3.636144578313253,
+      "grad_norm": 0.5260093719963543,
+      "learning_rate": 2.133678823412873e-06,
+      "loss": 0.0797,
+      "mean_token_accuracy": 0.9751236625015736,
       "num_tokens": 12271577.0,
       "step": 186
     },
     {
       "epoch": 3.674698795180723,
+      "grad_norm": 0.5267292864138245,
+      "learning_rate": 2.022364405293703e-06,
+      "loss": 0.0832,
+      "mean_token_accuracy": 0.9738947302103043,
       "num_tokens": 12402649.0,
       "step": 188
     },
     {
       "epoch": 3.7132530120481926,
+      "grad_norm": 0.5065512725199254,
+      "learning_rate": 1.913291457914234e-06,
+      "loss": 0.0856,
+      "mean_token_accuracy": 0.9732001163065434,
       "num_tokens": 12533721.0,
       "step": 190
     },
     {
       "epoch": 3.7518072289156628,
+      "grad_norm": 0.5465242770321679,
+      "learning_rate": 1.8065420879702888e-06,
+      "loss": 0.0838,
+      "mean_token_accuracy": 0.9731762520968914,
       "num_tokens": 12663435.0,
       "step": 192
     },
     {
       "epoch": 3.7903614457831325,
+      "grad_norm": 0.7823063875533764,
+      "learning_rate": 1.7021966530414303e-06,
+      "loss": 0.0762,
+      "mean_token_accuracy": 0.9758411757647991,
       "num_tokens": 12794507.0,
       "step": 194
     },
     {
       "epoch": 3.8289156626506022,
+      "grad_norm": 0.571380544699335,
+      "learning_rate": 1.6003337011002928e-06,
+      "loss": 0.084,
+      "mean_token_accuracy": 0.9734901748597622,
       "num_tokens": 12925579.0,
       "step": 196
     },
     {
       "epoch": 3.8674698795180724,
+      "grad_norm": 0.5400258981871386,
+      "learning_rate": 1.5010299113841397e-06,
+      "loss": 0.0807,
+      "mean_token_accuracy": 0.9752305261790752,
       "num_tokens": 13056651.0,
       "step": 198
     },
     {
       "epoch": 3.906024096385542,
+      "grad_norm": 0.5204832843446408,
+      "learning_rate": 1.4043600366731213e-06,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9745206460356712,
       "num_tokens": 13187723.0,
       "step": 200
     },
     {
       "epoch": 3.906024096385542,
+      "eval_loss": 0.43459072709083557,
+      "eval_mean_token_accuracy": 0.8980461002510285,
       "eval_num_tokens": 13187723.0,
+      "eval_runtime": 69.6812,
+      "eval_samples_per_second": 12.27,
+      "eval_steps_per_second": 1.536,
       "step": 200
     },
     {
       "epoch": 3.944578313253012,
+      "grad_norm": 0.5732935867678565,
+      "learning_rate": 1.3103968470187384e-06,
+      "loss": 0.0841,
+      "mean_token_accuracy": 0.973306454718113,
       "num_tokens": 13317686.0,
       "step": 202
     },
     {
       "epoch": 3.983132530120482,
+      "grad_norm": 0.5049593156468802,
+      "learning_rate": 1.2192110749648233e-06,
+      "loss": 0.0783,
+      "mean_token_accuracy": 0.9752342775464058,
       "num_tokens": 13447600.0,
       "step": 204
     },
     {
       "epoch": 4.03855421686747,
+      "grad_norm": 0.4900616503984239,
+      "learning_rate": 1.1308713623022988e-06,
+      "loss": 0.1075,
+      "mean_token_accuracy": 0.9786272644996643,
       "num_tokens": 13611440.0,
       "step": 206
     },
     {
       "epoch": 4.0771084337349395,
+      "grad_norm": 0.4917129834327916,
+      "learning_rate": 1.045444208397791e-06,
+      "loss": 0.0676,
+      "mean_token_accuracy": 0.9801687188446522,
       "num_tokens": 13740537.0,
       "step": 208
     },
     {
       "epoch": 4.11566265060241,
+      "grad_norm": 0.47200516762524886,
+      "learning_rate": 9.629939201349852e-07,
+      "loss": 0.0723,
+      "mean_token_accuracy": 0.9782837741076946,
       "num_tokens": 13871609.0,
       "step": 210
     },
     {
       "epoch": 4.15421686746988,
+      "grad_norm": 0.44277012092487705,
+      "learning_rate": 8.835825635064266e-07,
+      "loss": 0.0729,
+      "mean_token_accuracy": 0.9780853129923344,
       "num_tokens": 14002681.0,
       "step": 212
     },
     {
       "epoch": 4.192771084337349,
+      "grad_norm": 0.4753962832603972,
+      "learning_rate": 8.072699168921827e-07,
+      "loss": 0.0749,
+      "mean_token_accuracy": 0.9778944849967957,
       "num_tokens": 14133753.0,
       "step": 214
     },
     {
       "epoch": 4.231325301204819,
+      "grad_norm": 0.48346978347475456,
+      "learning_rate": 7.341134260605537e-07,
+      "loss": 0.0692,
+      "mean_token_accuracy": 0.9793745614588261,
       "num_tokens": 14264314.0,
       "step": 216
     },
     {
       "epoch": 4.2698795180722895,
+      "grad_norm": 0.4328206037632282,
+      "learning_rate": 6.641681609246981e-07,
+      "loss": 0.066,
+      "mean_token_accuracy": 0.9801309891045094,
       "num_tokens": 14395386.0,
       "step": 218
     },
     {
       "epoch": 4.308433734939759,
+      "grad_norm": 0.46221534542018206,
+      "learning_rate": 5.974867740877282e-07,
+      "loss": 0.0696,
+      "mean_token_accuracy": 0.9789478555321693,
       "num_tokens": 14526458.0,
       "step": 220
     },
     {
       "epoch": 4.308433734939759,
+      "eval_loss": 0.4595886468887329,
+      "eval_mean_token_accuracy": 0.897223442514366,
       "eval_num_tokens": 14526458.0,
+      "eval_runtime": 69.6441,
+      "eval_samples_per_second": 12.277,
+      "eval_steps_per_second": 1.536,
       "step": 220
     },
     {
       "epoch": 4.346987951807229,
+      "grad_norm": 0.4739286679144528,
+      "learning_rate": 5.341194612074824e-07,
+      "loss": 0.068,
+      "mean_token_accuracy": 0.9796868488192558,
       "num_tokens": 14656421.0,
       "step": 222
     },
     {
       "epoch": 4.385542168674699,
+      "grad_norm": 0.43096986690967987,
+      "learning_rate": 4.7411392321080606e-07,
+      "loss": 0.0663,
+      "mean_token_accuracy": 0.9802683852612972,
       "num_tokens": 14787493.0,
       "step": 224
     },
     {
       "epoch": 4.424096385542168,
+      "grad_norm": 0.46557922408208563,
+      "learning_rate": 4.175153303857887e-07,
+      "loss": 0.0654,
+      "mean_token_accuracy": 0.9804821126163006,
       "num_tokens": 14918565.0,
       "step": 226
     },
     {
       "epoch": 4.462650602409639,
+      "grad_norm": 0.5546707256189516,
+      "learning_rate": 3.643662883789878e-07,
+      "loss": 0.0673,
+      "mean_token_accuracy": 0.979527972638607,
       "num_tokens": 15049637.0,
       "step": 228
     },
     {
       "epoch": 4.501204819277109,
+      "grad_norm": 0.49021519394663,
+      "learning_rate": 3.1470680612323503e-07,
+      "loss": 0.07,
+      "mean_token_accuracy": 0.9785585664212704,
       "num_tokens": 15180709.0,
       "step": 230
     },
     {
       "epoch": 4.539759036144578,
+      "grad_norm": 0.45571708386475684,
+      "learning_rate": 2.685742657201601e-07,
+      "loss": 0.0697,
+      "mean_token_accuracy": 0.9785204008221626,
       "num_tokens": 15311781.0,
       "step": 232
     },
     {
       "epoch": 4.578313253012048,
+      "grad_norm": 0.5641008416839415,
+      "learning_rate": 2.260033943001244e-07,
+      "loss": 0.0663,
+      "mean_token_accuracy": 0.9797416999936104,
       "num_tokens": 15442853.0,
       "step": 234
     },
     {
       "epoch": 4.6168674698795185,
+      "grad_norm": 0.5607141029792978,
+      "learning_rate": 1.8702623788072028e-07,
+      "loss": 0.0793,
+      "mean_token_accuracy": 0.9755663834512234,
       "num_tokens": 15573925.0,
       "step": 236
     },
     {
       "epoch": 4.655421686746988,
+      "grad_norm": 0.46095439859311127,
+      "learning_rate": 1.5167213724353426e-07,
+      "loss": 0.0714,
+      "mean_token_accuracy": 0.9779479168355465,
       "num_tokens": 15704997.0,
       "step": 238
     },
     {
       "epoch": 4.693975903614458,
+      "grad_norm": 0.464368810663561,
+      "learning_rate": 1.199677058473292e-07,
+      "loss": 0.066,
+      "mean_token_accuracy": 0.980153888463974,
       "num_tokens": 15836069.0,
       "step": 240
     },
     {
       "epoch": 4.693975903614458,
+      "eval_loss": 0.46903374791145325,
+      "eval_mean_token_accuracy": 0.8968599628065234,
       "eval_num_tokens": 15836069.0,
+      "eval_runtime": 69.6558,
+      "eval_samples_per_second": 12.275,
+      "eval_steps_per_second": 1.536,
       "step": 240
     },
     {
       "epoch": 4.732530120481927,
+      "grad_norm": 0.5162077757262011,
+      "learning_rate": 9.193680979426189e-08,
+      "loss": 0.0775,
+      "mean_token_accuracy": 0.9764594584703445,
       "num_tokens": 15967141.0,
       "step": 242
     },
     {
       "epoch": 4.771084337349397,
+      "grad_norm": 0.4482450270539155,
+      "learning_rate": 6.760054986423459e-08,
+      "loss": 0.0632,
+      "mean_token_accuracy": 0.9808179698884487,
       "num_tokens": 16098213.0,
       "step": 244
     },
     {
       "epoch": 4.809638554216868,
+      "grad_norm": 0.4698597407866022,
+      "learning_rate": 4.697724563088646e-08,
+      "loss": 0.0681,
+      "mean_token_accuracy": 0.9797111675143242,
       "num_tokens": 16229285.0,
       "step": 246
     },
     {
       "epoch": 4.848192771084337,
+      "grad_norm": 0.4662674319978425,
+      "learning_rate": 3.0082421671192576e-08,
+      "loss": 0.0688,
+      "mean_token_accuracy": 0.97944400832057,
       "num_tokens": 16360357.0,
       "step": 248
     },
     {
       "epoch": 4.886746987951807,
+      "grad_norm": 0.46327536754981147,
+      "learning_rate": 1.692879587904983e-08,
+      "loss": 0.0662,
+      "mean_token_accuracy": 0.9799401611089706,
       "num_tokens": 16491429.0,
       "step": 250
     },
     {
       "epoch": 4.925301204819277,
+      "grad_norm": 0.4688691090714117,
+      "learning_rate": 7.526269891646176e-09,
+      "loss": 0.0642,
+      "mean_token_accuracy": 0.9807046689093113,
       "num_tokens": 16621960.0,
       "step": 252
     },
     {
       "epoch": 4.9638554216867465,
+      "grad_norm": 0.4516057398304381,
+      "learning_rate": 1.8819216358156865e-09,
+      "loss": 0.0688,
+      "mean_token_accuracy": 0.9792744368314743,
       "num_tokens": 16752156.0,
       "step": 254
     },
     {
       "epoch": 4.983132530120482,
+      "mean_token_accuracy": 0.976367861032486,
       "num_tokens": 16817692.0,
       "step": 255,
       "total_flos": 24409842647040.0,
+      "train_loss": 0.12274208276295194,
+      "train_runtime": 3782.9235,
       "train_samples_per_second": 2.194,
       "train_steps_per_second": 0.067
     }