diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,9441 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.795497185741088,
+  "eval_steps": 66,
+  "global_step": 1320,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0150093808630394,
+      "grad_norm": 0.45099504621179437,
+      "learning_rate": 3.0303030303030305e-08,
+      "loss": 0.8363,
+      "step": 1
+    },
+    {
+      "epoch": 0.0150093808630394,
+      "eval_loss": 0.8522398471832275,
+      "eval_runtime": 13.8139,
+      "eval_samples_per_second": 32.359,
+      "eval_steps_per_second": 2.027,
+      "step": 1
+    },
+    {
+      "epoch": 0.0300187617260788,
+      "grad_norm": 0.441134394511529,
+      "learning_rate": 6.060606060606061e-08,
+      "loss": 0.8152,
+      "step": 2
+    },
+    {
+      "epoch": 0.0450281425891182,
+      "grad_norm": 0.44058980813366744,
+      "learning_rate": 9.09090909090909e-08,
+      "loss": 0.8263,
+      "step": 3
+    },
+    {
+      "epoch": 0.0600375234521576,
+      "grad_norm": 0.4412989069973729,
+      "learning_rate": 1.2121212121212122e-07,
+      "loss": 0.8285,
+      "step": 4
+    },
+    {
+      "epoch": 0.075046904315197,
+      "grad_norm": 0.4411021457996664,
+      "learning_rate": 1.5151515151515152e-07,
+      "loss": 0.8294,
+      "step": 5
+    },
+    {
+      "epoch": 0.0900562851782364,
+      "grad_norm": 0.4512982125032984,
+      "learning_rate": 1.818181818181818e-07,
+      "loss": 0.827,
+      "step": 6
+    },
+    {
+      "epoch": 0.1050656660412758,
+      "grad_norm": 0.4487759970382494,
+      "learning_rate": 2.121212121212121e-07,
+      "loss": 0.831,
+      "step": 7
+    },
+    {
+      "epoch": 0.1200750469043152,
+      "grad_norm": 0.45274790304085666,
+      "learning_rate": 2.4242424242424244e-07,
+      "loss": 0.8266,
+      "step": 8
+    },
+    {
+      "epoch": 0.1350844277673546,
+      "grad_norm": 0.4452059179334573,
+      "learning_rate": 2.727272727272727e-07,
+      "loss": 0.8278,
+      "step": 9
+    },
+    {
+      "epoch": 0.150093808630394,
+      "grad_norm": 0.4447347665120929,
+      "learning_rate": 3.0303030303030305e-07,
+      "loss": 0.828,
+      "step": 10
+    },
+    {
+      "epoch": 0.1651031894934334,
+      "grad_norm": 0.44996814286667713,
+      "learning_rate": 3.333333333333333e-07,
+      "loss": 0.8321,
+      "step": 11
+    },
+    {
+      "epoch": 0.1801125703564728,
+      "grad_norm": 0.4400767238276578,
+      "learning_rate": 3.636363636363636e-07,
+      "loss": 0.8188,
+      "step": 12
+    },
+    {
+      "epoch": 0.1951219512195122,
+      "grad_norm": 0.4714681881384513,
+      "learning_rate": 3.939393939393939e-07,
+      "loss": 0.8295,
+      "step": 13
+    },
+    {
+      "epoch": 0.2101313320825516,
+      "grad_norm": 0.444385872298255,
+      "learning_rate": 4.242424242424242e-07,
+      "loss": 0.8163,
+      "step": 14
+    },
+    {
+      "epoch": 0.225140712945591,
+      "grad_norm": 0.4403917468130588,
+      "learning_rate": 4.545454545454545e-07,
+      "loss": 0.829,
+      "step": 15
+    },
+    {
+      "epoch": 0.2401500938086304,
+      "grad_norm": 0.4463075871861068,
+      "learning_rate": 4.848484848484849e-07,
+      "loss": 0.8301,
+      "step": 16
+    },
+    {
+      "epoch": 0.2551594746716698,
+      "grad_norm": 0.4517876122481777,
+      "learning_rate": 5.151515151515151e-07,
+      "loss": 0.8237,
+      "step": 17
+    },
+    {
+      "epoch": 0.2701688555347092,
+      "grad_norm": 0.4194271488424739,
+      "learning_rate": 5.454545454545454e-07,
+      "loss": 0.828,
+      "step": 18
+    },
+    {
+      "epoch": 0.2851782363977486,
+      "grad_norm": 0.4385859199926406,
+      "learning_rate": 5.757575757575758e-07,
+      "loss": 0.8313,
+      "step": 19
+    },
+    {
+      "epoch": 0.300187617260788,
+      "grad_norm": 0.43935758099705285,
+      "learning_rate": 6.060606060606061e-07,
+      "loss": 0.8135,
+      "step": 20
+    },
+    {
+      "epoch": 0.3151969981238274,
+      "grad_norm": 0.42349119651358025,
+      "learning_rate": 6.363636363636363e-07,
+      "loss": 0.814,
+      "step": 21
+    },
+    {
+      "epoch": 0.3302063789868668,
+      "grad_norm": 0.42862096475156763,
+      "learning_rate": 6.666666666666666e-07,
+      "loss": 0.8107,
+      "step": 22
+    },
+    {
+      "epoch": 0.3452157598499062,
+      "grad_norm": 0.41027437311847303,
+      "learning_rate": 6.96969696969697e-07,
+      "loss": 0.8093,
+      "step": 23
+    },
+    {
+      "epoch": 0.3602251407129456,
+      "grad_norm": 0.41506365946047097,
+      "learning_rate": 7.272727272727272e-07,
+      "loss": 0.8007,
+      "step": 24
+    },
+    {
+      "epoch": 0.37523452157598497,
+      "grad_norm": 0.35818533786374307,
+      "learning_rate": 7.575757575757575e-07,
+      "loss": 0.7935,
+      "step": 25
+    },
+    {
+      "epoch": 0.3902439024390244,
+      "grad_norm": 0.36820244566867855,
+      "learning_rate": 7.878787878787878e-07,
+      "loss": 0.7956,
+      "step": 26
+    },
+    {
+      "epoch": 0.4052532833020638,
+      "grad_norm": 0.3554347415386222,
+      "learning_rate": 8.181818181818182e-07,
+      "loss": 0.7965,
+      "step": 27
+    },
+    {
+      "epoch": 0.4202626641651032,
+      "grad_norm": 0.34816729354565595,
+      "learning_rate": 8.484848484848484e-07,
+      "loss": 0.7893,
+      "step": 28
+    },
+    {
+      "epoch": 0.4352720450281426,
+      "grad_norm": 0.3492723930636243,
+      "learning_rate": 8.787878787878787e-07,
+      "loss": 0.7927,
+      "step": 29
+    },
+    {
+      "epoch": 0.450281425891182,
+      "grad_norm": 0.3524378456441126,
+      "learning_rate": 9.09090909090909e-07,
+      "loss": 0.7805,
+      "step": 30
+    },
+    {
+      "epoch": 0.4652908067542214,
+      "grad_norm": 0.3364134835289249,
+      "learning_rate": 9.393939393939395e-07,
+      "loss": 0.7901,
+      "step": 31
+    },
+    {
+      "epoch": 0.4803001876172608,
+      "grad_norm": 0.34952134401579665,
+      "learning_rate": 9.696969696969698e-07,
+      "loss": 0.7848,
+      "step": 32
+    },
+    {
+      "epoch": 0.49530956848030017,
+      "grad_norm": 0.34379662697051444,
+      "learning_rate": 1e-06,
+      "loss": 0.7766,
+      "step": 33
+    },
+    {
+      "epoch": 0.5103189493433395,
+      "grad_norm": 0.25380437737254385,
+      "learning_rate": 1.0303030303030302e-06,
+      "loss": 0.7506,
+      "step": 34
+    },
+    {
+      "epoch": 0.525328330206379,
+      "grad_norm": 0.2160315736548007,
+      "learning_rate": 1.0606060606060606e-06,
+      "loss": 0.7296,
+      "step": 35
+    },
+    {
+      "epoch": 0.5403377110694184,
+      "grad_norm": 0.21519653463861005,
+      "learning_rate": 1.0909090909090908e-06,
+      "loss": 0.7429,
+      "step": 36
+    },
+    {
+      "epoch": 0.5553470919324578,
+      "grad_norm": 0.2118091773645455,
+      "learning_rate": 1.121212121212121e-06,
+      "loss": 0.7341,
+      "step": 37
+    },
+    {
+      "epoch": 0.5703564727954972,
+      "grad_norm": 0.2133974139017253,
+      "learning_rate": 1.1515151515151516e-06,
+      "loss": 0.7336,
+      "step": 38
+    },
+    {
+      "epoch": 0.5853658536585366,
+      "grad_norm": 0.21183205584010478,
+      "learning_rate": 1.1818181818181818e-06,
+      "loss": 0.7406,
+      "step": 39
+    },
+    {
+      "epoch": 0.600375234521576,
+      "grad_norm": 0.20612576338064367,
+      "learning_rate": 1.2121212121212122e-06,
+      "loss": 0.7172,
+      "step": 40
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 0.20009218157286937,
+      "learning_rate": 1.2424242424242424e-06,
+      "loss": 0.7331,
+      "step": 41
+    },
+    {
+      "epoch": 0.6303939962476548,
+      "grad_norm": 0.20086489901884286,
+      "learning_rate": 1.2727272727272726e-06,
+      "loss": 0.7206,
+      "step": 42
+    },
+    {
+      "epoch": 0.6454033771106942,
+      "grad_norm": 0.19327701765033134,
+      "learning_rate": 1.303030303030303e-06,
+      "loss": 0.7264,
+      "step": 43
+    },
+    {
+      "epoch": 0.6604127579737336,
+      "grad_norm": 0.18735374384890305,
+      "learning_rate": 1.3333333333333332e-06,
+      "loss": 0.7073,
+      "step": 44
+    },
+    {
+      "epoch": 0.6754221388367729,
+      "grad_norm": 0.17683867740993736,
+      "learning_rate": 1.3636363636363634e-06,
+      "loss": 0.6931,
+      "step": 45
+    },
+    {
+      "epoch": 0.6904315196998124,
+      "grad_norm": 0.17198229254906564,
+      "learning_rate": 1.393939393939394e-06,
+      "loss": 0.698,
+      "step": 46
+    },
+    {
+      "epoch": 0.7054409005628518,
+      "grad_norm": 0.16380634624432175,
+      "learning_rate": 1.4242424242424242e-06,
+      "loss": 0.6903,
+      "step": 47
+    },
+    {
+      "epoch": 0.7204502814258912,
+      "grad_norm": 0.14953817712425876,
+      "learning_rate": 1.4545454545454544e-06,
+      "loss": 0.6771,
+      "step": 48
+    },
+    {
+      "epoch": 0.7354596622889306,
+      "grad_norm": 0.14120367016713395,
+      "learning_rate": 1.4848484848484848e-06,
+      "loss": 0.6689,
+      "step": 49
+    },
+    {
+      "epoch": 0.7504690431519699,
+      "grad_norm": 0.13232673022559538,
+      "learning_rate": 1.515151515151515e-06,
+      "loss": 0.6748,
+      "step": 50
+    },
+    {
+      "epoch": 0.7654784240150094,
+      "grad_norm": 0.12723197101176636,
+      "learning_rate": 1.5454545454545454e-06,
+      "loss": 0.6612,
+      "step": 51
+    },
+    {
+      "epoch": 0.7804878048780488,
+      "grad_norm": 0.12474022700537914,
+      "learning_rate": 1.5757575757575756e-06,
+      "loss": 0.6458,
+      "step": 52
+    },
+    {
+      "epoch": 0.7954971857410882,
+      "grad_norm": 0.12420274477384924,
+      "learning_rate": 1.6060606060606058e-06,
+      "loss": 0.6529,
+      "step": 53
+    },
+    {
+      "epoch": 0.8105065666041276,
+      "grad_norm": 0.12270466802134104,
+      "learning_rate": 1.6363636363636365e-06,
+      "loss": 0.6475,
+      "step": 54
+    },
+    {
+      "epoch": 0.8255159474671669,
+      "grad_norm": 0.12049286207469485,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.6359,
+      "step": 55
+    },
+    {
+      "epoch": 0.8405253283302064,
+      "grad_norm": 0.11526479585742994,
+      "learning_rate": 1.6969696969696969e-06,
+      "loss": 0.6261,
+      "step": 56
+    },
+    {
+      "epoch": 0.8555347091932458,
+      "grad_norm": 0.11592626217416292,
+      "learning_rate": 1.7272727272727273e-06,
+      "loss": 0.627,
+      "step": 57
+    },
+    {
+      "epoch": 0.8705440900562852,
+      "grad_norm": 0.11594477634938592,
+      "learning_rate": 1.7575757575757575e-06,
+      "loss": 0.6244,
+      "step": 58
+    },
+    {
+      "epoch": 0.8855534709193246,
+      "grad_norm": 0.11313778567858399,
+      "learning_rate": 1.7878787878787877e-06,
+      "loss": 0.6317,
+      "step": 59
+    },
+    {
+      "epoch": 0.900562851782364,
+      "grad_norm": 0.11023173423057069,
+      "learning_rate": 1.818181818181818e-06,
+      "loss": 0.6248,
+      "step": 60
+    },
+    {
+      "epoch": 0.9155722326454033,
+      "grad_norm": 0.10740667281307065,
+      "learning_rate": 1.8484848484848483e-06,
+      "loss": 0.621,
+      "step": 61
+    },
+    {
+      "epoch": 0.9305816135084428,
+      "grad_norm": 0.10061348969269865,
+      "learning_rate": 1.878787878787879e-06,
+      "loss": 0.6182,
+      "step": 62
+    },
+    {
+      "epoch": 0.9455909943714822,
+      "grad_norm": 0.09404279395367166,
+      "learning_rate": 1.909090909090909e-06,
+      "loss": 0.6068,
+      "step": 63
+    },
+    {
+      "epoch": 0.9606003752345216,
+      "grad_norm": 0.09335512170262361,
+      "learning_rate": 1.9393939393939395e-06,
+      "loss": 0.6114,
+      "step": 64
+    },
+    {
+      "epoch": 0.975609756097561,
+      "grad_norm": 0.08836932387148118,
+      "learning_rate": 1.9696969696969695e-06,
+      "loss": 0.5959,
+      "step": 65
+    },
+    {
+      "epoch": 0.9906191369606003,
+      "grad_norm": 0.08549247801026265,
+      "learning_rate": 2e-06,
+      "loss": 0.6113,
+      "step": 66
+    },
+    {
+      "epoch": 0.9906191369606003,
+      "eval_loss": 0.5765168070793152,
+      "eval_runtime": 13.7554,
+      "eval_samples_per_second": 32.496,
+      "eval_steps_per_second": 2.036,
+      "step": 66
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.08549247801026265,
+      "learning_rate": 1.999996861844573e-06,
+      "loss": 0.4985,
+      "step": 67
+    },
+    {
+      "epoch": 1.0150093808630394,
+      "grad_norm": 0.09984581949422254,
+      "learning_rate": 1.999987447397988e-06,
+      "loss": 0.6663,
+      "step": 68
+    },
+    {
+      "epoch": 1.0300187617260788,
+      "grad_norm": 0.07132682896345384,
+      "learning_rate": 1.9999717567193325e-06,
+      "loss": 0.5697,
+      "step": 69
+    },
+    {
+      "epoch": 1.0450281425891181,
+      "grad_norm": 0.06981020986612589,
+      "learning_rate": 1.999949789907087e-06,
+      "loss": 0.5768,
+      "step": 70
+    },
+    {
+      "epoch": 1.0600375234521575,
+      "grad_norm": 0.06754090898889059,
+      "learning_rate": 1.9999215470991215e-06,
+      "loss": 0.5828,
+      "step": 71
+    },
+    {
+      "epoch": 1.075046904315197,
+      "grad_norm": 0.06243964561211776,
+      "learning_rate": 1.9998870284726965e-06,
+      "loss": 0.5694,
+      "step": 72
+    },
+    {
+      "epoch": 1.0900562851782365,
+      "grad_norm": 0.061009810010117634,
+      "learning_rate": 1.999846234244462e-06,
+      "loss": 0.5727,
+      "step": 73
+    },
+    {
+      "epoch": 1.1050656660412759,
+      "grad_norm": 0.056185784091092324,
+      "learning_rate": 1.999799164670455e-06,
+      "loss": 0.5607,
+      "step": 74
+    },
+    {
+      "epoch": 1.1200750469043153,
+      "grad_norm": 0.055842108965366594,
+      "learning_rate": 1.9997458200460992e-06,
+      "loss": 0.5521,
+      "step": 75
+    },
+    {
+      "epoch": 1.1350844277673546,
+      "grad_norm": 0.05187749252022605,
+      "learning_rate": 1.999686200706201e-06,
+      "loss": 0.5724,
+      "step": 76
+    },
+    {
+      "epoch": 1.150093808630394,
+      "grad_norm": 0.051625347997863995,
+      "learning_rate": 1.9996203070249514e-06,
+      "loss": 0.5566,
+      "step": 77
+    },
+    {
+      "epoch": 1.1651031894934334,
+      "grad_norm": 0.04854987918067284,
+      "learning_rate": 1.9995481394159185e-06,
+      "loss": 0.5444,
+      "step": 78
+    },
+    {
+      "epoch": 1.1801125703564728,
+      "grad_norm": 0.046725939692484605,
+      "learning_rate": 1.999469698332049e-06,
+      "loss": 0.5452,
+      "step": 79
+    },
+    {
+      "epoch": 1.1951219512195121,
+      "grad_norm": 0.04651989075072082,
+      "learning_rate": 1.9993849842656634e-06,
+      "loss": 0.5533,
+      "step": 80
+    },
+    {
+      "epoch": 1.2101313320825515,
+      "grad_norm": 0.04530133654545522,
+      "learning_rate": 1.9992939977484538e-06,
+      "loss": 0.5446,
+      "step": 81
+    },
+    {
+      "epoch": 1.225140712945591,
+      "grad_norm": 0.04348117767209829,
+      "learning_rate": 1.99919673935148e-06,
+      "loss": 0.5518,
+      "step": 82
+    },
+    {
+      "epoch": 1.2401500938086305,
+      "grad_norm": 0.041929135982438165,
+      "learning_rate": 1.999093209685165e-06,
+      "loss": 0.5669,
+      "step": 83
+    },
+    {
+      "epoch": 1.2551594746716699,
+      "grad_norm": 0.04245022581761594,
+      "learning_rate": 1.9989834093992944e-06,
+      "loss": 0.5217,
+      "step": 84
+    },
+    {
+      "epoch": 1.2701688555347093,
+      "grad_norm": 0.03980799680014109,
+      "learning_rate": 1.998867339183008e-06,
+      "loss": 0.5429,
+      "step": 85
+    },
+    {
+      "epoch": 1.2851782363977486,
+      "grad_norm": 0.04050731565010284,
+      "learning_rate": 1.9987449997647986e-06,
+      "loss": 0.5277,
+      "step": 86
+    },
+    {
+      "epoch": 1.300187617260788,
+      "grad_norm": 0.03868146463623856,
+      "learning_rate": 1.9986163919125074e-06,
+      "loss": 0.5471,
+      "step": 87
+    },
+    {
+      "epoch": 1.3151969981238274,
+      "grad_norm": 0.038497979471297274,
+      "learning_rate": 1.998481516433316e-06,
+      "loss": 0.5444,
+      "step": 88
+    },
+    {
+      "epoch": 1.3302063789868668,
+      "grad_norm": 0.03793331778602445,
+      "learning_rate": 1.998340374173746e-06,
+      "loss": 0.5443,
+      "step": 89
+    },
+    {
+      "epoch": 1.3452157598499062,
+      "grad_norm": 0.037330687993704544,
+      "learning_rate": 1.998192966019649e-06,
+      "loss": 0.5397,
+      "step": 90
+    },
+    {
+      "epoch": 1.3602251407129455,
+      "grad_norm": 0.036291421015624784,
+      "learning_rate": 1.998039292896205e-06,
+      "loss": 0.5275,
+      "step": 91
+    },
+    {
+      "epoch": 1.375234521575985,
+      "grad_norm": 0.035032791533978855,
+      "learning_rate": 1.9978793557679143e-06,
+      "loss": 0.5219,
+      "step": 92
+    },
+    {
+      "epoch": 1.3902439024390243,
+      "grad_norm": 0.034627794718902295,
+      "learning_rate": 1.9977131556385916e-06,
+      "loss": 0.5383,
+      "step": 93
+    },
+    {
+      "epoch": 1.4052532833020637,
+      "grad_norm": 0.03451383360226329,
+      "learning_rate": 1.9975406935513613e-06,
+      "loss": 0.5301,
+      "step": 94
+    },
+    {
+      "epoch": 1.4202626641651033,
+      "grad_norm": 0.03375702739265765,
+      "learning_rate": 1.9973619705886486e-06,
+      "loss": 0.5358,
+      "step": 95
+    },
+    {
+      "epoch": 1.4352720450281427,
+      "grad_norm": 0.03420334157092594,
+      "learning_rate": 1.9971769878721743e-06,
+      "loss": 0.5308,
+      "step": 96
+    },
+    {
+      "epoch": 1.450281425891182,
+      "grad_norm": 0.032291163299197616,
+      "learning_rate": 1.9969857465629473e-06,
+      "loss": 0.5318,
+      "step": 97
+    },
+    {
+      "epoch": 1.4652908067542214,
+      "grad_norm": 0.03307719877411306,
+      "learning_rate": 1.996788247861258e-06,
+      "loss": 0.5304,
+      "step": 98
+    },
+    {
+      "epoch": 1.4803001876172608,
+      "grad_norm": 0.032040033737229634,
+      "learning_rate": 1.9965844930066696e-06,
+      "loss": 0.5132,
+      "step": 99
+    },
+    {
+      "epoch": 1.4953095684803002,
+      "grad_norm": 0.030182728005005464,
+      "learning_rate": 1.9963744832780105e-06,
+      "loss": 0.5148,
+      "step": 100
+    },
+    {
+      "epoch": 1.5103189493433395,
+      "grad_norm": 0.029981506115315602,
+      "learning_rate": 1.996158219993368e-06,
+      "loss": 0.5229,
+      "step": 101
+    },
+    {
+      "epoch": 1.5253283302063791,
+      "grad_norm": 0.030487016777282053,
+      "learning_rate": 1.995935704510076e-06,
+      "loss": 0.5105,
+      "step": 102
+    },
+    {
+      "epoch": 1.5403377110694185,
+      "grad_norm": 0.029784594581146837,
+      "learning_rate": 1.995706938224712e-06,
+      "loss": 0.5204,
+      "step": 103
+    },
+    {
+      "epoch": 1.555347091932458,
+      "grad_norm": 0.029409093062428185,
+      "learning_rate": 1.9954719225730845e-06,
+      "loss": 0.5192,
+      "step": 104
+    },
+    {
+      "epoch": 1.5703564727954973,
+      "grad_norm": 0.028177419957318213,
+      "learning_rate": 1.995230659030224e-06,
+      "loss": 0.5163,
+      "step": 105
+    },
+    {
+      "epoch": 1.5853658536585367,
+      "grad_norm": 0.02727561948703477,
+      "learning_rate": 1.994983149110376e-06,
+      "loss": 0.5088,
+      "step": 106
+    },
+    {
+      "epoch": 1.600375234521576,
+      "grad_norm": 0.027757151756443717,
+      "learning_rate": 1.99472939436699e-06,
+      "loss": 0.5239,
+      "step": 107
+    },
+    {
+      "epoch": 1.6153846153846154,
+      "grad_norm": 0.02681869602530872,
+      "learning_rate": 1.994469396392709e-06,
+      "loss": 0.5193,
+      "step": 108
+    },
+    {
+      "epoch": 1.6303939962476548,
+      "grad_norm": 0.02805316201412264,
+      "learning_rate": 1.9942031568193616e-06,
+      "loss": 0.508,
+      "step": 109
+    },
+    {
+      "epoch": 1.6454033771106942,
+      "grad_norm": 0.026206675896448955,
+      "learning_rate": 1.9939306773179494e-06,
+      "loss": 0.5161,
+      "step": 110
+    },
+    {
+      "epoch": 1.6604127579737336,
+      "grad_norm": 0.02633552856537573,
+      "learning_rate": 1.9936519595986392e-06,
+      "loss": 0.513,
+      "step": 111
+    },
+    {
+      "epoch": 1.675422138836773,
+      "grad_norm": 0.02671752302721344,
+      "learning_rate": 1.9933670054107495e-06,
+      "loss": 0.5059,
+      "step": 112
+    },
+    {
+      "epoch": 1.6904315196998123,
+      "grad_norm": 0.02608289502544131,
+      "learning_rate": 1.993075816542742e-06,
+      "loss": 0.5155,
+      "step": 113
+    },
+    {
+      "epoch": 1.7054409005628517,
+      "grad_norm": 0.025066926457861842,
+      "learning_rate": 1.992778394822208e-06,
+      "loss": 0.5159,
+      "step": 114
+    },
+    {
+      "epoch": 1.720450281425891,
+      "grad_norm": 0.025549312802280857,
+      "learning_rate": 1.992474742115859e-06,
+      "loss": 0.5069,
+      "step": 115
+    },
+    {
+      "epoch": 1.7354596622889304,
+      "grad_norm": 0.024567185837752966,
+      "learning_rate": 1.9921648603295138e-06,
+      "loss": 0.5088,
+      "step": 116
+    },
+    {
+      "epoch": 1.7504690431519698,
+      "grad_norm": 0.024409380976663946,
+      "learning_rate": 1.9918487514080866e-06,
+      "loss": 0.5065,
+      "step": 117
+    },
+    {
+      "epoch": 1.7654784240150094,
+      "grad_norm": 0.024237188144454417,
+      "learning_rate": 1.991526417335575e-06,
+      "loss": 0.5185,
+      "step": 118
+    },
+    {
+      "epoch": 1.7804878048780488,
+      "grad_norm": 0.024430013424038537,
+      "learning_rate": 1.9911978601350483e-06,
+      "loss": 0.4929,
+      "step": 119
+    },
+    {
+      "epoch": 1.7954971857410882,
+      "grad_norm": 0.024004085443342052,
+      "learning_rate": 1.9908630818686336e-06,
+      "loss": 0.4931,
+      "step": 120
+    },
+    {
+      "epoch": 1.8105065666041276,
+      "grad_norm": 0.023061733754567375,
+      "learning_rate": 1.990522084637503e-06,
+      "loss": 0.497,
+      "step": 121
+    },
+    {
+      "epoch": 1.825515947467167,
+      "grad_norm": 0.02280013753274718,
+      "learning_rate": 1.990174870581862e-06,
+      "loss": 0.5013,
+      "step": 122
+    },
+    {
+      "epoch": 1.8405253283302065,
+      "grad_norm": 0.022535127183177055,
+      "learning_rate": 1.9898214418809326e-06,
+      "loss": 0.4992,
+      "step": 123
+    },
+    {
+      "epoch": 1.855534709193246,
+      "grad_norm": 0.02279479434548679,
+      "learning_rate": 1.989461800752944e-06,
+      "loss": 0.5034,
+      "step": 124
+    },
+    {
+      "epoch": 1.8705440900562853,
+      "grad_norm": 0.022737894727696523,
+      "learning_rate": 1.989095949455116e-06,
+      "loss": 0.5041,
+      "step": 125
+    },
+    {
+      "epoch": 1.8855534709193247,
+      "grad_norm": 0.02213733247427209,
+      "learning_rate": 1.988723890283645e-06,
+      "loss": 0.5064,
+      "step": 126
+    },
+    {
+      "epoch": 1.900562851782364,
+      "grad_norm": 0.022001719966808008,
+      "learning_rate": 1.988345625573689e-06,
+      "loss": 0.4938,
+      "step": 127
+    },
+    {
+      "epoch": 1.9155722326454034,
+      "grad_norm": 0.021997816422623415,
+      "learning_rate": 1.9879611576993556e-06,
+      "loss": 0.4975,
+      "step": 128
+    },
+    {
+      "epoch": 1.9305816135084428,
+      "grad_norm": 0.021825994539949378,
+      "learning_rate": 1.987570489073685e-06,
+      "loss": 0.4953,
+      "step": 129
+    },
+    {
+      "epoch": 1.9455909943714822,
+      "grad_norm": 0.021569132172669345,
+      "learning_rate": 1.9871736221486344e-06,
+      "loss": 0.4866,
+      "step": 130
+    },
+    {
+      "epoch": 1.9606003752345216,
+      "grad_norm": 0.021163833610375136,
+      "learning_rate": 1.9867705594150646e-06,
+      "loss": 0.489,
+      "step": 131
+    },
+    {
+      "epoch": 1.975609756097561,
+      "grad_norm": 0.020950382903110992,
+      "learning_rate": 1.9863613034027223e-06,
+      "loss": 0.4911,
+      "step": 132
+    },
+    {
+      "epoch": 1.975609756097561,
+      "eval_loss": 0.47668132185935974,
+      "eval_runtime": 13.9051,
+      "eval_samples_per_second": 32.146,
+      "eval_steps_per_second": 2.014,
+      "step": 132
+    },
+    {
+      "epoch": 1.9906191369606003,
+      "grad_norm": 0.020557758708440663,
+      "learning_rate": 1.9859458566802253e-06,
+      "loss": 0.4948,
+      "step": 133
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.023846854436759164,
+      "learning_rate": 1.9855242218550463e-06,
+      "loss": 0.479,
+      "step": 134
+    },
+    {
+      "epoch": 2.0150093808630394,
+      "grad_norm": 0.02517578701828216,
+      "learning_rate": 1.9850964015734966e-06,
+      "loss": 0.5028,
+      "step": 135
+    },
+    {
+      "epoch": 2.0300187617260788,
+      "grad_norm": 0.02174554797483234,
+      "learning_rate": 1.9846623985207097e-06,
+      "loss": 0.5053,
+      "step": 136
+    },
+    {
+      "epoch": 2.045028142589118,
+      "grad_norm": 0.02084416259303054,
+      "learning_rate": 1.9842222154206232e-06,
+      "loss": 0.4962,
+      "step": 137
+    },
+    {
+      "epoch": 2.0600375234521575,
+      "grad_norm": 0.019786665839116563,
+      "learning_rate": 1.9837758550359635e-06,
+      "loss": 0.4891,
+      "step": 138
+    },
+    {
+      "epoch": 2.075046904315197,
+      "grad_norm": 0.02046650546146805,
+      "learning_rate": 1.9833233201682263e-06,
+      "loss": 0.4989,
+      "step": 139
+    },
+    {
+      "epoch": 2.0900562851782363,
+      "grad_norm": 0.019907238202250363,
+      "learning_rate": 1.982864613657662e-06,
+      "loss": 0.4775,
+      "step": 140
+    },
+    {
+      "epoch": 2.1050656660412757,
+      "grad_norm": 0.019815490776120104,
+      "learning_rate": 1.982399738383255e-06,
+      "loss": 0.4897,
+      "step": 141
+    },
+    {
+      "epoch": 2.120075046904315,
+      "grad_norm": 0.01918425758934218,
+      "learning_rate": 1.9819286972627067e-06,
+      "loss": 0.4972,
+      "step": 142
+    },
+    {
+      "epoch": 2.1350844277673544,
+      "grad_norm": 0.019994680552468825,
+      "learning_rate": 1.9814514932524176e-06,
+      "loss": 0.4951,
+      "step": 143
+    },
+    {
+      "epoch": 2.150093808630394,
+      "grad_norm": 0.019278973829129135,
+      "learning_rate": 1.980968129347469e-06,
+      "loss": 0.4809,
+      "step": 144
+    },
+    {
+      "epoch": 2.1651031894934336,
+      "grad_norm": 0.0192577035975134,
+      "learning_rate": 1.9804786085816027e-06,
+      "loss": 0.4909,
+      "step": 145
+    },
+    {
+      "epoch": 2.180112570356473,
+      "grad_norm": 0.018971731946795373,
+      "learning_rate": 1.979982934027203e-06,
+      "loss": 0.4804,
+      "step": 146
+    },
+    {
+      "epoch": 2.1951219512195124,
+      "grad_norm": 0.019218520844467814,
+      "learning_rate": 1.979481108795278e-06,
+      "loss": 0.4886,
+      "step": 147
+    },
+    {
+      "epoch": 2.2101313320825517,
+      "grad_norm": 0.018888083378158605,
+      "learning_rate": 1.9789731360354377e-06,
+      "loss": 0.4884,
+      "step": 148
+    },
+    {
+      "epoch": 2.225140712945591,
+      "grad_norm": 0.019795240765748786,
+      "learning_rate": 1.9784590189358786e-06,
+      "loss": 0.4918,
+      "step": 149
+    },
+    {
+      "epoch": 2.2401500938086305,
+      "grad_norm": 0.018701780342971427,
+      "learning_rate": 1.9779387607233582e-06,
+      "loss": 0.4837,
+      "step": 150
+    },
+    {
+      "epoch": 2.25515947467167,
+      "grad_norm": 0.01883414126738354,
+      "learning_rate": 1.9774123646631797e-06,
+      "loss": 0.4856,
+      "step": 151
+    },
+    {
+      "epoch": 2.2701688555347093,
+      "grad_norm": 0.018749906068093083,
+      "learning_rate": 1.9768798340591678e-06,
+      "loss": 0.4765,
+      "step": 152
+    },
+    {
+      "epoch": 2.2851782363977486,
+      "grad_norm": 0.018730040963488046,
+      "learning_rate": 1.9763411722536503e-06,
+      "loss": 0.4845,
+      "step": 153
+    },
+    {
+      "epoch": 2.300187617260788,
+      "grad_norm": 0.018684796471871466,
+      "learning_rate": 1.9757963826274354e-06,
+      "loss": 0.4822,
+      "step": 154
+    },
+    {
+      "epoch": 2.3151969981238274,
+      "grad_norm": 0.018465641278047874,
+      "learning_rate": 1.9752454685997933e-06,
+      "loss": 0.4828,
+      "step": 155
+    },
+    {
+      "epoch": 2.3302063789868668,
+      "grad_norm": 0.018220085507859175,
+      "learning_rate": 1.9746884336284313e-06,
+      "loss": 0.4838,
+      "step": 156
+    },
+    {
+      "epoch": 2.345215759849906,
+      "grad_norm": 0.01849417235430084,
+      "learning_rate": 1.974125281209474e-06,
+      "loss": 0.4953,
+      "step": 157
+    },
+    {
+      "epoch": 2.3602251407129455,
+      "grad_norm": 0.018786012040010656,
+      "learning_rate": 1.973556014877441e-06,
+      "loss": 0.4928,
+      "step": 158
+    },
+    {
+      "epoch": 2.375234521575985,
+      "grad_norm": 0.017733412017590936,
+      "learning_rate": 1.972980638205225e-06,
+      "loss": 0.4798,
+      "step": 159
+    },
+    {
+      "epoch": 2.3902439024390243,
+      "grad_norm": 0.017824181403243117,
+      "learning_rate": 1.972399154804068e-06,
+      "loss": 0.4844,
+      "step": 160
+    },
+    {
+      "epoch": 2.4052532833020637,
+      "grad_norm": 0.018065420440970443,
+      "learning_rate": 1.9718115683235415e-06,
+      "loss": 0.4666,
+      "step": 161
+    },
+    {
+      "epoch": 2.420262664165103,
+      "grad_norm": 0.017368916708408812,
+      "learning_rate": 1.971217882451521e-06,
+      "loss": 0.4875,
+      "step": 162
+    },
+    {
+      "epoch": 2.4352720450281424,
+      "grad_norm": 0.018070325703733577,
+      "learning_rate": 1.9706181009141627e-06,
+      "loss": 0.474,
+      "step": 163
+    },
+    {
+      "epoch": 2.450281425891182,
+      "grad_norm": 0.017332167220279988,
+      "learning_rate": 1.9700122274758824e-06,
+      "loss": 0.48,
+      "step": 164
+    },
+    {
+      "epoch": 2.465290806754221,
+      "grad_norm": 0.017274769746170343,
+      "learning_rate": 1.9694002659393305e-06,
+      "loss": 0.4771,
+      "step": 165
+    },
+    {
+      "epoch": 2.480300187617261,
+      "grad_norm": 0.01814722046626225,
+      "learning_rate": 1.9687822201453674e-06,
+      "loss": 0.4848,
+      "step": 166
+    },
+    {
+      "epoch": 2.4953095684803,
+      "grad_norm": 0.017408741457802464,
+      "learning_rate": 1.9681580939730405e-06,
+      "loss": 0.4827,
+      "step": 167
+    },
+    {
+      "epoch": 2.5103189493433398,
+      "grad_norm": 0.01768240964560969,
+      "learning_rate": 1.96752789133956e-06,
+      "loss": 0.4794,
+      "step": 168
+    },
+    {
+      "epoch": 2.525328330206379,
+      "grad_norm": 0.017154935951961867,
+      "learning_rate": 1.9668916162002736e-06,
+      "loss": 0.4693,
+      "step": 169
+    },
+    {
+      "epoch": 2.5403377110694185,
+      "grad_norm": 0.01802153159416841,
+      "learning_rate": 1.966249272548642e-06,
+      "loss": 0.4777,
+      "step": 170
+    },
+    {
+      "epoch": 2.555347091932458,
+      "grad_norm": 0.01695693908189586,
+      "learning_rate": 1.965600864416213e-06,
+      "loss": 0.4759,
+      "step": 171
+    },
+    {
+      "epoch": 2.5703564727954973,
+      "grad_norm": 0.017778123189151847,
+      "learning_rate": 1.964946395872598e-06,
+      "loss": 0.4741,
+      "step": 172
+    },
+    {
+      "epoch": 2.5853658536585367,
+      "grad_norm": 0.01689429975438397,
+      "learning_rate": 1.964285871025445e-06,
+      "loss": 0.478,
+      "step": 173
+    },
+    {
+      "epoch": 2.600375234521576,
+      "grad_norm": 0.01649235549328338,
+      "learning_rate": 1.963619294020413e-06,
+      "loss": 0.4813,
+      "step": 174
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 0.017089151903788,
+      "learning_rate": 1.9629466690411472e-06,
+      "loss": 0.4655,
+      "step": 175
+    },
+    {
+      "epoch": 2.630393996247655,
+      "grad_norm": 0.01640933754335135,
+      "learning_rate": 1.9622680003092503e-06,
+      "loss": 0.4707,
+      "step": 176
+    },
+    {
+      "epoch": 2.645403377110694,
+      "grad_norm": 0.016910827126253334,
+      "learning_rate": 1.9615832920842585e-06,
+      "loss": 0.4746,
+      "step": 177
+    },
+    {
+      "epoch": 2.6604127579737336,
+      "grad_norm": 0.016866233985154282,
+      "learning_rate": 1.9608925486636137e-06,
+      "loss": 0.4779,
+      "step": 178
+    },
+    {
+      "epoch": 2.675422138836773,
+      "grad_norm": 0.016909921106817608,
+      "learning_rate": 1.9601957743826357e-06,
+      "loss": 0.4746,
+      "step": 179
+    },
+    {
+      "epoch": 2.6904315196998123,
+      "grad_norm": 0.0168852778181624,
+      "learning_rate": 1.9594929736144973e-06,
+      "loss": 0.4689,
+      "step": 180
+    },
+    {
+      "epoch": 2.7054409005628517,
+      "grad_norm": 0.016401176940009726,
+      "learning_rate": 1.958784150770194e-06,
+      "loss": 0.4797,
+      "step": 181
+    },
+    {
+      "epoch": 2.720450281425891,
+      "grad_norm": 0.016798403098782076,
+      "learning_rate": 1.9580693102985183e-06,
+      "loss": 0.4857,
+      "step": 182
+    },
+    {
+      "epoch": 2.7354596622889304,
+      "grad_norm": 0.016774376394434458,
+      "learning_rate": 1.9573484566860318e-06,
+      "loss": 0.4778,
+      "step": 183
+    },
+    {
+      "epoch": 2.75046904315197,
+      "grad_norm": 0.01629889660789357,
+      "learning_rate": 1.956621594457035e-06,
+      "loss": 0.4732,
+      "step": 184
+    },
+    {
+      "epoch": 2.7654784240150097,
+      "grad_norm": 0.016664693825275887,
+      "learning_rate": 1.955888728173542e-06,
+      "loss": 0.4748,
+      "step": 185
+    },
+    {
+      "epoch": 2.7804878048780486,
+      "grad_norm": 0.016438663495088306,
+      "learning_rate": 1.9551498624352495e-06,
+      "loss": 0.4692,
+      "step": 186
+    },
+    {
+      "epoch": 2.7954971857410884,
+      "grad_norm": 0.01622929505747816,
+      "learning_rate": 1.9544050018795075e-06,
+      "loss": 0.4596,
+      "step": 187
+    },
+    {
+      "epoch": 2.8105065666041273,
+      "grad_norm": 0.01617655541567404,
+      "learning_rate": 1.953654151181293e-06,
+      "loss": 0.4692,
+      "step": 188
+    },
+    {
+      "epoch": 2.825515947467167,
+      "grad_norm": 0.016422497381573444,
+      "learning_rate": 1.9528973150531785e-06,
+      "loss": 0.4816,
+      "step": 189
+    },
+    {
+      "epoch": 2.8405253283302065,
+      "grad_norm": 0.016242133515846205,
+      "learning_rate": 1.9521344982453028e-06,
+      "loss": 0.461,
+      "step": 190
+    },
+    {
+      "epoch": 2.855534709193246,
+      "grad_norm": 0.01614541338103813,
+      "learning_rate": 1.951365705545341e-06,
+      "loss": 0.4648,
+      "step": 191
+    },
+    {
+      "epoch": 2.8705440900562853,
+      "grad_norm": 0.016610969075841926,
+      "learning_rate": 1.9505909417784754e-06,
+      "loss": 0.4821,
+      "step": 192
+    },
+    {
+      "epoch": 2.8855534709193247,
+      "grad_norm": 0.01603749843836089,
+      "learning_rate": 1.949810211807364e-06,
+      "loss": 0.4683,
+      "step": 193
+    },
+    {
+      "epoch": 2.900562851782364,
+      "grad_norm": 0.016182649712645568,
+      "learning_rate": 1.9490235205321113e-06,
+      "loss": 0.4711,
+      "step": 194
+    },
+    {
+      "epoch": 2.9155722326454034,
+      "grad_norm": 0.015691775043731006,
+      "learning_rate": 1.9482308728902354e-06,
+      "loss": 0.4679,
+      "step": 195
+    },
+    {
+      "epoch": 2.930581613508443,
+      "grad_norm": 0.01562069940201586,
+      "learning_rate": 1.94743227385664e-06,
+      "loss": 0.4635,
+      "step": 196
+    },
+    {
+      "epoch": 2.945590994371482,
+      "grad_norm": 0.016502000964567342,
+      "learning_rate": 1.946627728443581e-06,
+      "loss": 0.4846,
+      "step": 197
+    },
+    {
+      "epoch": 2.9606003752345216,
+      "grad_norm": 0.016314776580001914,
+      "learning_rate": 1.9458172417006346e-06,
+      "loss": 0.4687,
+      "step": 198
+    },
+    {
+      "epoch": 2.9606003752345216,
+      "eval_loss": 0.45064201951026917,
+      "eval_runtime": 13.829,
+      "eval_samples_per_second": 32.323,
+      "eval_steps_per_second": 2.025,
+      "step": 198
+    },
+    {
+      "epoch": 2.975609756097561,
+      "grad_norm": 0.016032669050809613,
+      "learning_rate": 1.945000818714668e-06,
+      "loss": 0.4671,
+      "step": 199
+    },
+    {
+      "epoch": 2.9906191369606003,
+      "grad_norm": 0.015653715448159893,
+      "learning_rate": 1.9441784646098063e-06,
+      "loss": 0.4711,
+      "step": 200
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.02223419252139366,
+      "learning_rate": 1.9433501845473993e-06,
+      "loss": 0.4737,
+      "step": 201
+    },
+    {
+      "epoch": 3.0150093808630394,
+      "grad_norm": 0.01514004662536423,
+      "learning_rate": 1.942515983725989e-06,
+      "loss": 0.4623,
+      "step": 202
+    },
+    {
+      "epoch": 3.0300187617260788,
+      "grad_norm": 0.015881834319376502,
+      "learning_rate": 1.9416758673812807e-06,
+      "loss": 0.4644,
+      "step": 203
+    },
+    {
+      "epoch": 3.045028142589118,
+      "grad_norm": 0.015532270172868397,
+      "learning_rate": 1.940829840786104e-06,
+      "loss": 0.4661,
+      "step": 204
+    },
+    {
+      "epoch": 3.0600375234521575,
+      "grad_norm": 0.015406068622430446,
+      "learning_rate": 1.9399779092503866e-06,
+      "loss": 0.4739,
+      "step": 205
+    },
+    {
+      "epoch": 3.075046904315197,
+      "grad_norm": 0.015806639463125247,
+      "learning_rate": 1.9391200781211143e-06,
+      "loss": 0.4663,
+      "step": 206
+    },
+    {
+      "epoch": 3.0900562851782363,
+      "grad_norm": 0.015442763548195685,
+      "learning_rate": 1.9382563527823025e-06,
+      "loss": 0.4618,
+      "step": 207
+    },
+    {
+      "epoch": 3.1050656660412757,
+      "grad_norm": 0.016087586162934313,
+      "learning_rate": 1.93738673865496e-06,
+      "loss": 0.4768,
+      "step": 208
+    },
+    {
+      "epoch": 3.120075046904315,
+      "grad_norm": 0.015086642867178588,
+      "learning_rate": 1.9365112411970546e-06,
+      "loss": 0.4527,
+      "step": 209
+    },
+    {
+      "epoch": 3.1350844277673544,
+      "grad_norm": 0.015544622423445547,
+      "learning_rate": 1.9356298659034817e-06,
+      "loss": 0.4633,
+      "step": 210
+    },
+    {
+      "epoch": 3.150093808630394,
+      "grad_norm": 0.015639897610521446,
+      "learning_rate": 1.934742618306026e-06,
+      "loss": 0.4647,
+      "step": 211
+    },
+    {
+      "epoch": 3.1651031894934336,
+      "grad_norm": 0.015476405998347507,
+      "learning_rate": 1.9338495039733286e-06,
+      "loss": 0.4758,
+      "step": 212
+    },
+    {
+      "epoch": 3.180112570356473,
+      "grad_norm": 0.015338735369002602,
+      "learning_rate": 1.932950528510854e-06,
+      "loss": 0.4713,
+      "step": 213
+    },
+    {
+      "epoch": 3.1951219512195124,
+      "grad_norm": 0.015887835721317498,
+      "learning_rate": 1.932045697560851e-06,
+      "loss": 0.488,
+      "step": 214
+    },
+    {
+      "epoch": 3.2101313320825517,
+      "grad_norm": 0.015551083745535117,
+      "learning_rate": 1.9311350168023193e-06,
+      "loss": 0.4712,
+      "step": 215
+    },
+    {
+      "epoch": 3.225140712945591,
+      "grad_norm": 0.015325879160020314,
+      "learning_rate": 1.9302184919509753e-06,
+      "loss": 0.4608,
+      "step": 216
+    },
+    {
+      "epoch": 3.2401500938086305,
+      "grad_norm": 0.014851862570601724,
+      "learning_rate": 1.9292961287592137e-06,
+      "loss": 0.4584,
+      "step": 217
+    },
+    {
+      "epoch": 3.25515947467167,
+      "grad_norm": 0.01524320818707719,
+      "learning_rate": 1.9283679330160725e-06,
+      "loss": 0.4563,
+      "step": 218
+    },
+    {
+      "epoch": 3.2701688555347093,
+      "grad_norm": 0.01574419013401929,
+      "learning_rate": 1.9274339105471968e-06,
+      "loss": 0.4637,
+      "step": 219
+    },
+    {
+      "epoch": 3.2851782363977486,
+      "grad_norm": 0.014929249445401652,
+      "learning_rate": 1.9264940672148015e-06,
+      "loss": 0.4536,
+      "step": 220
+    },
+    {
+      "epoch": 3.300187617260788,
+      "grad_norm": 0.015275176183210167,
+      "learning_rate": 1.9255484089176364e-06,
+      "loss": 0.477,
+      "step": 221
+    },
+    {
+      "epoch": 3.3151969981238274,
+      "grad_norm": 0.014832301389772685,
+      "learning_rate": 1.924596941590946e-06,
+      "loss": 0.4545,
+      "step": 222
+    },
+    {
+      "epoch": 3.3302063789868668,
+      "grad_norm": 0.014806138439426077,
+      "learning_rate": 1.9236396712064356e-06,
+      "loss": 0.4564,
+      "step": 223
+    },
+    {
+      "epoch": 3.345215759849906,
+      "grad_norm": 0.015216973896443366,
+      "learning_rate": 1.9226766037722316e-06,
+      "loss": 0.4775,
+      "step": 224
+    },
+    {
+      "epoch": 3.3602251407129455,
+      "grad_norm": 0.015830800852046037,
+      "learning_rate": 1.9217077453328448e-06,
+      "loss": 0.4655,
+      "step": 225
+    },
+    {
+      "epoch": 3.375234521575985,
+      "grad_norm": 0.014954797566724949,
+      "learning_rate": 1.9207331019691313e-06,
+      "loss": 0.4683,
+      "step": 226
+    },
+    {
+      "epoch": 3.3902439024390243,
+      "grad_norm": 0.014824714915179381,
+      "learning_rate": 1.9197526797982563e-06,
+      "loss": 0.468,
+      "step": 227
+    },
+    {
+      "epoch": 3.4052532833020637,
+      "grad_norm": 0.015070859630471943,
+      "learning_rate": 1.918766484973654e-06,
+      "loss": 0.4508,
+      "step": 228
+    },
+    {
+      "epoch": 3.420262664165103,
+      "grad_norm": 0.01499772386383127,
+      "learning_rate": 1.9177745236849897e-06,
+      "loss": 0.4607,
+      "step": 229
+    },
+    {
+      "epoch": 3.4352720450281424,
+      "grad_norm": 0.01470349681548681,
+      "learning_rate": 1.9167768021581207e-06,
+      "loss": 0.4545,
+      "step": 230
+    },
+    {
+      "epoch": 3.450281425891182,
+      "grad_norm": 0.014758480658159613,
+      "learning_rate": 1.915773326655057e-06,
+      "loss": 0.453,
+      "step": 231
+    },
+    {
+      "epoch": 3.465290806754221,
+      "grad_norm": 0.01473967663449321,
+      "learning_rate": 1.9147641034739244e-06,
+      "loss": 0.4561,
+      "step": 232
+    },
+    {
+      "epoch": 3.480300187617261,
+      "grad_norm": 0.01500366500390119,
+      "learning_rate": 1.9137491389489197e-06,
+      "loss": 0.468,
+      "step": 233
+    },
+    {
+      "epoch": 3.4953095684803,
+      "grad_norm": 0.014848085370275077,
+      "learning_rate": 1.912728439450276e-06,
+      "loss": 0.4578,
+      "step": 234
+    },
+    {
+      "epoch": 3.5103189493433398,
+      "grad_norm": 0.014381703396358053,
+      "learning_rate": 1.9117020113842214e-06,
+      "loss": 0.454,
+      "step": 235
+    },
+    {
+      "epoch": 3.525328330206379,
+      "grad_norm": 0.015112883990438414,
+      "learning_rate": 1.910669861192937e-06,
+      "loss": 0.4568,
+      "step": 236
+    },
+    {
+      "epoch": 3.5403377110694185,
+      "grad_norm": 0.014957316535602687,
+      "learning_rate": 1.9096319953545185e-06,
+      "loss": 0.4587,
+      "step": 237
+    },
+    {
+      "epoch": 3.555347091932458,
+      "grad_norm": 0.014931146009771568,
+      "learning_rate": 1.908588420382934e-06,
+      "loss": 0.4611,
+      "step": 238
+    },
+    {
+      "epoch": 3.5703564727954973,
+      "grad_norm": 0.014775742620555714,
+      "learning_rate": 1.9075391428279847e-06,
+      "loss": 0.4639,
+      "step": 239
+    },
+    {
+      "epoch": 3.5853658536585367,
+      "grad_norm": 0.014136489795191264,
+      "learning_rate": 1.906484169275263e-06,
+      "loss": 0.4479,
+      "step": 240
+    },
+    {
+      "epoch": 3.600375234521576,
+      "grad_norm": 0.014789494140792015,
+      "learning_rate": 1.9054235063461103e-06,
+      "loss": 0.4695,
+      "step": 241
+    },
+    {
+      "epoch": 3.6153846153846154,
+      "grad_norm": 0.014464423814392216,
+      "learning_rate": 1.9043571606975775e-06,
+      "loss": 0.4527,
+      "step": 242
+    },
+    {
+      "epoch": 3.630393996247655,
+      "grad_norm": 0.014608804721408216,
+      "learning_rate": 1.903285139022381e-06,
+      "loss": 0.464,
+      "step": 243
+    },
+    {
+      "epoch": 3.645403377110694,
+      "grad_norm": 0.014617662641472032,
+      "learning_rate": 1.9022074480488616e-06,
+      "loss": 0.4605,
+      "step": 244
+    },
+    {
+      "epoch": 3.6604127579737336,
+      "grad_norm": 0.01474231509935561,
+      "learning_rate": 1.901124094540944e-06,
+      "loss": 0.4494,
+      "step": 245
+    },
+    {
+      "epoch": 3.675422138836773,
+      "grad_norm": 0.014438782822529975,
+      "learning_rate": 1.9000350852980907e-06,
+      "loss": 0.4501,
+      "step": 246
+    },
+    {
+      "epoch": 3.6904315196998123,
+      "grad_norm": 0.015011699255171157,
+      "learning_rate": 1.8989404271552628e-06,
+      "loss": 0.474,
+      "step": 247
+    },
+    {
+      "epoch": 3.7054409005628517,
+      "grad_norm": 0.014342680013044425,
+      "learning_rate": 1.8978401269828743e-06,
+      "loss": 0.4448,
+      "step": 248
+    },
+    {
+      "epoch": 3.720450281425891,
+      "grad_norm": 0.014862003016937061,
+      "learning_rate": 1.8967341916867517e-06,
+      "loss": 0.4627,
+      "step": 249
+    },
+    {
+      "epoch": 3.7354596622889304,
+      "grad_norm": 0.014657009740811595,
+      "learning_rate": 1.8956226282080887e-06,
+      "loss": 0.4695,
+      "step": 250
+    },
+    {
+      "epoch": 3.75046904315197,
+      "grad_norm": 0.01399652480743858,
+      "learning_rate": 1.8945054435234032e-06,
+      "loss": 0.4485,
+      "step": 251
+    },
+    {
+      "epoch": 3.7654784240150097,
+      "grad_norm": 0.01482138592733111,
+      "learning_rate": 1.893382644644493e-06,
+      "loss": 0.4541,
+      "step": 252
+    },
+    {
+      "epoch": 3.7804878048780486,
+      "grad_norm": 0.014805529769546168,
+      "learning_rate": 1.8922542386183939e-06,
+      "loss": 0.4574,
+      "step": 253
+    },
+    {
+      "epoch": 3.7954971857410884,
+      "grad_norm": 0.014571190288480682,
+      "learning_rate": 1.8911202325273323e-06,
+      "loss": 0.4494,
+      "step": 254
+    },
+    {
+      "epoch": 3.8105065666041273,
+      "grad_norm": 0.0147815449251929,
+      "learning_rate": 1.8899806334886828e-06,
+      "loss": 0.4587,
+      "step": 255
+    },
+    {
+      "epoch": 3.825515947467167,
+      "grad_norm": 0.014250828964641306,
+      "learning_rate": 1.8888354486549234e-06,
+      "loss": 0.461,
+      "step": 256
+    },
+    {
+      "epoch": 3.8405253283302065,
+      "grad_norm": 0.014756398846796545,
+      "learning_rate": 1.8876846852135901e-06,
+      "loss": 0.4454,
+      "step": 257
+    },
+    {
+      "epoch": 3.855534709193246,
+      "grad_norm": 0.014425887354809732,
+      "learning_rate": 1.8865283503872323e-06,
+      "loss": 0.4514,
+      "step": 258
+    },
+    {
+      "epoch": 3.8705440900562853,
+      "grad_norm": 0.014515933982418967,
+      "learning_rate": 1.8853664514333661e-06,
+      "loss": 0.4674,
+      "step": 259
+    },
+    {
+      "epoch": 3.8855534709193247,
+      "grad_norm": 0.015102016577158591,
+      "learning_rate": 1.8841989956444309e-06,
+      "loss": 0.4681,
+      "step": 260
+    },
+    {
+      "epoch": 3.900562851782364,
+      "grad_norm": 0.01429047197261286,
+      "learning_rate": 1.8830259903477424e-06,
+      "loss": 0.4478,
+      "step": 261
+    },
+    {
+      "epoch": 3.9155722326454034,
+      "grad_norm": 0.014175055891186608,
+      "learning_rate": 1.881847442905446e-06,
+      "loss": 0.4466,
+      "step": 262
+    },
+    {
+      "epoch": 3.930581613508443,
+      "grad_norm": 0.014199706390703304,
+      "learning_rate": 1.8806633607144724e-06,
+      "loss": 0.4633,
+      "step": 263
+    },
+    {
+      "epoch": 3.945590994371482,
+      "grad_norm": 0.014134069587260203,
+      "learning_rate": 1.8794737512064888e-06,
+      "loss": 0.4622,
+      "step": 264
+    },
+    {
+      "epoch": 3.945590994371482,
+      "eval_loss": 0.4357408583164215,
+      "eval_runtime": 13.9645,
+      "eval_samples_per_second": 32.01,
+      "eval_steps_per_second": 2.005,
+      "step": 264
+    },
+    {
+      "epoch": 3.9606003752345216,
+      "grad_norm": 0.014023531184218459,
+      "learning_rate": 1.878278621847855e-06,
+      "loss": 0.4515,
+      "step": 265
+    },
+    {
+      "epoch": 3.975609756097561,
+      "grad_norm": 0.014386733226076575,
+      "learning_rate": 1.8770779801395738e-06,
+      "loss": 0.4509,
+      "step": 266
+    },
+    {
+      "epoch": 3.9906191369606003,
+      "grad_norm": 0.014531318566438902,
+      "learning_rate": 1.875871833617246e-06,
+      "loss": 0.4532,
+      "step": 267
+    },
+    {
+      "epoch": 4.01500938086304,
+      "grad_norm": 0.022435033190231806,
+      "learning_rate": 1.874660189851022e-06,
+      "loss": 0.901,
+      "step": 268
+    },
+    {
+      "epoch": 4.030018761726079,
+      "grad_norm": 0.014231420288400026,
+      "learning_rate": 1.8734430564455548e-06,
+      "loss": 0.4498,
+      "step": 269
+    },
+    {
+      "epoch": 4.045028142589119,
+      "grad_norm": 0.01459887414261473,
+      "learning_rate": 1.872220441039952e-06,
+      "loss": 0.4623,
+      "step": 270
+    },
+    {
+      "epoch": 4.0600375234521575,
+      "grad_norm": 0.014035710638968229,
+      "learning_rate": 1.870992351307728e-06,
+      "loss": 0.4531,
+      "step": 271
+    },
+    {
+      "epoch": 4.075046904315197,
+      "grad_norm": 0.01398312713702392,
+      "learning_rate": 1.8697587949567556e-06,
+      "loss": 0.4583,
+      "step": 272
+    },
+    {
+      "epoch": 4.090056285178236,
+      "grad_norm": 0.014204886625475947,
+      "learning_rate": 1.868519779729218e-06,
+      "loss": 0.4564,
+      "step": 273
+    },
+    {
+      "epoch": 4.105065666041276,
+      "grad_norm": 0.013937605618481593,
+      "learning_rate": 1.8672753134015595e-06,
+      "loss": 0.45,
+      "step": 274
+    },
+    {
+      "epoch": 4.120075046904315,
+      "grad_norm": 0.014035968722853485,
+      "learning_rate": 1.8660254037844386e-06,
+      "loss": 0.4539,
+      "step": 275
+    },
+    {
+      "epoch": 4.135084427767355,
+      "grad_norm": 0.013953280133352524,
+      "learning_rate": 1.8647700587226757e-06,
+      "loss": 0.4355,
+      "step": 276
+    },
+    {
+      "epoch": 4.150093808630394,
+      "grad_norm": 0.014026635079346822,
+      "learning_rate": 1.863509286095207e-06,
+      "loss": 0.4597,
+      "step": 277
+    },
+    {
+      "epoch": 4.165103189493434,
+      "grad_norm": 0.013907777893968047,
+      "learning_rate": 1.8622430938150336e-06,
+      "loss": 0.4572,
+      "step": 278
+    },
+    {
+      "epoch": 4.1801125703564725,
+      "grad_norm": 0.014404008458403212,
+      "learning_rate": 1.8609714898291714e-06,
+      "loss": 0.4463,
+      "step": 279
+    },
+    {
+      "epoch": 4.195121951219512,
+      "grad_norm": 0.014119288813333237,
+      "learning_rate": 1.8596944821186025e-06,
+      "loss": 0.4559,
+      "step": 280
+    },
+    {
+      "epoch": 4.210131332082551,
+      "grad_norm": 0.014044205401061443,
+      "learning_rate": 1.8584120786982243e-06,
+      "loss": 0.4456,
+      "step": 281
+    },
+    {
+      "epoch": 4.225140712945591,
+      "grad_norm": 0.014403222487556044,
+      "learning_rate": 1.8571242876167993e-06,
+      "loss": 0.4574,
+      "step": 282
+    },
+    {
+      "epoch": 4.24015009380863,
+      "grad_norm": 0.014536903944634817,
+      "learning_rate": 1.8558311169569046e-06,
+      "loss": 0.4509,
+      "step": 283
+    },
+    {
+      "epoch": 4.25515947467167,
+      "grad_norm": 0.013763721532947899,
+      "learning_rate": 1.8545325748348816e-06,
+      "loss": 0.4461,
+      "step": 284
+    },
+    {
+      "epoch": 4.270168855534709,
+      "grad_norm": 0.013895967925956643,
+      "learning_rate": 1.8532286694007836e-06,
+      "loss": 0.4554,
+      "step": 285
+    },
+    {
+      "epoch": 4.285178236397749,
+      "grad_norm": 0.01393914459390315,
+      "learning_rate": 1.851919408838327e-06,
+      "loss": 0.4397,
+      "step": 286
+    },
+    {
+      "epoch": 4.300187617260788,
+      "grad_norm": 0.013537134276235397,
+      "learning_rate": 1.850604801364838e-06,
+      "loss": 0.4562,
+      "step": 287
+    },
+    {
+      "epoch": 4.315196998123827,
+      "grad_norm": 0.014143471820575505,
+      "learning_rate": 1.8492848552312013e-06,
+      "loss": 0.4535,
+      "step": 288
+    },
+    {
+      "epoch": 4.330206378986867,
+      "grad_norm": 0.013836631457896802,
+      "learning_rate": 1.8479595787218098e-06,
+      "loss": 0.4429,
+      "step": 289
+    },
+    {
+      "epoch": 4.345215759849906,
+      "grad_norm": 0.013594205543129362,
+      "learning_rate": 1.8466289801545104e-06,
+      "loss": 0.4403,
+      "step": 290
+    },
+    {
+      "epoch": 4.360225140712946,
+      "grad_norm": 0.013860702615794385,
+      "learning_rate": 1.8452930678805533e-06,
+      "loss": 0.4474,
+      "step": 291
+    },
+    {
+      "epoch": 4.375234521575985,
+      "grad_norm": 0.014225127650714606,
+      "learning_rate": 1.8439518502845396e-06,
+      "loss": 0.4477,
+      "step": 292
+    },
+    {
+      "epoch": 4.390243902439025,
+      "grad_norm": 0.014938943538672861,
+      "learning_rate": 1.8426053357843677e-06,
+      "loss": 0.449,
+      "step": 293
+    },
+    {
+      "epoch": 4.405253283302064,
+      "grad_norm": 0.014757581146971215,
+      "learning_rate": 1.8412535328311812e-06,
+      "loss": 0.4296,
+      "step": 294
+    },
+    {
+      "epoch": 4.4202626641651035,
+      "grad_norm": 0.013546168269445344,
+      "learning_rate": 1.8398964499093152e-06,
+      "loss": 0.4582,
+      "step": 295
+    },
+    {
+      "epoch": 4.435272045028142,
+      "grad_norm": 0.01407135906976384,
+      "learning_rate": 1.8385340955362445e-06,
+      "loss": 0.4526,
+      "step": 296
+    },
+    {
+      "epoch": 4.450281425891182,
+      "grad_norm": 0.014172740828230739,
+      "learning_rate": 1.8371664782625285e-06,
+      "loss": 0.4488,
+      "step": 297
+    },
+    {
+      "epoch": 4.465290806754221,
+      "grad_norm": 0.01412396469645932,
+      "learning_rate": 1.8357936066717583e-06,
+      "loss": 0.444,
+      "step": 298
+    },
+    {
+      "epoch": 4.480300187617261,
+      "grad_norm": 0.014088947324034075,
+      "learning_rate": 1.8344154893805026e-06,
+      "loss": 0.4381,
+      "step": 299
+    },
+    {
+      "epoch": 4.4953095684803,
+      "grad_norm": 0.014071918393412349,
+      "learning_rate": 1.8330321350382542e-06,
+      "loss": 0.4564,
+      "step": 300
+    },
+    {
+      "epoch": 4.51031894934334,
+      "grad_norm": 0.01403461284817204,
+      "learning_rate": 1.831643552327375e-06,
+      "loss": 0.4526,
+      "step": 301
+    },
+    {
+      "epoch": 4.525328330206379,
+      "grad_norm": 0.014031997266113018,
+      "learning_rate": 1.8302497499630413e-06,
+      "loss": 0.436,
+      "step": 302
+    },
+    {
+      "epoch": 4.5403377110694185,
+      "grad_norm": 0.013947785382431976,
+      "learning_rate": 1.8288507366931904e-06,
+      "loss": 0.4543,
+      "step": 303
+    },
+    {
+      "epoch": 4.5553470919324575,
+      "grad_norm": 0.013628442283807026,
+      "learning_rate": 1.8274465212984645e-06,
+      "loss": 0.4493,
+      "step": 304
+    },
+    {
+      "epoch": 4.570356472795497,
+      "grad_norm": 0.013780622075694634,
+      "learning_rate": 1.8260371125921558e-06,
+      "loss": 0.4541,
+      "step": 305
+    },
+    {
+      "epoch": 4.585365853658536,
+      "grad_norm": 0.01367940406253203,
+      "learning_rate": 1.8246225194201513e-06,
+      "loss": 0.4497,
+      "step": 306
+    },
+    {
+      "epoch": 4.600375234521576,
+      "grad_norm": 0.014142512306958784,
+      "learning_rate": 1.8232027506608778e-06,
+      "loss": 0.4499,
+      "step": 307
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 0.013824356322542732,
+      "learning_rate": 1.821777815225245e-06,
+      "loss": 0.4451,
+      "step": 308
+    },
+    {
+      "epoch": 4.630393996247655,
+      "grad_norm": 0.013296623575056241,
+      "learning_rate": 1.820347722056591e-06,
+      "loss": 0.4512,
+      "step": 309
+    },
+    {
+      "epoch": 4.645403377110695,
+      "grad_norm": 0.01368390848987212,
+      "learning_rate": 1.818912480130625e-06,
+      "loss": 0.4451,
+      "step": 310
+    },
+    {
+      "epoch": 4.6604127579737336,
+      "grad_norm": 0.013358544096664208,
+      "learning_rate": 1.8174720984553712e-06,
+      "loss": 0.4454,
+      "step": 311
+    },
+    {
+      "epoch": 4.6754221388367725,
+      "grad_norm": 0.014400294321699255,
+      "learning_rate": 1.8160265860711132e-06,
+      "loss": 0.4425,
+      "step": 312
+    },
+    {
+      "epoch": 4.690431519699812,
+      "grad_norm": 0.013756109715941985,
+      "learning_rate": 1.8145759520503357e-06,
+      "loss": 0.4531,
+      "step": 313
+    },
+    {
+      "epoch": 4.705440900562852,
+      "grad_norm": 0.013628586470860909,
+      "learning_rate": 1.8131202054976687e-06,
+      "loss": 0.4425,
+      "step": 314
+    },
+    {
+      "epoch": 4.720450281425891,
+      "grad_norm": 0.013358205799936783,
+      "learning_rate": 1.8116593555498305e-06,
+      "loss": 0.4508,
+      "step": 315
+    },
+    {
+      "epoch": 4.735459662288931,
+      "grad_norm": 0.014217584611552704,
+      "learning_rate": 1.810193411375569e-06,
+      "loss": 0.4537,
+      "step": 316
+    },
+    {
+      "epoch": 4.75046904315197,
+      "grad_norm": 0.013645086599534274,
+      "learning_rate": 1.808722382175606e-06,
+      "loss": 0.4478,
+      "step": 317
+    },
+    {
+      "epoch": 4.76547842401501,
+      "grad_norm": 0.014072448637602094,
+      "learning_rate": 1.8072462771825778e-06,
+      "loss": 0.4518,
+      "step": 318
+    },
+    {
+      "epoch": 4.780487804878049,
+      "grad_norm": 0.013395441388107984,
+      "learning_rate": 1.8057651056609782e-06,
+      "loss": 0.4428,
+      "step": 319
+    },
+    {
+      "epoch": 4.795497185741088,
+      "grad_norm": 0.013975384875639913,
+      "learning_rate": 1.8042788769070997e-06,
+      "loss": 0.4451,
+      "step": 320
+    },
+    {
+      "epoch": 4.810506566604127,
+      "grad_norm": 0.013421942808358008,
+      "learning_rate": 1.802787600248977e-06,
+      "loss": 0.4375,
+      "step": 321
+    },
+    {
+      "epoch": 4.825515947467167,
+      "grad_norm": 0.014009319367795352,
+      "learning_rate": 1.8012912850463247e-06,
+      "loss": 0.454,
+      "step": 322
+    },
+    {
+      "epoch": 4.840525328330206,
+      "grad_norm": 0.013790459864287155,
+      "learning_rate": 1.7997899406904833e-06,
+      "loss": 0.4454,
+      "step": 323
+    },
+    {
+      "epoch": 4.855534709193246,
+      "grad_norm": 0.013608907293000358,
+      "learning_rate": 1.7982835766043558e-06,
+      "loss": 0.4428,
+      "step": 324
+    },
+    {
+      "epoch": 4.870544090056285,
+      "grad_norm": 0.013990463928312293,
+      "learning_rate": 1.7967722022423519e-06,
+      "loss": 0.4442,
+      "step": 325
+    },
+    {
+      "epoch": 4.885553470919325,
+      "grad_norm": 0.013540266851849116,
+      "learning_rate": 1.795255827090327e-06,
+      "loss": 0.4498,
+      "step": 326
+    },
+    {
+      "epoch": 4.900562851782364,
+      "grad_norm": 0.013504467127123212,
+      "learning_rate": 1.7937344606655226e-06,
+      "loss": 0.4484,
+      "step": 327
+    },
+    {
+      "epoch": 4.915572232645403,
+      "grad_norm": 0.013720590668768537,
+      "learning_rate": 1.7922081125165075e-06,
+      "loss": 0.4375,
+      "step": 328
+    },
+    {
+      "epoch": 4.930581613508442,
+      "grad_norm": 0.013786451177835153,
+      "learning_rate": 1.7906767922231171e-06,
+      "loss": 0.4366,
+      "step": 329
+    },
+    {
+      "epoch": 4.945590994371482,
+      "grad_norm": 0.013176942655191242,
+      "learning_rate": 1.7891405093963937e-06,
+      "loss": 0.4505,
+      "step": 330
+    },
+    {
+      "epoch": 4.945590994371482,
+      "eval_loss": 0.4254697263240814,
+      "eval_runtime": 13.8629,
+      "eval_samples_per_second": 32.244,
+      "eval_steps_per_second": 2.02,
+      "step": 330
+    },
+    {
+      "epoch": 4.960600375234522,
+      "grad_norm": 0.013540995677048154,
+      "learning_rate": 1.7875992736785255e-06,
+      "loss": 0.4364,
+      "step": 331
+    },
+    {
+      "epoch": 4.975609756097561,
+      "grad_norm": 0.013148307270088234,
+      "learning_rate": 1.7860530947427874e-06,
+      "loss": 0.4234,
+      "step": 332
+    },
+    {
+      "epoch": 4.9906191369606,
+      "grad_norm": 0.013580201172669656,
+      "learning_rate": 1.7845019822934787e-06,
+      "loss": 0.4341,
+      "step": 333
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.018296171270344976,
+      "learning_rate": 1.7829459460658637e-06,
+      "loss": 0.4486,
+      "step": 334
+    },
+    {
+      "epoch": 5.01500938086304,
+      "grad_norm": 0.014697785626980316,
+      "learning_rate": 1.7813849958261094e-06,
+      "loss": 0.4341,
+      "step": 335
+    },
+    {
+      "epoch": 5.030018761726079,
+      "grad_norm": 0.014043055899901864,
+      "learning_rate": 1.7798191413712242e-06,
+      "loss": 0.4479,
+      "step": 336
+    },
+    {
+      "epoch": 5.045028142589119,
+      "grad_norm": 0.013424222741471816,
+      "learning_rate": 1.778248392528998e-06,
+      "loss": 0.4489,
+      "step": 337
+    },
+    {
+      "epoch": 5.0600375234521575,
+      "grad_norm": 0.012943130776201624,
+      "learning_rate": 1.7766727591579387e-06,
+      "loss": 0.4288,
+      "step": 338
+    },
+    {
+      "epoch": 5.075046904315197,
+      "grad_norm": 0.013826788871450798,
+      "learning_rate": 1.7750922511472108e-06,
+      "loss": 0.4431,
+      "step": 339
+    },
+    {
+      "epoch": 5.090056285178236,
+      "grad_norm": 0.01434896451317387,
+      "learning_rate": 1.7735068784165744e-06,
+      "loss": 0.4298,
+      "step": 340
+    },
+    {
+      "epoch": 5.105065666041276,
+      "grad_norm": 0.013543345476736609,
+      "learning_rate": 1.7719166509163208e-06,
+      "loss": 0.4443,
+      "step": 341
+    },
+    {
+      "epoch": 5.120075046904315,
+      "grad_norm": 0.013654867873190223,
+      "learning_rate": 1.7703215786272128e-06,
+      "loss": 0.4471,
+      "step": 342
+    },
+    {
+      "epoch": 5.135084427767355,
+      "grad_norm": 0.013298753867087855,
+      "learning_rate": 1.76872167156042e-06,
+      "loss": 0.4344,
+      "step": 343
+    },
+    {
+      "epoch": 5.150093808630394,
+      "grad_norm": 0.013653938903598364,
+      "learning_rate": 1.767116939757456e-06,
+      "loss": 0.4365,
+      "step": 344
+    },
+    {
+      "epoch": 5.165103189493434,
+      "grad_norm": 0.013329024847758256,
+      "learning_rate": 1.7655073932901165e-06,
+      "loss": 0.4312,
+      "step": 345
+    },
+    {
+      "epoch": 5.1801125703564725,
+      "grad_norm": 0.013615866345533169,
+      "learning_rate": 1.763893042260416e-06,
+      "loss": 0.4402,
+      "step": 346
+    },
+    {
+      "epoch": 5.195121951219512,
+      "grad_norm": 0.013772143243209281,
+      "learning_rate": 1.7622738968005226e-06,
+      "loss": 0.4416,
+      "step": 347
+    },
+    {
+      "epoch": 5.210131332082551,
+      "grad_norm": 0.013480347503805534,
+      "learning_rate": 1.7606499670726968e-06,
+      "loss": 0.4472,
+      "step": 348
+    },
+    {
+      "epoch": 5.225140712945591,
+      "grad_norm": 0.013157923235962578,
+      "learning_rate": 1.759021263269227e-06,
+      "loss": 0.4317,
+      "step": 349
+    },
+    {
+      "epoch": 5.24015009380863,
+      "grad_norm": 0.013273852412143418,
+      "learning_rate": 1.7573877956123637e-06,
+      "loss": 0.4334,
+      "step": 350
+    },
+    {
+      "epoch": 5.25515947467167,
+      "grad_norm": 0.013606909673657986,
+      "learning_rate": 1.7557495743542582e-06,
+      "loss": 0.4371,
+      "step": 351
+    },
+    {
+      "epoch": 5.270168855534709,
+      "grad_norm": 0.013941507400326235,
+      "learning_rate": 1.754106609776896e-06,
+      "loss": 0.4431,
+      "step": 352
+    },
+    {
+      "epoch": 5.285178236397749,
+      "grad_norm": 0.013436310560981397,
+      "learning_rate": 1.7524589121920342e-06,
+      "loss": 0.442,
+      "step": 353
+    },
+    {
+      "epoch": 5.300187617260788,
+      "grad_norm": 0.01329009884820222,
+      "learning_rate": 1.7508064919411343e-06,
+      "loss": 0.4497,
+      "step": 354
+    },
+    {
+      "epoch": 5.315196998123827,
+      "grad_norm": 0.01367800689726424,
+      "learning_rate": 1.7491493593952996e-06,
+      "loss": 0.4393,
+      "step": 355
+    },
+    {
+      "epoch": 5.330206378986867,
+      "grad_norm": 0.01354483521655564,
+      "learning_rate": 1.747487524955209e-06,
+      "loss": 0.4364,
+      "step": 356
+    },
+    {
+      "epoch": 5.345215759849906,
+      "grad_norm": 0.01352972460550207,
+      "learning_rate": 1.7458209990510527e-06,
+      "loss": 0.4333,
+      "step": 357
+    },
+    {
+      "epoch": 5.360225140712946,
+      "grad_norm": 0.013745956104063744,
+      "learning_rate": 1.7441497921424645e-06,
+      "loss": 0.4328,
+      "step": 358
+    },
+    {
+      "epoch": 5.375234521575985,
+      "grad_norm": 0.01319303150078731,
+      "learning_rate": 1.7424739147184591e-06,
+      "loss": 0.4333,
+      "step": 359
+    },
+    {
+      "epoch": 5.390243902439025,
+      "grad_norm": 0.013764119164539975,
+      "learning_rate": 1.7407933772973635e-06,
+      "loss": 0.4518,
+      "step": 360
+    },
+    {
+      "epoch": 5.405253283302064,
+      "grad_norm": 0.013090437609724701,
+      "learning_rate": 1.7391081904267537e-06,
+      "loss": 0.4392,
+      "step": 361
+    },
+    {
+      "epoch": 5.4202626641651035,
+      "grad_norm": 0.013571191725851636,
+      "learning_rate": 1.7374183646833858e-06,
+      "loss": 0.442,
+      "step": 362
+    },
+    {
+      "epoch": 5.435272045028142,
+      "grad_norm": 0.013136763063661159,
+      "learning_rate": 1.7357239106731317e-06,
+      "loss": 0.4321,
+      "step": 363
+    },
+    {
+      "epoch": 5.450281425891182,
+      "grad_norm": 0.013174996076392734,
+      "learning_rate": 1.734024839030911e-06,
+      "loss": 0.4351,
+      "step": 364
+    },
+    {
+      "epoch": 5.465290806754221,
+      "grad_norm": 0.013584392079284755,
+      "learning_rate": 1.7323211604206264e-06,
+      "loss": 0.4336,
+      "step": 365
+    },
+    {
+      "epoch": 5.480300187617261,
+      "grad_norm": 0.013238150722927616,
+      "learning_rate": 1.7306128855350938e-06,
+      "loss": 0.4499,
+      "step": 366
+    },
+    {
+      "epoch": 5.4953095684803,
+      "grad_norm": 0.012966538449872765,
+      "learning_rate": 1.728900025095978e-06,
+      "loss": 0.439,
+      "step": 367
+    },
+    {
+      "epoch": 5.51031894934334,
+      "grad_norm": 0.013097706772820898,
+      "learning_rate": 1.7271825898537226e-06,
+      "loss": 0.4405,
+      "step": 368
+    },
+    {
+      "epoch": 5.525328330206379,
+      "grad_norm": 0.013139456397187858,
+      "learning_rate": 1.725460590587486e-06,
+      "loss": 0.4322,
+      "step": 369
+    },
+    {
+      "epoch": 5.5403377110694185,
+      "grad_norm": 0.01320832233373905,
+      "learning_rate": 1.72373403810507e-06,
+      "loss": 0.4453,
+      "step": 370
+    },
+    {
+      "epoch": 5.5553470919324575,
+      "grad_norm": 0.013313022883952532,
+      "learning_rate": 1.7220029432428555e-06,
+      "loss": 0.4369,
+      "step": 371
+    },
+    {
+      "epoch": 5.570356472795497,
+      "grad_norm": 0.013035779228992055,
+      "learning_rate": 1.7202673168657315e-06,
+      "loss": 0.43,
+      "step": 372
+    },
+    {
+      "epoch": 5.585365853658536,
+      "grad_norm": 0.013457833726421647,
+      "learning_rate": 1.7185271698670292e-06,
+      "loss": 0.4329,
+      "step": 373
+    },
+    {
+      "epoch": 5.600375234521576,
+      "grad_norm": 0.013116857431759213,
+      "learning_rate": 1.7167825131684511e-06,
+      "loss": 0.4313,
+      "step": 374
+    },
+    {
+      "epoch": 5.615384615384615,
+      "grad_norm": 0.013758827471993697,
+      "learning_rate": 1.715033357720006e-06,
+      "loss": 0.4476,
+      "step": 375
+    },
+    {
+      "epoch": 5.630393996247655,
+      "grad_norm": 0.013455290328633535,
+      "learning_rate": 1.7132797144999367e-06,
+      "loss": 0.4477,
+      "step": 376
+    },
+    {
+      "epoch": 5.645403377110695,
+      "grad_norm": 0.013424149696678331,
+      "learning_rate": 1.7115215945146532e-06,
+      "loss": 0.4382,
+      "step": 377
+    },
+    {
+      "epoch": 5.6604127579737336,
+      "grad_norm": 0.013961218093918704,
+      "learning_rate": 1.709759008798663e-06,
+      "loss": 0.4429,
+      "step": 378
+    },
+    {
+      "epoch": 5.6754221388367725,
+      "grad_norm": 0.013358780836199631,
+      "learning_rate": 1.7079919684145026e-06,
+      "loss": 0.4405,
+      "step": 379
+    },
+    {
+      "epoch": 5.690431519699812,
+      "grad_norm": 0.013336158263698005,
+      "learning_rate": 1.7062204844526657e-06,
+      "loss": 0.4289,
+      "step": 380
+    },
+    {
+      "epoch": 5.705440900562852,
+      "grad_norm": 0.013355419310096175,
+      "learning_rate": 1.7044445680315372e-06,
+      "loss": 0.44,
+      "step": 381
+    },
+    {
+      "epoch": 5.720450281425891,
+      "grad_norm": 0.013326753688393343,
+      "learning_rate": 1.7026642302973203e-06,
+      "loss": 0.4383,
+      "step": 382
+    },
+    {
+      "epoch": 5.735459662288931,
+      "grad_norm": 0.013248321811620164,
+      "learning_rate": 1.7008794824239673e-06,
+      "loss": 0.4385,
+      "step": 383
+    },
+    {
+      "epoch": 5.75046904315197,
+      "grad_norm": 0.013440251864610129,
+      "learning_rate": 1.6990903356131123e-06,
+      "loss": 0.4447,
+      "step": 384
+    },
+    {
+      "epoch": 5.76547842401501,
+      "grad_norm": 0.013356165325694516,
+      "learning_rate": 1.6972968010939952e-06,
+      "loss": 0.4395,
+      "step": 385
+    },
+    {
+      "epoch": 5.780487804878049,
+      "grad_norm": 0.013697957995084815,
+      "learning_rate": 1.6954988901233974e-06,
+      "loss": 0.4445,
+      "step": 386
+    },
+    {
+      "epoch": 5.795497185741088,
+      "grad_norm": 0.01352896933498215,
+      "learning_rate": 1.6936966139855661e-06,
+      "loss": 0.4497,
+      "step": 387
+    },
+    {
+      "epoch": 5.810506566604127,
+      "grad_norm": 0.013017644966079026,
+      "learning_rate": 1.6918899839921473e-06,
+      "loss": 0.4427,
+      "step": 388
+    },
+    {
+      "epoch": 5.825515947467167,
+      "grad_norm": 0.0130227730372479,
+      "learning_rate": 1.690079011482112e-06,
+      "loss": 0.4353,
+      "step": 389
+    },
+    {
+      "epoch": 5.840525328330206,
+      "grad_norm": 0.013588479837256142,
+      "learning_rate": 1.6882637078216865e-06,
+      "loss": 0.4309,
+      "step": 390
+    },
+    {
+      "epoch": 5.855534709193246,
+      "grad_norm": 0.013099801786314374,
+      "learning_rate": 1.6864440844042815e-06,
+      "loss": 0.4259,
+      "step": 391
+    },
+    {
+      "epoch": 5.870544090056285,
+      "grad_norm": 0.013097214237123593,
+      "learning_rate": 1.6846201526504186e-06,
+      "loss": 0.4302,
+      "step": 392
+    },
+    {
+      "epoch": 5.885553470919325,
+      "grad_norm": 0.013065212723171151,
+      "learning_rate": 1.682791924007661e-06,
+      "loss": 0.4398,
+      "step": 393
+    },
+    {
+      "epoch": 5.900562851782364,
+      "grad_norm": 0.014045965247674342,
+      "learning_rate": 1.6809594099505392e-06,
+      "loss": 0.434,
+      "step": 394
+    },
+    {
+      "epoch": 5.915572232645403,
+      "grad_norm": 0.013248206942276757,
+      "learning_rate": 1.6791226219804819e-06,
+      "loss": 0.4319,
+      "step": 395
+    },
+    {
+      "epoch": 5.930581613508442,
+      "grad_norm": 0.013171561529992387,
+      "learning_rate": 1.6772815716257411e-06,
+      "loss": 0.4477,
+      "step": 396
+    },
+    {
+      "epoch": 5.930581613508442,
+      "eval_loss": 0.41817715764045715,
+      "eval_runtime": 14.0502,
+      "eval_samples_per_second": 31.815,
+      "eval_steps_per_second": 1.993,
+      "step": 396
+    },
+    {
+      "epoch": 5.945590994371482,
+      "grad_norm": 0.013426647961607079,
+      "learning_rate": 1.6754362704413208e-06,
+      "loss": 0.4338,
+      "step": 397
+    },
+    {
+      "epoch": 5.960600375234522,
+      "grad_norm": 0.01345417807854897,
+      "learning_rate": 1.673586730008905e-06,
+      "loss": 0.4439,
+      "step": 398
+    },
+    {
+      "epoch": 5.975609756097561,
+      "grad_norm": 0.013431711439659157,
+      "learning_rate": 1.6717329619367848e-06,
+      "loss": 0.4319,
+      "step": 399
+    },
+    {
+      "epoch": 5.9906191369606,
+      "grad_norm": 0.013005069733149226,
+      "learning_rate": 1.6698749778597842e-06,
+      "loss": 0.4455,
+      "step": 400
+    },
+    {
+      "epoch": 6.01500938086304,
+      "grad_norm": 0.020617486128169053,
+      "learning_rate": 1.6680127894391894e-06,
+      "loss": 0.869,
+      "step": 401
+    },
+    {
+      "epoch": 6.030018761726079,
+      "grad_norm": 0.013176861969478369,
+      "learning_rate": 1.6661464083626733e-06,
+      "loss": 0.4394,
+      "step": 402
+    },
+    {
+      "epoch": 6.045028142589119,
+      "grad_norm": 0.012886044431831887,
+      "learning_rate": 1.6642758463442244e-06,
+      "loss": 0.4352,
+      "step": 403
+    },
+    {
+      "epoch": 6.0600375234521575,
+      "grad_norm": 0.012593283091799695,
+      "learning_rate": 1.6624011151240707e-06,
+      "loss": 0.4352,
+      "step": 404
+    },
+    {
+      "epoch": 6.075046904315197,
+      "grad_norm": 0.013119523155248839,
+      "learning_rate": 1.6605222264686082e-06,
+      "loss": 0.4456,
+      "step": 405
+    },
+    {
+      "epoch": 6.090056285178236,
+      "grad_norm": 0.013135474034204285,
+      "learning_rate": 1.6586391921703266e-06,
+      "loss": 0.4372,
+      "step": 406
+    },
+    {
+      "epoch": 6.105065666041276,
+      "grad_norm": 0.013337941205936685,
+      "learning_rate": 1.6567520240477343e-06,
+      "loss": 0.4327,
+      "step": 407
+    },
+    {
+      "epoch": 6.120075046904315,
+      "grad_norm": 0.013170367591114004,
+      "learning_rate": 1.6548607339452852e-06,
+      "loss": 0.4368,
+      "step": 408
+    },
+    {
+      "epoch": 6.135084427767355,
+      "grad_norm": 0.013634531162252857,
+      "learning_rate": 1.6529653337333031e-06,
+      "loss": 0.4328,
+      "step": 409
+    },
+    {
+      "epoch": 6.150093808630394,
+      "grad_norm": 0.013706123614988762,
+      "learning_rate": 1.65106583530791e-06,
+      "loss": 0.4375,
+      "step": 410
+    },
+    {
+      "epoch": 6.165103189493434,
+      "grad_norm": 0.0135254442542636,
+      "learning_rate": 1.649162250590948e-06,
+      "loss": 0.4354,
+      "step": 411
+    },
+    {
+      "epoch": 6.1801125703564725,
+      "grad_norm": 0.013527120604353708,
+      "learning_rate": 1.6472545915299066e-06,
+      "loss": 0.4364,
+      "step": 412
+    },
+    {
+      "epoch": 6.195121951219512,
+      "grad_norm": 0.012809333866597397,
+      "learning_rate": 1.645342870097847e-06,
+      "loss": 0.424,
+      "step": 413
+    },
+    {
+      "epoch": 6.210131332082551,
+      "grad_norm": 0.013350184383574616,
+      "learning_rate": 1.6434270982933271e-06,
+      "loss": 0.4456,
+      "step": 414
+    },
+    {
+      "epoch": 6.225140712945591,
+      "grad_norm": 0.013238123537924208,
+      "learning_rate": 1.6415072881403263e-06,
+      "loss": 0.4277,
+      "step": 415
+    },
+    {
+      "epoch": 6.24015009380863,
+      "grad_norm": 0.01289362750174883,
+      "learning_rate": 1.6395834516881702e-06,
+      "loss": 0.4303,
+      "step": 416
+    },
+    {
+      "epoch": 6.25515947467167,
+      "grad_norm": 0.013557747567476165,
+      "learning_rate": 1.637655601011454e-06,
+      "loss": 0.4372,
+      "step": 417
+    },
+    {
+      "epoch": 6.270168855534709,
+      "grad_norm": 0.012808118264155776,
+      "learning_rate": 1.6357237482099683e-06,
+      "loss": 0.4288,
+      "step": 418
+    },
+    {
+      "epoch": 6.285178236397749,
+      "grad_norm": 0.013405549925460917,
+      "learning_rate": 1.6337879054086208e-06,
+      "loss": 0.4389,
+      "step": 419
+    },
+    {
+      "epoch": 6.300187617260788,
+      "grad_norm": 0.013505737436808054,
+      "learning_rate": 1.6318480847573638e-06,
+      "loss": 0.4328,
+      "step": 420
+    },
+    {
+      "epoch": 6.315196998123827,
+      "grad_norm": 0.013081956141683409,
+      "learning_rate": 1.6299042984311143e-06,
+      "loss": 0.4344,
+      "step": 421
+    },
+    {
+      "epoch": 6.330206378986867,
+      "grad_norm": 0.013113716625865569,
+      "learning_rate": 1.6279565586296797e-06,
+      "loss": 0.4367,
+      "step": 422
+    },
+    {
+      "epoch": 6.345215759849906,
+      "grad_norm": 0.013235475707455984,
+      "learning_rate": 1.6260048775776803e-06,
+      "loss": 0.4286,
+      "step": 423
+    },
+    {
+      "epoch": 6.360225140712946,
+      "grad_norm": 0.013512582434807428,
+      "learning_rate": 1.6240492675244726e-06,
+      "loss": 0.4428,
+      "step": 424
+    },
+    {
+      "epoch": 6.375234521575985,
+      "grad_norm": 0.013410143400651279,
+      "learning_rate": 1.6220897407440741e-06,
+      "loss": 0.4358,
+      "step": 425
+    },
+    {
+      "epoch": 6.390243902439025,
+      "grad_norm": 0.013327451309648946,
+      "learning_rate": 1.6201263095350832e-06,
+      "loss": 0.4301,
+      "step": 426
+    },
+    {
+      "epoch": 6.405253283302064,
+      "grad_norm": 0.013025559977297553,
+      "learning_rate": 1.6181589862206052e-06,
+      "loss": 0.4359,
+      "step": 427
+    },
+    {
+      "epoch": 6.4202626641651035,
+      "grad_norm": 0.013348709279455499,
+      "learning_rate": 1.6161877831481722e-06,
+      "loss": 0.434,
+      "step": 428
+    },
+    {
+      "epoch": 6.435272045028142,
+      "grad_norm": 0.01262545802365253,
+      "learning_rate": 1.6142127126896679e-06,
+      "loss": 0.4263,
+      "step": 429
+    },
+    {
+      "epoch": 6.450281425891182,
+      "grad_norm": 0.013172427598095178,
+      "learning_rate": 1.612233787241248e-06,
+      "loss": 0.4221,
+      "step": 430
+    },
+    {
+      "epoch": 6.465290806754221,
+      "grad_norm": 0.013481870181090533,
+      "learning_rate": 1.610251019223264e-06,
+      "loss": 0.435,
+      "step": 431
+    },
+    {
+      "epoch": 6.480300187617261,
+      "grad_norm": 0.013037104332200075,
+      "learning_rate": 1.6082644210801843e-06,
+      "loss": 0.4311,
+      "step": 432
+    },
+    {
+      "epoch": 6.4953095684803,
+      "grad_norm": 0.013514919736678848,
+      "learning_rate": 1.6062740052805168e-06,
+      "loss": 0.4406,
+      "step": 433
+    },
+    {
+      "epoch": 6.51031894934334,
+      "grad_norm": 0.013036697288445677,
+      "learning_rate": 1.6042797843167289e-06,
+      "loss": 0.4215,
+      "step": 434
+    },
+    {
+      "epoch": 6.525328330206379,
+      "grad_norm": 0.012753548020225313,
+      "learning_rate": 1.6022817707051721e-06,
+      "loss": 0.4393,
+      "step": 435
+    },
+    {
+      "epoch": 6.5403377110694185,
+      "grad_norm": 0.01288860891440036,
+      "learning_rate": 1.6002799769860005e-06,
+      "loss": 0.4248,
+      "step": 436
+    },
+    {
+      "epoch": 6.5553470919324575,
+      "grad_norm": 0.013672060679601777,
+      "learning_rate": 1.5982744157230937e-06,
+      "loss": 0.4385,
+      "step": 437
+    },
+    {
+      "epoch": 6.570356472795497,
+      "grad_norm": 0.013035441611515807,
+      "learning_rate": 1.5962650995039782e-06,
+      "loss": 0.4422,
+      "step": 438
+    },
+    {
+      "epoch": 6.585365853658536,
+      "grad_norm": 0.013122421954394383,
+      "learning_rate": 1.5942520409397462e-06,
+      "loss": 0.4365,
+      "step": 439
+    },
+    {
+      "epoch": 6.600375234521576,
+      "grad_norm": 0.01319951174301247,
+      "learning_rate": 1.5922352526649801e-06,
+      "loss": 0.4307,
+      "step": 440
+    },
+    {
+      "epoch": 6.615384615384615,
+      "grad_norm": 0.013085414297184095,
+      "learning_rate": 1.5902147473376693e-06,
+      "loss": 0.4312,
+      "step": 441
+    },
+    {
+      "epoch": 6.630393996247655,
+      "grad_norm": 0.012791438384207784,
+      "learning_rate": 1.5881905376391336e-06,
+      "loss": 0.4211,
+      "step": 442
+    },
+    {
+      "epoch": 6.645403377110695,
+      "grad_norm": 0.012892370389429274,
+      "learning_rate": 1.5861626362739423e-06,
+      "loss": 0.4238,
+      "step": 443
+    },
+    {
+      "epoch": 6.6604127579737336,
+      "grad_norm": 0.012426989025538739,
+      "learning_rate": 1.5841310559698342e-06,
+      "loss": 0.4274,
+      "step": 444
+    },
+    {
+      "epoch": 6.6754221388367725,
+      "grad_norm": 0.012707681199612911,
+      "learning_rate": 1.5820958094776398e-06,
+      "loss": 0.429,
+      "step": 445
+    },
+    {
+      "epoch": 6.690431519699812,
+      "grad_norm": 0.013157713008872291,
+      "learning_rate": 1.5800569095711981e-06,
+      "loss": 0.4215,
+      "step": 446
+    },
+    {
+      "epoch": 6.705440900562852,
+      "grad_norm": 0.013168651131606283,
+      "learning_rate": 1.578014369047279e-06,
+      "loss": 0.4385,
+      "step": 447
+    },
+    {
+      "epoch": 6.720450281425891,
+      "grad_norm": 0.013114532064645967,
+      "learning_rate": 1.5759682007255016e-06,
+      "loss": 0.4448,
+      "step": 448
+    },
+    {
+      "epoch": 6.735459662288931,
+      "grad_norm": 0.013082990504026984,
+      "learning_rate": 1.573918417448254e-06,
+      "loss": 0.4275,
+      "step": 449
+    },
+    {
+      "epoch": 6.75046904315197,
+      "grad_norm": 0.013151892866998883,
+      "learning_rate": 1.5718650320806142e-06,
+      "loss": 0.4337,
+      "step": 450
+    },
+    {
+      "epoch": 6.76547842401501,
+      "grad_norm": 0.013101096876612917,
+      "learning_rate": 1.569808057510266e-06,
+      "loss": 0.4293,
+      "step": 451
+    },
+    {
+      "epoch": 6.780487804878049,
+      "grad_norm": 0.012754754751734624,
+      "learning_rate": 1.567747506647422e-06,
+      "loss": 0.4257,
+      "step": 452
+    },
+    {
+      "epoch": 6.795497185741088,
+      "grad_norm": 0.012418281228569954,
+      "learning_rate": 1.5656833924247396e-06,
+      "loss": 0.4194,
+      "step": 453
+    },
+    {
+      "epoch": 6.810506566604127,
+      "grad_norm": 0.012677644542908185,
+      "learning_rate": 1.5636157277972413e-06,
+      "loss": 0.4203,
+      "step": 454
+    },
+    {
+      "epoch": 6.825515947467167,
+      "grad_norm": 0.012978451911838326,
+      "learning_rate": 1.5615445257422332e-06,
+      "loss": 0.4236,
+      "step": 455
+    },
+    {
+      "epoch": 6.840525328330206,
+      "grad_norm": 0.012837439507680473,
+      "learning_rate": 1.5594697992592229e-06,
+      "loss": 0.4331,
+      "step": 456
+    },
+    {
+      "epoch": 6.855534709193246,
+      "grad_norm": 0.01252259688640816,
+      "learning_rate": 1.5573915613698393e-06,
+      "loss": 0.4378,
+      "step": 457
+    },
+    {
+      "epoch": 6.870544090056285,
+      "grad_norm": 0.013197054542329851,
+      "learning_rate": 1.5553098251177485e-06,
+      "loss": 0.4206,
+      "step": 458
+    },
+    {
+      "epoch": 6.885553470919325,
+      "grad_norm": 0.012853395885087531,
+      "learning_rate": 1.5532246035685755e-06,
+      "loss": 0.4268,
+      "step": 459
+    },
+    {
+      "epoch": 6.900562851782364,
+      "grad_norm": 0.012990308489818332,
+      "learning_rate": 1.5511359098098183e-06,
+      "loss": 0.4291,
+      "step": 460
+    },
+    {
+      "epoch": 6.915572232645403,
+      "grad_norm": 0.012921940170193533,
+      "learning_rate": 1.549043756950768e-06,
+      "loss": 0.4339,
+      "step": 461
+    },
+    {
+      "epoch": 6.930581613508442,
+      "grad_norm": 0.013109887397593497,
+      "learning_rate": 1.5469481581224271e-06,
+      "loss": 0.4358,
+      "step": 462
+    },
+    {
+      "epoch": 6.930581613508442,
+      "eval_loss": 0.4126039445400238,
+      "eval_runtime": 13.7392,
+      "eval_samples_per_second": 32.535,
+      "eval_steps_per_second": 2.038,
+      "step": 462
+    },
+    {
+      "epoch": 6.945590994371482,
+      "grad_norm": 0.012598723095405159,
+      "learning_rate": 1.5448491264774241e-06,
+      "loss": 0.4263,
+      "step": 463
+    },
+    {
+      "epoch": 6.960600375234522,
+      "grad_norm": 0.012861189060759321,
+      "learning_rate": 1.5427466751899352e-06,
+      "loss": 0.427,
+      "step": 464
+    },
+    {
+      "epoch": 6.975609756097561,
+      "grad_norm": 0.013200569881254022,
+      "learning_rate": 1.5406408174555977e-06,
+      "loss": 0.4259,
+      "step": 465
+    },
+    {
+      "epoch": 6.9906191369606,
+      "grad_norm": 0.012616437259491003,
+      "learning_rate": 1.5385315664914292e-06,
+      "loss": 0.436,
+      "step": 466
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.016057681180086946,
+      "learning_rate": 1.536418935535745e-06,
+      "loss": 0.4215,
+      "step": 467
+    },
+    {
+      "epoch": 7.01500938086304,
+      "grad_norm": 0.015147696984116419,
+      "learning_rate": 1.534302937848073e-06,
+      "loss": 0.4299,
+      "step": 468
+    },
+    {
+      "epoch": 7.030018761726079,
+      "grad_norm": 0.012645368174521793,
+      "learning_rate": 1.5321835867090732e-06,
+      "loss": 0.4322,
+      "step": 469
+    },
+    {
+      "epoch": 7.045028142589119,
+      "grad_norm": 0.01320195840723717,
+      "learning_rate": 1.5300608954204514e-06,
+      "loss": 0.4202,
+      "step": 470
+    },
+    {
+      "epoch": 7.0600375234521575,
+      "grad_norm": 0.012876528475684408,
+      "learning_rate": 1.5279348773048785e-06,
+      "loss": 0.4234,
+      "step": 471
+    },
+    {
+      "epoch": 7.075046904315197,
+      "grad_norm": 0.012414131318572394,
+      "learning_rate": 1.5258055457059052e-06,
+      "loss": 0.4286,
+      "step": 472
+    },
+    {
+      "epoch": 7.090056285178236,
+      "grad_norm": 0.013424481910424807,
+      "learning_rate": 1.5236729139878778e-06,
+      "loss": 0.4363,
+      "step": 473
+    },
+    {
+      "epoch": 7.105065666041276,
+      "grad_norm": 0.013082970732005126,
+      "learning_rate": 1.5215369955358566e-06,
+      "loss": 0.4307,
+      "step": 474
+    },
+    {
+      "epoch": 7.120075046904315,
+      "grad_norm": 0.013012675401740906,
+      "learning_rate": 1.5193978037555292e-06,
+      "loss": 0.4281,
+      "step": 475
+    },
+    {
+      "epoch": 7.135084427767355,
+      "grad_norm": 0.01386296810810948,
+      "learning_rate": 1.517255352073129e-06,
+      "loss": 0.4359,
+      "step": 476
+    },
+    {
+      "epoch": 7.150093808630394,
+      "grad_norm": 0.012959933299681203,
+      "learning_rate": 1.5151096539353479e-06,
+      "loss": 0.4267,
+      "step": 477
+    },
+    {
+      "epoch": 7.165103189493434,
+      "grad_norm": 0.013273365230097464,
+      "learning_rate": 1.5129607228092548e-06,
+      "loss": 0.4225,
+      "step": 478
+    },
+    {
+      "epoch": 7.1801125703564725,
+      "grad_norm": 0.013069822188325222,
+      "learning_rate": 1.5108085721822097e-06,
+      "loss": 0.434,
+      "step": 479
+    },
+    {
+      "epoch": 7.195121951219512,
+      "grad_norm": 0.013059257995761383,
+      "learning_rate": 1.5086532155617784e-06,
+      "loss": 0.4337,
+      "step": 480
+    },
+    {
+      "epoch": 7.210131332082551,
+      "grad_norm": 0.012530361479891216,
+      "learning_rate": 1.506494666475649e-06,
+      "loss": 0.4288,
+      "step": 481
+    },
+    {
+      "epoch": 7.225140712945591,
+      "grad_norm": 0.01275554693816723,
+      "learning_rate": 1.5043329384715473e-06,
+      "loss": 0.4267,
+      "step": 482
+    },
+    {
+      "epoch": 7.24015009380863,
+      "grad_norm": 0.012727944808238934,
+      "learning_rate": 1.5021680451171498e-06,
+      "loss": 0.4227,
+      "step": 483
+    },
+    {
+      "epoch": 7.25515947467167,
+      "grad_norm": 0.012512871850066665,
+      "learning_rate": 1.5e-06,
+      "loss": 0.4347,
+      "step": 484
+    },
+    {
+      "epoch": 7.270168855534709,
+      "grad_norm": 0.012879847459317067,
+      "learning_rate": 1.4978288167274232e-06,
+      "loss": 0.4238,
+      "step": 485
+    },
+    {
+      "epoch": 7.285178236397749,
+      "grad_norm": 0.013267371965589561,
+      "learning_rate": 1.4956545089264405e-06,
+      "loss": 0.4258,
+      "step": 486
+    },
+    {
+      "epoch": 7.300187617260788,
+      "grad_norm": 0.012473072491095367,
+      "learning_rate": 1.4934770902436834e-06,
+      "loss": 0.4299,
+      "step": 487
+    },
+    {
+      "epoch": 7.315196998123827,
+      "grad_norm": 0.012782011764426037,
+      "learning_rate": 1.4912965743453087e-06,
+      "loss": 0.4182,
+      "step": 488
+    },
+    {
+      "epoch": 7.330206378986867,
+      "grad_norm": 0.01311348055027308,
+      "learning_rate": 1.4891129749169118e-06,
+      "loss": 0.4296,
+      "step": 489
+    },
+    {
+      "epoch": 7.345215759849906,
+      "grad_norm": 0.012765085462581965,
+      "learning_rate": 1.4869263056634417e-06,
+      "loss": 0.4289,
+      "step": 490
+    },
+    {
+      "epoch": 7.360225140712946,
+      "grad_norm": 0.012412381150431463,
+      "learning_rate": 1.4847365803091144e-06,
+      "loss": 0.4334,
+      "step": 491
+    },
+    {
+      "epoch": 7.375234521575985,
+      "grad_norm": 0.01271837862802656,
+      "learning_rate": 1.4825438125973263e-06,
+      "loss": 0.425,
+      "step": 492
+    },
+    {
+      "epoch": 7.390243902439025,
+      "grad_norm": 0.012352812019462122,
+      "learning_rate": 1.4803480162905695e-06,
+      "loss": 0.4207,
+      "step": 493
+    },
+    {
+      "epoch": 7.405253283302064,
+      "grad_norm": 0.012746296584207542,
+      "learning_rate": 1.4781492051703448e-06,
+      "loss": 0.4215,
+      "step": 494
+    },
+    {
+      "epoch": 7.4202626641651035,
+      "grad_norm": 0.012721837448907083,
+      "learning_rate": 1.4759473930370736e-06,
+      "loss": 0.4225,
+      "step": 495
+    },
+    {
+      "epoch": 7.435272045028142,
+      "grad_norm": 0.012889669681319507,
+      "learning_rate": 1.4737425937100135e-06,
+      "loss": 0.4261,
+      "step": 496
+    },
+    {
+      "epoch": 7.450281425891182,
+      "grad_norm": 0.012544026246862405,
+      "learning_rate": 1.4715348210271703e-06,
+      "loss": 0.4189,
+      "step": 497
+    },
+    {
+      "epoch": 7.465290806754221,
+      "grad_norm": 0.012601175719615424,
+      "learning_rate": 1.4693240888452118e-06,
+      "loss": 0.4188,
+      "step": 498
+    },
+    {
+      "epoch": 7.480300187617261,
+      "grad_norm": 0.012911814515041583,
+      "learning_rate": 1.4671104110393808e-06,
+      "loss": 0.445,
+      "step": 499
+    },
+    {
+      "epoch": 7.4953095684803,
+      "grad_norm": 0.012900962528470759,
+      "learning_rate": 1.4648938015034067e-06,
+      "loss": 0.4271,
+      "step": 500
+    },
+    {
+      "epoch": 7.51031894934334,
+      "grad_norm": 0.012640868695431564,
+      "learning_rate": 1.4626742741494205e-06,
+      "loss": 0.4345,
+      "step": 501
+    },
+    {
+      "epoch": 7.525328330206379,
+      "grad_norm": 0.012451005837885486,
+      "learning_rate": 1.4604518429078652e-06,
+      "loss": 0.429,
+      "step": 502
+    },
+    {
+      "epoch": 7.5403377110694185,
+      "grad_norm": 0.013230360834140219,
+      "learning_rate": 1.4582265217274103e-06,
+      "loss": 0.4161,
+      "step": 503
+    },
+    {
+      "epoch": 7.5553470919324575,
+      "grad_norm": 0.01283686066958734,
+      "learning_rate": 1.4559983245748637e-06,
+      "loss": 0.4251,
+      "step": 504
+    },
+    {
+      "epoch": 7.570356472795497,
+      "grad_norm": 0.012527190536013916,
+      "learning_rate": 1.4537672654350832e-06,
+      "loss": 0.4137,
+      "step": 505
+    },
+    {
+      "epoch": 7.585365853658536,
+      "grad_norm": 0.012828676017273635,
+      "learning_rate": 1.4515333583108893e-06,
+      "loss": 0.4373,
+      "step": 506
+    },
+    {
+      "epoch": 7.600375234521576,
+      "grad_norm": 0.013137450736113143,
+      "learning_rate": 1.4492966172229778e-06,
+      "loss": 0.4314,
+      "step": 507
+    },
+    {
+      "epoch": 7.615384615384615,
+      "grad_norm": 0.012681479750471514,
+      "learning_rate": 1.4470570562098306e-06,
+      "loss": 0.4191,
+      "step": 508
+    },
+    {
+      "epoch": 7.630393996247655,
+      "grad_norm": 0.01283115430539013,
+      "learning_rate": 1.4448146893276295e-06,
+      "loss": 0.4293,
+      "step": 509
+    },
+    {
+      "epoch": 7.645403377110695,
+      "grad_norm": 0.012923054058866432,
+      "learning_rate": 1.4425695306501655e-06,
+      "loss": 0.4202,
+      "step": 510
+    },
+    {
+      "epoch": 7.6604127579737336,
+      "grad_norm": 0.013121242158230989,
+      "learning_rate": 1.4403215942687525e-06,
+      "loss": 0.4373,
+      "step": 511
+    },
+    {
+      "epoch": 7.6754221388367725,
+      "grad_norm": 0.012479459230005806,
+      "learning_rate": 1.4380708942921382e-06,
+      "loss": 0.4242,
+      "step": 512
+    },
+    {
+      "epoch": 7.690431519699812,
+      "grad_norm": 0.012387034220238928,
+      "learning_rate": 1.4358174448464153e-06,
+      "loss": 0.414,
+      "step": 513
+    },
+    {
+      "epoch": 7.705440900562852,
+      "grad_norm": 0.012574345486950885,
+      "learning_rate": 1.433561260074933e-06,
+      "loss": 0.4272,
+      "step": 514
+    },
+    {
+      "epoch": 7.720450281425891,
+      "grad_norm": 0.01290052005130462,
+      "learning_rate": 1.4313023541382079e-06,
+      "loss": 0.4298,
+      "step": 515
+    },
+    {
+      "epoch": 7.735459662288931,
+      "grad_norm": 0.012668792696732748,
+      "learning_rate": 1.4290407412138363e-06,
+      "loss": 0.425,
+      "step": 516
+    },
+    {
+      "epoch": 7.75046904315197,
+      "grad_norm": 0.01225012968171437,
+      "learning_rate": 1.4267764354964037e-06,
+      "loss": 0.4233,
+      "step": 517
+    },
+    {
+      "epoch": 7.76547842401501,
+      "grad_norm": 0.012255924007790624,
+      "learning_rate": 1.4245094511973967e-06,
+      "loss": 0.4165,
+      "step": 518
+    },
+    {
+      "epoch": 7.780487804878049,
+      "grad_norm": 0.012942200297671827,
+      "learning_rate": 1.4222398025451134e-06,
+      "loss": 0.4179,
+      "step": 519
+    },
+    {
+      "epoch": 7.795497185741088,
+      "grad_norm": 0.012669086030337824,
+      "learning_rate": 1.4199675037845743e-06,
+      "loss": 0.4273,
+      "step": 520
+    },
+    {
+      "epoch": 7.810506566604127,
+      "grad_norm": 0.012438089901438005,
+      "learning_rate": 1.4176925691774333e-06,
+      "loss": 0.4229,
+      "step": 521
+    },
+    {
+      "epoch": 7.825515947467167,
+      "grad_norm": 0.013016106458461985,
+      "learning_rate": 1.4154150130018865e-06,
+      "loss": 0.4342,
+      "step": 522
+    },
+    {
+      "epoch": 7.840525328330206,
+      "grad_norm": 0.012676013909183275,
+      "learning_rate": 1.4131348495525846e-06,
+      "loss": 0.43,
+      "step": 523
+    },
+    {
+      "epoch": 7.855534709193246,
+      "grad_norm": 0.012244101315314318,
+      "learning_rate": 1.4108520931405421e-06,
+      "loss": 0.4124,
+      "step": 524
+    },
+    {
+      "epoch": 7.870544090056285,
+      "grad_norm": 0.012356566669634342,
+      "learning_rate": 1.4085667580930481e-06,
+      "loss": 0.4253,
+      "step": 525
+    },
+    {
+      "epoch": 7.885553470919325,
+      "grad_norm": 0.013545664104386693,
+      "learning_rate": 1.4062788587535757e-06,
+      "loss": 0.4336,
+      "step": 526
+    },
+    {
+      "epoch": 7.900562851782364,
+      "grad_norm": 0.012958461771861544,
+      "learning_rate": 1.403988409481692e-06,
+      "loss": 0.4256,
+      "step": 527
+    },
+    {
+      "epoch": 7.915572232645403,
+      "grad_norm": 0.012515973222970926,
+      "learning_rate": 1.4016954246529694e-06,
+      "loss": 0.4258,
+      "step": 528
+    },
+    {
+      "epoch": 7.915572232645403,
+      "eval_loss": 0.40825632214546204,
+      "eval_runtime": 13.931,
+      "eval_samples_per_second": 32.087,
+      "eval_steps_per_second": 2.01,
+      "step": 528
+    },
+    {
+      "epoch": 7.930581613508442,
+      "grad_norm": 0.013163236106306738,
+      "learning_rate": 1.399399918658893e-06,
+      "loss": 0.4261,
+      "step": 529
+    },
+    {
+      "epoch": 7.945590994371482,
+      "grad_norm": 0.013156945923845514,
+      "learning_rate": 1.3971019059067716e-06,
+      "loss": 0.4282,
+      "step": 530
+    },
+    {
+      "epoch": 7.960600375234522,
+      "grad_norm": 0.012975296664314717,
+      "learning_rate": 1.3948014008196485e-06,
+      "loss": 0.4178,
+      "step": 531
+    },
+    {
+      "epoch": 7.975609756097561,
+      "grad_norm": 0.012620579592042935,
+      "learning_rate": 1.3924984178362077e-06,
+      "loss": 0.4315,
+      "step": 532
+    },
+    {
+      "epoch": 7.9906191369606,
+      "grad_norm": 0.012990444728543174,
+      "learning_rate": 1.390192971410687e-06,
+      "loss": 0.425,
+      "step": 533
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.012990444728543174,
+      "learning_rate": 1.3878850760127846e-06,
+      "loss": 0.3523,
+      "step": 534
+    },
+    {
+      "epoch": 8.01500938086304,
+      "grad_norm": 0.012443192719573455,
+      "learning_rate": 1.3855747461275697e-06,
+      "loss": 0.4906,
+      "step": 535
+    },
+    {
+      "epoch": 8.03001876172608,
+      "grad_norm": 0.012368209559504574,
+      "learning_rate": 1.3832619962553905e-06,
+      "loss": 0.4227,
+      "step": 536
+    },
+    {
+      "epoch": 8.045028142589118,
+      "grad_norm": 0.012874491584688213,
+      "learning_rate": 1.3809468409117844e-06,
+      "loss": 0.423,
+      "step": 537
+    },
+    {
+      "epoch": 8.060037523452158,
+      "grad_norm": 0.012955402213050558,
+      "learning_rate": 1.3786292946273859e-06,
+      "loss": 0.4301,
+      "step": 538
+    },
+    {
+      "epoch": 8.075046904315197,
+      "grad_norm": 0.012397892892618072,
+      "learning_rate": 1.3763093719478357e-06,
+      "loss": 0.4213,
+      "step": 539
+    },
+    {
+      "epoch": 8.090056285178237,
+      "grad_norm": 0.012234259749931429,
+      "learning_rate": 1.3739870874336897e-06,
+      "loss": 0.4193,
+      "step": 540
+    },
+    {
+      "epoch": 8.105065666041275,
+      "grad_norm": 0.012209969001234834,
+      "learning_rate": 1.3716624556603274e-06,
+      "loss": 0.4234,
+      "step": 541
+    },
+    {
+      "epoch": 8.120075046904315,
+      "grad_norm": 0.012750032029844028,
+      "learning_rate": 1.3693354912178607e-06,
+      "loss": 0.4286,
+      "step": 542
+    },
+    {
+      "epoch": 8.135084427767355,
+      "grad_norm": 0.012498344856428782,
+      "learning_rate": 1.367006208711042e-06,
+      "loss": 0.4162,
+      "step": 543
+    },
+    {
+      "epoch": 8.150093808630395,
+      "grad_norm": 0.012551160489829018,
+      "learning_rate": 1.3646746227591718e-06,
+      "loss": 0.423,
+      "step": 544
+    },
+    {
+      "epoch": 8.165103189493433,
+      "grad_norm": 0.012836057883823809,
+      "learning_rate": 1.3623407479960086e-06,
+      "loss": 0.4183,
+      "step": 545
+    },
+    {
+      "epoch": 8.180112570356473,
+      "grad_norm": 0.012832136571966581,
+      "learning_rate": 1.360004599069676e-06,
+      "loss": 0.4255,
+      "step": 546
+    },
+    {
+      "epoch": 8.195121951219512,
+      "grad_norm": 0.012674899783215083,
+      "learning_rate": 1.3576661906425705e-06,
+      "loss": 0.4154,
+      "step": 547
+    },
+    {
+      "epoch": 8.210131332082552,
+      "grad_norm": 0.012904907272715635,
+      "learning_rate": 1.3553255373912707e-06,
+      "loss": 0.4221,
+      "step": 548
+    },
+    {
+      "epoch": 8.22514071294559,
+      "grad_norm": 0.012553161887151092,
+      "learning_rate": 1.3529826540064438e-06,
+      "loss": 0.4197,
+      "step": 549
+    },
+    {
+      "epoch": 8.24015009380863,
+      "grad_norm": 0.01258506653039211,
+      "learning_rate": 1.3506375551927544e-06,
+      "loss": 0.4323,
+      "step": 550
+    },
+    {
+      "epoch": 8.25515947467167,
+      "grad_norm": 0.013006243593294749,
+      "learning_rate": 1.3482902556687715e-06,
+      "loss": 0.4301,
+      "step": 551
+    },
+    {
+      "epoch": 8.27016885553471,
+      "grad_norm": 0.012621778538523186,
+      "learning_rate": 1.345940770166876e-06,
+      "loss": 0.4273,
+      "step": 552
+    },
+    {
+      "epoch": 8.285178236397748,
+      "grad_norm": 0.012547789104974505,
+      "learning_rate": 1.3435891134331705e-06,
+      "loss": 0.4255,
+      "step": 553
+    },
+    {
+      "epoch": 8.300187617260788,
+      "grad_norm": 0.012362863077543909,
+      "learning_rate": 1.3412353002273827e-06,
+      "loss": 0.4274,
+      "step": 554
+    },
+    {
+      "epoch": 8.315196998123827,
+      "grad_norm": 0.013130546014588162,
+      "learning_rate": 1.3388793453227765e-06,
+      "loss": 0.4245,
+      "step": 555
+    },
+    {
+      "epoch": 8.330206378986867,
+      "grad_norm": 0.012375388484720671,
+      "learning_rate": 1.3365212635060569e-06,
+      "loss": 0.4182,
+      "step": 556
+    },
+    {
+      "epoch": 8.345215759849907,
+      "grad_norm": 0.012314392169435896,
+      "learning_rate": 1.3341610695772784e-06,
+      "loss": 0.4128,
+      "step": 557
+    },
+    {
+      "epoch": 8.360225140712945,
+      "grad_norm": 0.012928110986283681,
+      "learning_rate": 1.3317987783497519e-06,
+      "loss": 0.4251,
+      "step": 558
+    },
+    {
+      "epoch": 8.375234521575985,
+      "grad_norm": 0.013081254426541622,
+      "learning_rate": 1.3294344046499515e-06,
+      "loss": 0.4288,
+      "step": 559
+    },
+    {
+      "epoch": 8.390243902439025,
+      "grad_norm": 0.012679568106310851,
+      "learning_rate": 1.3270679633174217e-06,
+      "loss": 0.4181,
+      "step": 560
+    },
+    {
+      "epoch": 8.405253283302065,
+      "grad_norm": 0.012837821286797968,
+      "learning_rate": 1.3246994692046835e-06,
+      "loss": 0.4221,
+      "step": 561
+    },
+    {
+      "epoch": 8.420262664165103,
+      "grad_norm": 0.012683953345995792,
+      "learning_rate": 1.3223289371771424e-06,
+      "loss": 0.4342,
+      "step": 562
+    },
+    {
+      "epoch": 8.435272045028142,
+      "grad_norm": 0.012324190260690752,
+      "learning_rate": 1.3199563821129944e-06,
+      "loss": 0.4143,
+      "step": 563
+    },
+    {
+      "epoch": 8.450281425891182,
+      "grad_norm": 0.012704009069056542,
+      "learning_rate": 1.3175818189031326e-06,
+      "loss": 0.4139,
+      "step": 564
+    },
+    {
+      "epoch": 8.465290806754222,
+      "grad_norm": 0.012664000146649987,
+      "learning_rate": 1.3152052624510535e-06,
+      "loss": 0.421,
+      "step": 565
+    },
+    {
+      "epoch": 8.48030018761726,
+      "grad_norm": 0.013174322443423665,
+      "learning_rate": 1.3128267276727644e-06,
+      "loss": 0.4172,
+      "step": 566
+    },
+    {
+      "epoch": 8.4953095684803,
+      "grad_norm": 0.012481267748429541,
+      "learning_rate": 1.3104462294966894e-06,
+      "loss": 0.4256,
+      "step": 567
+    },
+    {
+      "epoch": 8.51031894934334,
+      "grad_norm": 0.012926931305574265,
+      "learning_rate": 1.3080637828635744e-06,
+      "loss": 0.4236,
+      "step": 568
+    },
+    {
+      "epoch": 8.52532833020638,
+      "grad_norm": 0.012594343237208048,
+      "learning_rate": 1.3056794027263948e-06,
+      "loss": 0.424,
+      "step": 569
+    },
+    {
+      "epoch": 8.540337711069418,
+      "grad_norm": 0.013005429097167703,
+      "learning_rate": 1.3032931040502626e-06,
+      "loss": 0.4262,
+      "step": 570
+    },
+    {
+      "epoch": 8.555347091932457,
+      "grad_norm": 0.012700849998308944,
+      "learning_rate": 1.300904901812329e-06,
+      "loss": 0.4112,
+      "step": 571
+    },
+    {
+      "epoch": 8.570356472795497,
+      "grad_norm": 0.01234859544446316,
+      "learning_rate": 1.2985148110016947e-06,
+      "loss": 0.4234,
+      "step": 572
+    },
+    {
+      "epoch": 8.585365853658537,
+      "grad_norm": 0.012647777310344478,
+      "learning_rate": 1.2961228466193116e-06,
+      "loss": 0.4298,
+      "step": 573
+    },
+    {
+      "epoch": 8.600375234521575,
+      "grad_norm": 0.012976806863275401,
+      "learning_rate": 1.293729023677892e-06,
+      "loss": 0.4104,
+      "step": 574
+    },
+    {
+      "epoch": 8.615384615384615,
+      "grad_norm": 0.013316957653669519,
+      "learning_rate": 1.2913333572018132e-06,
+      "loss": 0.4277,
+      "step": 575
+    },
+    {
+      "epoch": 8.630393996247655,
+      "grad_norm": 0.012701811346435813,
+      "learning_rate": 1.2889358622270223e-06,
+      "loss": 0.4194,
+      "step": 576
+    },
+    {
+      "epoch": 8.645403377110695,
+      "grad_norm": 0.012852571501030714,
+      "learning_rate": 1.2865365538009432e-06,
+      "loss": 0.4225,
+      "step": 577
+    },
+    {
+      "epoch": 8.660412757973734,
+      "grad_norm": 0.012874594988687248,
+      "learning_rate": 1.2841354469823814e-06,
+      "loss": 0.4124,
+      "step": 578
+    },
+    {
+      "epoch": 8.675422138836772,
+      "grad_norm": 0.013235216009797502,
+      "learning_rate": 1.2817325568414297e-06,
+      "loss": 0.4319,
+      "step": 579
+    },
+    {
+      "epoch": 8.690431519699812,
+      "grad_norm": 0.012795063248840513,
+      "learning_rate": 1.2793278984593734e-06,
+      "loss": 0.4231,
+      "step": 580
+    },
+    {
+      "epoch": 8.705440900562852,
+      "grad_norm": 0.012789613479480306,
+      "learning_rate": 1.2769214869285963e-06,
+      "loss": 0.4174,
+      "step": 581
+    },
+    {
+      "epoch": 8.720450281425892,
+      "grad_norm": 0.012313758378033874,
+      "learning_rate": 1.2745133373524852e-06,
+      "loss": 0.4294,
+      "step": 582
+    },
+    {
+      "epoch": 8.73545966228893,
+      "grad_norm": 0.01301988888876861,
+      "learning_rate": 1.272103464845335e-06,
+      "loss": 0.4265,
+      "step": 583
+    },
+    {
+      "epoch": 8.75046904315197,
+      "grad_norm": 0.012794500405563685,
+      "learning_rate": 1.269691884532255e-06,
+      "loss": 0.4169,
+      "step": 584
+    },
+    {
+      "epoch": 8.76547842401501,
+      "grad_norm": 0.012906369892351301,
+      "learning_rate": 1.2672786115490727e-06,
+      "loss": 0.4235,
+      "step": 585
+    },
+    {
+      "epoch": 8.78048780487805,
+      "grad_norm": 0.012698038298790544,
+      "learning_rate": 1.26486366104224e-06,
+      "loss": 0.4198,
+      "step": 586
+    },
+    {
+      "epoch": 8.795497185741088,
+      "grad_norm": 0.012324390315305763,
+      "learning_rate": 1.2624470481687368e-06,
+      "loss": 0.4222,
+      "step": 587
+    },
+    {
+      "epoch": 8.810506566604127,
+      "grad_norm": 0.012471895547561243,
+      "learning_rate": 1.260028788095976e-06,
+      "loss": 0.4121,
+      "step": 588
+    },
+    {
+      "epoch": 8.825515947467167,
+      "grad_norm": 0.013053246144026396,
+      "learning_rate": 1.2576088960017107e-06,
+      "loss": 0.423,
+      "step": 589
+    },
+    {
+      "epoch": 8.840525328330207,
+      "grad_norm": 0.013057771093177609,
+      "learning_rate": 1.255187387073935e-06,
+      "loss": 0.4195,
+      "step": 590
+    },
+    {
+      "epoch": 8.855534709193245,
+      "grad_norm": 0.012992648432035044,
+      "learning_rate": 1.2527642765107917e-06,
+      "loss": 0.4148,
+      "step": 591
+    },
+    {
+      "epoch": 8.870544090056285,
+      "grad_norm": 0.0130532629815524,
+      "learning_rate": 1.2503395795204766e-06,
+      "loss": 0.4309,
+      "step": 592
+    },
+    {
+      "epoch": 8.885553470919325,
+      "grad_norm": 0.012368890664965363,
+      "learning_rate": 1.2479133113211412e-06,
+      "loss": 0.4158,
+      "step": 593
+    },
+    {
+      "epoch": 8.900562851782365,
+      "grad_norm": 0.012966982165331422,
+      "learning_rate": 1.245485487140799e-06,
+      "loss": 0.4207,
+      "step": 594
+    },
+    {
+      "epoch": 8.900562851782365,
+      "eval_loss": 0.4048081934452057,
+      "eval_runtime": 13.9142,
+      "eval_samples_per_second": 32.126,
+      "eval_steps_per_second": 2.012,
+      "step": 594
+    },
+    {
+      "epoch": 8.915572232645403,
+      "grad_norm": 0.01282686305166402,
+      "learning_rate": 1.2430561222172295e-06,
+      "loss": 0.4342,
+      "step": 595
+    },
+    {
+      "epoch": 8.930581613508442,
+      "grad_norm": 0.012073531377116312,
+      "learning_rate": 1.2406252317978821e-06,
+      "loss": 0.4225,
+      "step": 596
+    },
+    {
+      "epoch": 8.945590994371482,
+      "grad_norm": 0.012136707320216203,
+      "learning_rate": 1.2381928311397806e-06,
+      "loss": 0.42,
+      "step": 597
+    },
+    {
+      "epoch": 8.960600375234522,
+      "grad_norm": 0.012992601219686593,
+      "learning_rate": 1.2357589355094273e-06,
+      "loss": 0.4294,
+      "step": 598
+    },
+    {
+      "epoch": 8.975609756097562,
+      "grad_norm": 0.012433755901529724,
+      "learning_rate": 1.2333235601827084e-06,
+      "loss": 0.4135,
+      "step": 599
+    },
+    {
+      "epoch": 8.9906191369606,
+      "grad_norm": 0.012871323298772467,
+      "learning_rate": 1.2308867204447957e-06,
+      "loss": 0.4227,
+      "step": 600
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.012871323298772467,
+      "learning_rate": 1.228448431590054e-06,
+      "loss": 0.4203,
+      "step": 601
+    },
+    {
+      "epoch": 9.01500938086304,
+      "grad_norm": 0.017461692067906185,
+      "learning_rate": 1.2260087089219414e-06,
+      "loss": 0.4263,
+      "step": 602
+    },
+    {
+      "epoch": 9.03001876172608,
+      "grad_norm": 0.012676685293751521,
+      "learning_rate": 1.2235675677529155e-06,
+      "loss": 0.4206,
+      "step": 603
+    },
+    {
+      "epoch": 9.045028142589118,
+      "grad_norm": 0.012796622016032069,
+      "learning_rate": 1.2211250234043382e-06,
+      "loss": 0.4263,
+      "step": 604
+    },
+    {
+      "epoch": 9.060037523452158,
+      "grad_norm": 0.013183001174916187,
+      "learning_rate": 1.2186810912063758e-06,
+      "loss": 0.42,
+      "step": 605
+    },
+    {
+      "epoch": 9.075046904315197,
+      "grad_norm": 0.012633953173363561,
+      "learning_rate": 1.216235786497907e-06,
+      "loss": 0.4163,
+      "step": 606
+    },
+    {
+      "epoch": 9.090056285178237,
+      "grad_norm": 0.012022016291928495,
+      "learning_rate": 1.213789124626425e-06,
+      "loss": 0.4185,
+      "step": 607
+    },
+    {
+      "epoch": 9.105065666041275,
+      "grad_norm": 0.012893256202566969,
+      "learning_rate": 1.211341120947939e-06,
+      "loss": 0.4098,
+      "step": 608
+    },
+    {
+      "epoch": 9.120075046904315,
+      "grad_norm": 0.012317279779981451,
+      "learning_rate": 1.208891790826882e-06,
+      "loss": 0.4269,
+      "step": 609
+    },
+    {
+      "epoch": 9.135084427767355,
+      "grad_norm": 0.012580486012471572,
+      "learning_rate": 1.2064411496360107e-06,
+      "loss": 0.4144,
+      "step": 610
+    },
+    {
+      "epoch": 9.150093808630395,
+      "grad_norm": 0.012564068366617366,
+      "learning_rate": 1.2039892127563116e-06,
+      "loss": 0.4088,
+      "step": 611
+    },
+    {
+      "epoch": 9.165103189493433,
+      "grad_norm": 0.011856953897715697,
+      "learning_rate": 1.201535995576902e-06,
+      "loss": 0.4283,
+      "step": 612
+    },
+    {
+      "epoch": 9.180112570356473,
+      "grad_norm": 0.01293799333411114,
+      "learning_rate": 1.199081513494936e-06,
+      "loss": 0.4165,
+      "step": 613
+    },
+    {
+      "epoch": 9.195121951219512,
+      "grad_norm": 0.013093089279946351,
+      "learning_rate": 1.1966257819155062e-06,
+      "loss": 0.4164,
+      "step": 614
+    },
+    {
+      "epoch": 9.210131332082552,
+      "grad_norm": 0.012895898134142643,
+      "learning_rate": 1.1941688162515467e-06,
+      "loss": 0.4248,
+      "step": 615
+    },
+    {
+      "epoch": 9.22514071294559,
+      "grad_norm": 0.01250661926372622,
+      "learning_rate": 1.1917106319237384e-06,
+      "loss": 0.4303,
+      "step": 616
+    },
+    {
+      "epoch": 9.24015009380863,
+      "grad_norm": 0.013540155741539446,
+      "learning_rate": 1.1892512443604101e-06,
+      "loss": 0.4167,
+      "step": 617
+    },
+    {
+      "epoch": 9.25515947467167,
+      "grad_norm": 0.012245135490446384,
+      "learning_rate": 1.1867906689974427e-06,
+      "loss": 0.4234,
+      "step": 618
+    },
+    {
+      "epoch": 9.27016885553471,
+      "grad_norm": 0.012654858934040628,
+      "learning_rate": 1.1843289212781722e-06,
+      "loss": 0.4078,
+      "step": 619
+    },
+    {
+      "epoch": 9.285178236397748,
+      "grad_norm": 0.012581564643630807,
+      "learning_rate": 1.1818660166532924e-06,
+      "loss": 0.404,
+      "step": 620
+    },
+    {
+      "epoch": 9.300187617260788,
+      "grad_norm": 0.012446126751038225,
+      "learning_rate": 1.1794019705807582e-06,
+      "loss": 0.4256,
+      "step": 621
+    },
+    {
+      "epoch": 9.315196998123827,
+      "grad_norm": 0.012225067090946798,
+      "learning_rate": 1.1769367985256885e-06,
+      "loss": 0.4195,
+      "step": 622
+    },
+    {
+      "epoch": 9.330206378986867,
+      "grad_norm": 0.012493128506126407,
+      "learning_rate": 1.1744705159602698e-06,
+      "loss": 0.4219,
+      "step": 623
+    },
+    {
+      "epoch": 9.345215759849907,
+      "grad_norm": 0.012675214454940823,
+      "learning_rate": 1.1720031383636585e-06,
+      "loss": 0.4212,
+      "step": 624
+    },
+    {
+      "epoch": 9.360225140712945,
+      "grad_norm": 0.012438903850514627,
+      "learning_rate": 1.1695346812218825e-06,
+      "loss": 0.4168,
+      "step": 625
+    },
+    {
+      "epoch": 9.375234521575985,
+      "grad_norm": 0.01254096913931574,
+      "learning_rate": 1.167065160027747e-06,
+      "loss": 0.4149,
+      "step": 626
+    },
+    {
+      "epoch": 9.390243902439025,
+      "grad_norm": 0.012506400410392516,
+      "learning_rate": 1.164594590280734e-06,
+      "loss": 0.4169,
+      "step": 627
+    },
+    {
+      "epoch": 9.405253283302065,
+      "grad_norm": 0.013067474713690975,
+      "learning_rate": 1.1621229874869075e-06,
+      "loss": 0.4127,
+      "step": 628
+    },
+    {
+      "epoch": 9.420262664165103,
+      "grad_norm": 0.012626791768751198,
+      "learning_rate": 1.159650367158815e-06,
+      "loss": 0.4291,
+      "step": 629
+    },
+    {
+      "epoch": 9.435272045028142,
+      "grad_norm": 0.012395862427797645,
+      "learning_rate": 1.15717674481539e-06,
+      "loss": 0.4099,
+      "step": 630
+    },
+    {
+      "epoch": 9.450281425891182,
+      "grad_norm": 0.01277375372458372,
+      "learning_rate": 1.1547021359818558e-06,
+      "loss": 0.4123,
+      "step": 631
+    },
+    {
+      "epoch": 9.465290806754222,
+      "grad_norm": 0.0123342923006372,
+      "learning_rate": 1.1522265561896263e-06,
+      "loss": 0.4154,
+      "step": 632
+    },
+    {
+      "epoch": 9.48030018761726,
+      "grad_norm": 0.012429900682600912,
+      "learning_rate": 1.14975002097621e-06,
+      "loss": 0.4152,
+      "step": 633
+    },
+    {
+      "epoch": 9.4953095684803,
+      "grad_norm": 0.01280375207676722,
+      "learning_rate": 1.1472725458851116e-06,
+      "loss": 0.415,
+      "step": 634
+    },
+    {
+      "epoch": 9.51031894934334,
+      "grad_norm": 0.012687397063652189,
+      "learning_rate": 1.144794146465735e-06,
+      "loss": 0.4304,
+      "step": 635
+    },
+    {
+      "epoch": 9.52532833020638,
+      "grad_norm": 0.012179956092863778,
+      "learning_rate": 1.1423148382732853e-06,
+      "loss": 0.4093,
+      "step": 636
+    },
+    {
+      "epoch": 9.540337711069418,
+      "grad_norm": 0.012093011406295692,
+      "learning_rate": 1.1398346368686714e-06,
+      "loss": 0.418,
+      "step": 637
+    },
+    {
+      "epoch": 9.555347091932457,
+      "grad_norm": 0.013454735147744316,
+      "learning_rate": 1.1373535578184082e-06,
+      "loss": 0.4264,
+      "step": 638
+    },
+    {
+      "epoch": 9.570356472795497,
+      "grad_norm": 0.012555914733497363,
+      "learning_rate": 1.1348716166945195e-06,
+      "loss": 0.4212,
+      "step": 639
+    },
+    {
+      "epoch": 9.585365853658537,
+      "grad_norm": 0.01309842650785753,
+      "learning_rate": 1.1323888290744385e-06,
+      "loss": 0.4229,
+      "step": 640
+    },
+    {
+      "epoch": 9.600375234521575,
+      "grad_norm": 0.013049394375582246,
+      "learning_rate": 1.1299052105409134e-06,
+      "loss": 0.4235,
+      "step": 641
+    },
+    {
+      "epoch": 9.615384615384615,
+      "grad_norm": 0.012029514118628914,
+      "learning_rate": 1.127420776681905e-06,
+      "loss": 0.4132,
+      "step": 642
+    },
+    {
+      "epoch": 9.630393996247655,
+      "grad_norm": 0.012689737627309502,
+      "learning_rate": 1.1249355430904929e-06,
+      "loss": 0.4234,
+      "step": 643
+    },
+    {
+      "epoch": 9.645403377110695,
+      "grad_norm": 0.012003229452039505,
+      "learning_rate": 1.1224495253647754e-06,
+      "loss": 0.4166,
+      "step": 644
+    },
+    {
+      "epoch": 9.660412757973734,
+      "grad_norm": 0.012066969097037491,
+      "learning_rate": 1.119962739107773e-06,
+      "loss": 0.4092,
+      "step": 645
+    },
+    {
+      "epoch": 9.675422138836772,
+      "grad_norm": 0.012338956794216918,
+      "learning_rate": 1.117475199927329e-06,
+      "loss": 0.4282,
+      "step": 646
+    },
+    {
+      "epoch": 9.690431519699812,
+      "grad_norm": 0.012204286663618873,
+      "learning_rate": 1.1149869234360126e-06,
+      "loss": 0.4314,
+      "step": 647
+    },
+    {
+      "epoch": 9.705440900562852,
+      "grad_norm": 0.01259052031260883,
+      "learning_rate": 1.1124979252510207e-06,
+      "loss": 0.4305,
+      "step": 648
+    },
+    {
+      "epoch": 9.720450281425892,
+      "grad_norm": 0.013022893825570933,
+      "learning_rate": 1.1100082209940793e-06,
+      "loss": 0.4198,
+      "step": 649
+    },
+    {
+      "epoch": 9.73545966228893,
+      "grad_norm": 0.012690810978915846,
+      "learning_rate": 1.1075178262913466e-06,
+      "loss": 0.4109,
+      "step": 650
+    },
+    {
+      "epoch": 9.75046904315197,
+      "grad_norm": 0.012631087513351836,
+      "learning_rate": 1.1050267567733138e-06,
+      "loss": 0.4161,
+      "step": 651
+    },
+    {
+      "epoch": 9.76547842401501,
+      "grad_norm": 0.012804454368901522,
+      "learning_rate": 1.1025350280747073e-06,
+      "loss": 0.4196,
+      "step": 652
+    },
+    {
+      "epoch": 9.78048780487805,
+      "grad_norm": 0.0126217418321894,
+      "learning_rate": 1.1000426558343909e-06,
+      "loss": 0.421,
+      "step": 653
+    },
+    {
+      "epoch": 9.795497185741088,
+      "grad_norm": 0.012742956495133224,
+      "learning_rate": 1.097549655695268e-06,
+      "loss": 0.4175,
+      "step": 654
+    },
+    {
+      "epoch": 9.810506566604127,
+      "grad_norm": 0.012689525456554308,
+      "learning_rate": 1.0950560433041825e-06,
+      "loss": 0.4078,
+      "step": 655
+    },
+    {
+      "epoch": 9.825515947467167,
+      "grad_norm": 0.012319356429640735,
+      "learning_rate": 1.0925618343118207e-06,
+      "loss": 0.4249,
+      "step": 656
+    },
+    {
+      "epoch": 9.840525328330207,
+      "grad_norm": 0.012463815882183473,
+      "learning_rate": 1.0900670443726134e-06,
+      "loss": 0.416,
+      "step": 657
+    },
+    {
+      "epoch": 9.855534709193245,
+      "grad_norm": 0.012494008236093816,
+      "learning_rate": 1.087571689144638e-06,
+      "loss": 0.4094,
+      "step": 658
+    },
+    {
+      "epoch": 9.870544090056285,
+      "grad_norm": 0.012788296107781863,
+      "learning_rate": 1.0850757842895193e-06,
+      "loss": 0.4134,
+      "step": 659
+    },
+    {
+      "epoch": 9.885553470919325,
+      "grad_norm": 0.011949790784482477,
+      "learning_rate": 1.0825793454723324e-06,
+      "loss": 0.4123,
+      "step": 660
+    },
+    {
+      "epoch": 9.885553470919325,
+      "eval_loss": 0.40209999680519104,
+      "eval_runtime": 13.8285,
+      "eval_samples_per_second": 32.324,
+      "eval_steps_per_second": 2.025,
+      "step": 660
+    },
+    {
+      "epoch": 9.900562851782365,
+      "grad_norm": 0.012120763384507233,
+      "learning_rate": 1.0800823883615032e-06,
+      "loss": 0.418,
+      "step": 661
+    },
+    {
+      "epoch": 9.915572232645403,
+      "grad_norm": 0.01272550451559427,
+      "learning_rate": 1.0775849286287104e-06,
+      "loss": 0.4255,
+      "step": 662
+    },
+    {
+      "epoch": 9.930581613508442,
+      "grad_norm": 0.012569887569723945,
+      "learning_rate": 1.0750869819487883e-06,
+      "loss": 0.4181,
+      "step": 663
+    },
+    {
+      "epoch": 9.945590994371482,
+      "grad_norm": 0.012900893185061444,
+      "learning_rate": 1.0725885639996262e-06,
+      "loss": 0.4256,
+      "step": 664
+    },
+    {
+      "epoch": 9.960600375234522,
+      "grad_norm": 0.012186922057616576,
+      "learning_rate": 1.0700896904620722e-06,
+      "loss": 0.4239,
+      "step": 665
+    },
+    {
+      "epoch": 9.975609756097562,
+      "grad_norm": 0.012546185280174902,
+      "learning_rate": 1.0675903770198332e-06,
+      "loss": 0.4096,
+      "step": 666
+    },
+    {
+      "epoch": 9.9906191369606,
+      "grad_norm": 0.012308385784068267,
+      "learning_rate": 1.0650906393593768e-06,
+      "loss": 0.417,
+      "step": 667
+    },
+    {
+      "epoch": 10.01500938086304,
+      "grad_norm": 0.014542424040829479,
+      "learning_rate": 1.0625904931698345e-06,
+      "loss": 0.8235,
+      "step": 668
+    },
+    {
+      "epoch": 10.03001876172608,
+      "grad_norm": 0.012357617955558025,
+      "learning_rate": 1.0600899541429002e-06,
+      "loss": 0.4132,
+      "step": 669
+    },
+    {
+      "epoch": 10.045028142589118,
+      "grad_norm": 0.01238382198584047,
+      "learning_rate": 1.057589037972735e-06,
+      "loss": 0.409,
+      "step": 670
+    },
+    {
+      "epoch": 10.060037523452158,
+      "grad_norm": 0.012545757227630114,
+      "learning_rate": 1.0550877603558654e-06,
+      "loss": 0.4202,
+      "step": 671
+    },
+    {
+      "epoch": 10.075046904315197,
+      "grad_norm": 0.012296729178528745,
+      "learning_rate": 1.0525861369910876e-06,
+      "loss": 0.4118,
+      "step": 672
+    },
+    {
+      "epoch": 10.090056285178237,
+      "grad_norm": 0.01233936400904742,
+      "learning_rate": 1.0500841835793676e-06,
+      "loss": 0.4186,
+      "step": 673
+    },
+    {
+      "epoch": 10.105065666041275,
+      "grad_norm": 0.01239644213592733,
+      "learning_rate": 1.0475819158237424e-06,
+      "loss": 0.4211,
+      "step": 674
+    },
+    {
+      "epoch": 10.120075046904315,
+      "grad_norm": 0.01238165563747052,
+      "learning_rate": 1.0450793494292222e-06,
+      "loss": 0.4192,
+      "step": 675
+    },
+    {
+      "epoch": 10.135084427767355,
+      "grad_norm": 0.01228638867675189,
+      "learning_rate": 1.0425765001026922e-06,
+      "loss": 0.4122,
+      "step": 676
+    },
+    {
+      "epoch": 10.150093808630395,
+      "grad_norm": 0.012503182702259674,
+      "learning_rate": 1.0400733835528124e-06,
+      "loss": 0.4257,
+      "step": 677
+    },
+    {
+      "epoch": 10.165103189493433,
+      "grad_norm": 0.012016184893121317,
+      "learning_rate": 1.0375700154899207e-06,
+      "loss": 0.3982,
+      "step": 678
+    },
+    {
+      "epoch": 10.180112570356473,
+      "grad_norm": 0.012647564056457507,
+      "learning_rate": 1.0350664116259326e-06,
+      "loss": 0.4247,
+      "step": 679
+    },
+    {
+      "epoch": 10.195121951219512,
+      "grad_norm": 0.012624563972519114,
+      "learning_rate": 1.032562587674245e-06,
+      "loss": 0.4226,
+      "step": 680
+    },
+    {
+      "epoch": 10.210131332082552,
+      "grad_norm": 0.01266422823244068,
+      "learning_rate": 1.0300585593496347e-06,
+      "loss": 0.4236,
+      "step": 681
+    },
+    {
+      "epoch": 10.22514071294559,
+      "grad_norm": 0.013120899008077981,
+      "learning_rate": 1.0275543423681621e-06,
+      "loss": 0.4267,
+      "step": 682
+    },
+    {
+      "epoch": 10.24015009380863,
+      "grad_norm": 0.012469850454087042,
+      "learning_rate": 1.0250499524470713e-06,
+      "loss": 0.4185,
+      "step": 683
+    },
+    {
+      "epoch": 10.25515947467167,
+      "grad_norm": 0.013032775148789266,
+      "learning_rate": 1.022545405304692e-06,
+      "loss": 0.4173,
+      "step": 684
+    },
+    {
+      "epoch": 10.27016885553471,
+      "grad_norm": 0.012130912167583757,
+      "learning_rate": 1.020040716660341e-06,
+      "loss": 0.4174,
+      "step": 685
+    },
+    {
+      "epoch": 10.285178236397748,
+      "grad_norm": 0.012694584356580994,
+      "learning_rate": 1.0175359022342224e-06,
+      "loss": 0.4201,
+      "step": 686
+    },
+    {
+      "epoch": 10.300187617260788,
+      "grad_norm": 0.012738648311210665,
+      "learning_rate": 1.0150309777473304e-06,
+      "loss": 0.4246,
+      "step": 687
+    },
+    {
+      "epoch": 10.315196998123827,
+      "grad_norm": 0.012541064779257812,
+      "learning_rate": 1.0125259589213495e-06,
+      "loss": 0.4237,
+      "step": 688
+    },
+    {
+      "epoch": 10.330206378986867,
+      "grad_norm": 0.012159573126019833,
+      "learning_rate": 1.0100208614785565e-06,
+      "loss": 0.4236,
+      "step": 689
+    },
+    {
+      "epoch": 10.345215759849907,
+      "grad_norm": 0.012655017443475823,
+      "learning_rate": 1.007515701141722e-06,
+      "loss": 0.414,
+      "step": 690
+    },
+    {
+      "epoch": 10.360225140712945,
+      "grad_norm": 0.01201000687630199,
+      "learning_rate": 1.0050104936340107e-06,
+      "loss": 0.4185,
+      "step": 691
+    },
+    {
+      "epoch": 10.375234521575985,
+      "grad_norm": 0.012362021002323115,
+      "learning_rate": 1.002505254678884e-06,
+      "loss": 0.4226,
+      "step": 692
+    },
+    {
+      "epoch": 10.390243902439025,
+      "grad_norm": 0.012831699499431226,
+      "learning_rate": 1e-06,
+      "loss": 0.4267,
+      "step": 693
+    },
+    {
+      "epoch": 10.405253283302065,
+      "grad_norm": 0.01274780819591858,
+      "learning_rate": 9.97494745321116e-07,
+      "loss": 0.4109,
+      "step": 694
+    },
+    {
+      "epoch": 10.420262664165103,
+      "grad_norm": 0.013774541103795192,
+      "learning_rate": 9.949895063659892e-07,
+      "loss": 0.4125,
+      "step": 695
+    },
+    {
+      "epoch": 10.435272045028142,
+      "grad_norm": 0.012506222777518427,
+      "learning_rate": 9.924842988582782e-07,
+      "loss": 0.4214,
+      "step": 696
+    },
+    {
+      "epoch": 10.450281425891182,
+      "grad_norm": 0.01244429874279497,
+      "learning_rate": 9.899791385214436e-07,
+      "loss": 0.4051,
+      "step": 697
+    },
+    {
+      "epoch": 10.465290806754222,
+      "grad_norm": 0.012191950069124378,
+      "learning_rate": 9.874740410786506e-07,
+      "loss": 0.4118,
+      "step": 698
+    },
+    {
+      "epoch": 10.48030018761726,
+      "grad_norm": 0.013197523206823903,
+      "learning_rate": 9.849690222526697e-07,
+      "loss": 0.416,
+      "step": 699
+    },
+    {
+      "epoch": 10.4953095684803,
+      "grad_norm": 0.012181682595547577,
+      "learning_rate": 9.824640977657773e-07,
+      "loss": 0.4105,
+      "step": 700
+    },
+    {
+      "epoch": 10.51031894934334,
+      "grad_norm": 0.01234029745826439,
+      "learning_rate": 9.79959283339659e-07,
+      "loss": 0.4198,
+      "step": 701
+    },
+    {
+      "epoch": 10.52532833020638,
+      "grad_norm": 0.012785453706742769,
+      "learning_rate": 9.77454594695308e-07,
+      "loss": 0.4143,
+      "step": 702
+    },
+    {
+      "epoch": 10.540337711069418,
+      "grad_norm": 0.012575428471071192,
+      "learning_rate": 9.749500475529289e-07,
+      "loss": 0.411,
+      "step": 703
+    },
+    {
+      "epoch": 10.555347091932457,
+      "grad_norm": 0.012318721406990746,
+      "learning_rate": 9.72445657631838e-07,
+      "loss": 0.3997,
+      "step": 704
+    },
+    {
+      "epoch": 10.570356472795497,
+      "grad_norm": 0.012789956349847692,
+      "learning_rate": 9.699414406503652e-07,
+      "loss": 0.4176,
+      "step": 705
+    },
+    {
+      "epoch": 10.585365853658537,
+      "grad_norm": 0.01328367201839251,
+      "learning_rate": 9.674374123257553e-07,
+      "loss": 0.4202,
+      "step": 706
+    },
+    {
+      "epoch": 10.600375234521575,
+      "grad_norm": 0.013024092725146954,
+      "learning_rate": 9.649335883740673e-07,
+      "loss": 0.4158,
+      "step": 707
+    },
+    {
+      "epoch": 10.615384615384615,
+      "grad_norm": 0.013090434740472322,
+      "learning_rate": 9.624299845100794e-07,
+      "loss": 0.4101,
+      "step": 708
+    },
+    {
+      "epoch": 10.630393996247655,
+      "grad_norm": 0.012176392973424509,
+      "learning_rate": 9.599266164471873e-07,
+      "loss": 0.4073,
+      "step": 709
+    },
+    {
+      "epoch": 10.645403377110695,
+      "grad_norm": 0.012247800521725064,
+      "learning_rate": 9.574234998973075e-07,
+      "loss": 0.4126,
+      "step": 710
+    },
+    {
+      "epoch": 10.660412757973734,
+      "grad_norm": 0.012220616675445717,
+      "learning_rate": 9.549206505707777e-07,
+      "loss": 0.4145,
+      "step": 711
+    },
+    {
+      "epoch": 10.675422138836772,
+      "grad_norm": 0.01252656468465896,
+      "learning_rate": 9.524180841762576e-07,
+      "loss": 0.4226,
+      "step": 712
+    },
+    {
+      "epoch": 10.690431519699812,
+      "grad_norm": 0.01239436211827446,
+      "learning_rate": 9.499158164206324e-07,
+      "loss": 0.4181,
+      "step": 713
+    },
+    {
+      "epoch": 10.705440900562852,
+      "grad_norm": 0.012506887073625421,
+      "learning_rate": 9.474138630089123e-07,
+      "loss": 0.4114,
+      "step": 714
+    },
+    {
+      "epoch": 10.720450281425892,
+      "grad_norm": 0.012310549268342016,
+      "learning_rate": 9.449122396441343e-07,
+      "loss": 0.4048,
+      "step": 715
+    },
+    {
+      "epoch": 10.73545966228893,
+      "grad_norm": 0.012239695816293078,
+      "learning_rate": 9.424109620272652e-07,
+      "loss": 0.4208,
+      "step": 716
+    },
+    {
+      "epoch": 10.75046904315197,
+      "grad_norm": 0.012441047937013722,
+      "learning_rate": 9.399100458570996e-07,
+      "loss": 0.4039,
+      "step": 717
+    },
+    {
+      "epoch": 10.76547842401501,
+      "grad_norm": 0.01206547884076615,
+      "learning_rate": 9.374095068301656e-07,
+      "loss": 0.4103,
+      "step": 718
+    },
+    {
+      "epoch": 10.78048780487805,
+      "grad_norm": 0.012386755042071106,
+      "learning_rate": 9.349093606406231e-07,
+      "loss": 0.4163,
+      "step": 719
+    },
+    {
+      "epoch": 10.795497185741088,
+      "grad_norm": 0.012498396538373382,
+      "learning_rate": 9.324096229801673e-07,
+      "loss": 0.4196,
+      "step": 720
+    },
+    {
+      "epoch": 10.810506566604127,
+      "grad_norm": 0.012178639675100663,
+      "learning_rate": 9.299103095379281e-07,
+      "loss": 0.4135,
+      "step": 721
+    },
+    {
+      "epoch": 10.825515947467167,
+      "grad_norm": 0.012463279304890761,
+      "learning_rate": 9.274114360003737e-07,
+      "loss": 0.421,
+      "step": 722
+    },
+    {
+      "epoch": 10.840525328330207,
+      "grad_norm": 0.012419698179239286,
+      "learning_rate": 9.249130180512116e-07,
+      "loss": 0.4138,
+      "step": 723
+    },
+    {
+      "epoch": 10.855534709193245,
+      "grad_norm": 0.012609451632788022,
+      "learning_rate": 9.224150713712894e-07,
+      "loss": 0.4111,
+      "step": 724
+    },
+    {
+      "epoch": 10.870544090056285,
+      "grad_norm": 0.01264688365836291,
+      "learning_rate": 9.199176116384973e-07,
+      "loss": 0.4101,
+      "step": 725
+    },
+    {
+      "epoch": 10.885553470919325,
+      "grad_norm": 0.012922477609598963,
+      "learning_rate": 9.174206545276677e-07,
+      "loss": 0.4103,
+      "step": 726
+    },
+    {
+      "epoch": 10.885553470919325,
+      "eval_loss": 0.3998468220233917,
+      "eval_runtime": 13.6727,
+      "eval_samples_per_second": 32.693,
+      "eval_steps_per_second": 2.048,
+      "step": 726
+    },
+    {
+      "epoch": 10.900562851782365,
+      "grad_norm": 0.012222567401425159,
+      "learning_rate": 9.149242157104806e-07,
+      "loss": 0.4028,
+      "step": 727
+    },
+    {
+      "epoch": 10.915572232645403,
+      "grad_norm": 0.012431994303602674,
+      "learning_rate": 9.12428310855362e-07,
+      "loss": 0.4252,
+      "step": 728
+    },
+    {
+      "epoch": 10.930581613508442,
+      "grad_norm": 0.01224992043513614,
+      "learning_rate": 9.099329556273865e-07,
+      "loss": 0.4194,
+      "step": 729
+    },
+    {
+      "epoch": 10.945590994371482,
+      "grad_norm": 0.012591228897490484,
+      "learning_rate": 9.074381656881796e-07,
+      "loss": 0.4162,
+      "step": 730
+    },
+    {
+      "epoch": 10.960600375234522,
+      "grad_norm": 0.01281665111811267,
+      "learning_rate": 9.049439566958175e-07,
+      "loss": 0.4168,
+      "step": 731
+    },
+    {
+      "epoch": 10.975609756097562,
+      "grad_norm": 0.012052834238919263,
+      "learning_rate": 9.024503443047318e-07,
+      "loss": 0.4195,
+      "step": 732
+    },
+    {
+      "epoch": 10.9906191369606,
+      "grad_norm": 0.012847179302409485,
+      "learning_rate": 8.999573441656089e-07,
+      "loss": 0.4158,
+      "step": 733
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.012847179302409485,
+      "learning_rate": 8.974649719252928e-07,
+      "loss": 0.4147,
+      "step": 734
+    },
+    {
+      "epoch": 11.01500938086304,
+      "grad_norm": 0.016922785752928025,
+      "learning_rate": 8.949732432266866e-07,
+      "loss": 0.4058,
+      "step": 735
+    },
+    {
+      "epoch": 11.03001876172608,
+      "grad_norm": 0.012040148173995293,
+      "learning_rate": 8.924821737086535e-07,
+      "loss": 0.4197,
+      "step": 736
+    },
+    {
+      "epoch": 11.045028142589118,
+      "grad_norm": 0.01243791973891847,
+      "learning_rate": 8.899917790059207e-07,
+      "loss": 0.4225,
+      "step": 737
+    },
+    {
+      "epoch": 11.060037523452158,
+      "grad_norm": 0.01195989075560471,
+      "learning_rate": 8.875020747489793e-07,
+      "loss": 0.4163,
+      "step": 738
+    },
+    {
+      "epoch": 11.075046904315197,
+      "grad_norm": 0.012609607466383803,
+      "learning_rate": 8.850130765639872e-07,
+      "loss": 0.4229,
+      "step": 739
+    },
+    {
+      "epoch": 11.090056285178237,
+      "grad_norm": 0.012478853178643596,
+      "learning_rate": 8.825248000726713e-07,
+      "loss": 0.4203,
+      "step": 740
+    },
+    {
+      "epoch": 11.105065666041275,
+      "grad_norm": 0.012533296902894696,
+      "learning_rate": 8.80037260892227e-07,
+      "loss": 0.4097,
+      "step": 741
+    },
+    {
+      "epoch": 11.120075046904315,
+      "grad_norm": 0.012463619425894766,
+      "learning_rate": 8.775504746352246e-07,
+      "loss": 0.4099,
+      "step": 742
+    },
+    {
+      "epoch": 11.135084427767355,
+      "grad_norm": 0.012572037460674756,
+      "learning_rate": 8.750644569095072e-07,
+      "loss": 0.4207,
+      "step": 743
+    },
+    {
+      "epoch": 11.150093808630395,
+      "grad_norm": 0.012817195911965876,
+      "learning_rate": 8.72579223318095e-07,
+      "loss": 0.4139,
+      "step": 744
+    },
+    {
+      "epoch": 11.165103189493433,
+      "grad_norm": 0.013023585144428015,
+      "learning_rate": 8.70094789459087e-07,
+      "loss": 0.4181,
+      "step": 745
+    },
+    {
+      "epoch": 11.180112570356473,
+      "grad_norm": 0.012339182343402779,
+      "learning_rate": 8.676111709255614e-07,
+      "loss": 0.4186,
+      "step": 746
+    },
+    {
+      "epoch": 11.195121951219512,
+      "grad_norm": 0.012231541298556112,
+      "learning_rate": 8.651283833054808e-07,
+      "loss": 0.4087,
+      "step": 747
+    },
+    {
+      "epoch": 11.210131332082552,
+      "grad_norm": 0.012477160954476265,
+      "learning_rate": 8.626464421815918e-07,
+      "loss": 0.4223,
+      "step": 748
+    },
+    {
+      "epoch": 11.22514071294559,
+      "grad_norm": 0.01247166784817762,
+      "learning_rate": 8.601653631313287e-07,
+      "loss": 0.4218,
+      "step": 749
+    },
+    {
+      "epoch": 11.24015009380863,
+      "grad_norm": 0.012436312283189853,
+      "learning_rate": 8.576851617267149e-07,
+      "loss": 0.4148,
+      "step": 750
+    },
+    {
+      "epoch": 11.25515947467167,
+      "grad_norm": 0.012388511629756823,
+      "learning_rate": 8.552058535342652e-07,
+      "loss": 0.4127,
+      "step": 751
+    },
+    {
+      "epoch": 11.27016885553471,
+      "grad_norm": 0.012312475936173602,
+      "learning_rate": 8.527274541148884e-07,
+      "loss": 0.4085,
+      "step": 752
+    },
+    {
+      "epoch": 11.285178236397748,
+      "grad_norm": 0.011970201855727553,
+      "learning_rate": 8.502499790237899e-07,
+      "loss": 0.4007,
+      "step": 753
+    },
+    {
+      "epoch": 11.300187617260788,
+      "grad_norm": 0.012623949917184176,
+      "learning_rate": 8.477734438103735e-07,
+      "loss": 0.4119,
+      "step": 754
+    },
+    {
+      "epoch": 11.315196998123827,
+      "grad_norm": 0.012212246192249409,
+      "learning_rate": 8.452978640181444e-07,
+      "loss": 0.4018,
+      "step": 755
+    },
+    {
+      "epoch": 11.330206378986867,
+      "grad_norm": 0.012416638149246855,
+      "learning_rate": 8.428232551846101e-07,
+      "loss": 0.4088,
+      "step": 756
+    },
+    {
+      "epoch": 11.345215759849907,
+      "grad_norm": 0.012132111502099707,
+      "learning_rate": 8.40349632841185e-07,
+      "loss": 0.4114,
+      "step": 757
+    },
+    {
+      "epoch": 11.360225140712945,
+      "grad_norm": 0.012267161024372699,
+      "learning_rate": 8.378770125130924e-07,
+      "loss": 0.4111,
+      "step": 758
+    },
+    {
+      "epoch": 11.375234521575985,
+      "grad_norm": 0.01283364696949894,
+      "learning_rate": 8.354054097192659e-07,
+      "loss": 0.4191,
+      "step": 759
+    },
+    {
+      "epoch": 11.390243902439025,
+      "grad_norm": 0.012709567548725487,
+      "learning_rate": 8.329348399722533e-07,
+      "loss": 0.4128,
+      "step": 760
+    },
+    {
+      "epoch": 11.405253283302065,
+      "grad_norm": 0.012340710769494431,
+      "learning_rate": 8.304653187781175e-07,
+      "loss": 0.4011,
+      "step": 761
+    },
+    {
+      "epoch": 11.420262664165103,
+      "grad_norm": 0.012429569405680763,
+      "learning_rate": 8.279968616363417e-07,
+      "loss": 0.4074,
+      "step": 762
+    },
+    {
+      "epoch": 11.435272045028142,
+      "grad_norm": 0.011810395153086212,
+      "learning_rate": 8.2552948403973e-07,
+      "loss": 0.4134,
+      "step": 763
+    },
+    {
+      "epoch": 11.450281425891182,
+      "grad_norm": 0.012235707581225837,
+      "learning_rate": 8.230632014743114e-07,
+      "loss": 0.4209,
+      "step": 764
+    },
+    {
+      "epoch": 11.465290806754222,
+      "grad_norm": 0.012394322030979758,
+      "learning_rate": 8.205980294192421e-07,
+      "loss": 0.4156,
+      "step": 765
+    },
+    {
+      "epoch": 11.48030018761726,
+      "grad_norm": 0.01233224667407161,
+      "learning_rate": 8.181339833467078e-07,
+      "loss": 0.4129,
+      "step": 766
+    },
+    {
+      "epoch": 11.4953095684803,
+      "grad_norm": 0.012894820199788238,
+      "learning_rate": 8.156710787218277e-07,
+      "loss": 0.4022,
+      "step": 767
+    },
+    {
+      "epoch": 11.51031894934334,
+      "grad_norm": 0.012115396789355592,
+      "learning_rate": 8.132093310025571e-07,
+      "loss": 0.4227,
+      "step": 768
+    },
+    {
+      "epoch": 11.52532833020638,
+      "grad_norm": 0.01250946865021327,
+      "learning_rate": 8.107487556395901e-07,
+      "loss": 0.4167,
+      "step": 769
+    },
+    {
+      "epoch": 11.540337711069418,
+      "grad_norm": 0.01235958458093249,
+      "learning_rate": 8.082893680762618e-07,
+      "loss": 0.4159,
+      "step": 770
+    },
+    {
+      "epoch": 11.555347091932457,
+      "grad_norm": 0.01251555314637417,
+      "learning_rate": 8.058311837484535e-07,
+      "loss": 0.4179,
+      "step": 771
+    },
+    {
+      "epoch": 11.570356472795497,
+      "grad_norm": 0.012567617246515256,
+      "learning_rate": 8.03374218084494e-07,
+      "loss": 0.4139,
+      "step": 772
+    },
+    {
+      "epoch": 11.585365853658537,
+      "grad_norm": 0.012363452875523725,
+      "learning_rate": 8.009184865050639e-07,
+      "loss": 0.4125,
+      "step": 773
+    },
+    {
+      "epoch": 11.600375234521575,
+      "grad_norm": 0.012315468666145416,
+      "learning_rate": 7.984640044230983e-07,
+      "loss": 0.4125,
+      "step": 774
+    },
+    {
+      "epoch": 11.615384615384615,
+      "grad_norm": 0.012111170617275159,
+      "learning_rate": 7.960107872436887e-07,
+      "loss": 0.4082,
+      "step": 775
+    },
+    {
+      "epoch": 11.630393996247655,
+      "grad_norm": 0.012314813108895683,
+      "learning_rate": 7.935588503639891e-07,
+      "loss": 0.4205,
+      "step": 776
+    },
+    {
+      "epoch": 11.645403377110695,
+      "grad_norm": 0.012195711107959282,
+      "learning_rate": 7.91108209173118e-07,
+      "loss": 0.4175,
+      "step": 777
+    },
+    {
+      "epoch": 11.660412757973734,
+      "grad_norm": 0.012204558616190958,
+      "learning_rate": 7.886588790520608e-07,
+      "loss": 0.4176,
+      "step": 778
+    },
+    {
+      "epoch": 11.675422138836772,
+      "grad_norm": 0.012574502223338559,
+      "learning_rate": 7.862108753735752e-07,
+      "loss": 0.4141,
+      "step": 779
+    },
+    {
+      "epoch": 11.690431519699812,
+      "grad_norm": 0.012138755761975865,
+      "learning_rate": 7.837642135020928e-07,
+      "loss": 0.4144,
+      "step": 780
+    },
+    {
+      "epoch": 11.705440900562852,
+      "grad_norm": 0.012892259806495502,
+      "learning_rate": 7.813189087936242e-07,
+      "loss": 0.4165,
+      "step": 781
+    },
+    {
+      "epoch": 11.720450281425892,
+      "grad_norm": 0.012462979592728919,
+      "learning_rate": 7.788749765956619e-07,
+      "loss": 0.4018,
+      "step": 782
+    },
+    {
+      "epoch": 11.73545966228893,
+      "grad_norm": 0.012473208835669184,
+      "learning_rate": 7.764324322470841e-07,
+      "loss": 0.4136,
+      "step": 783
+    },
+    {
+      "epoch": 11.75046904315197,
+      "grad_norm": 0.01289776168996197,
+      "learning_rate": 7.739912910780589e-07,
+      "loss": 0.4199,
+      "step": 784
+    },
+    {
+      "epoch": 11.76547842401501,
+      "grad_norm": 0.01217754538151564,
+      "learning_rate": 7.715515684099462e-07,
+      "loss": 0.4151,
+      "step": 785
+    },
+    {
+      "epoch": 11.78048780487805,
+      "grad_norm": 0.012374436487471281,
+      "learning_rate": 7.691132795552042e-07,
+      "loss": 0.4076,
+      "step": 786
+    },
+    {
+      "epoch": 11.795497185741088,
+      "grad_norm": 0.012391305303445135,
+      "learning_rate": 7.666764398172917e-07,
+      "loss": 0.4241,
+      "step": 787
+    },
+    {
+      "epoch": 11.810506566604127,
+      "grad_norm": 0.012727898092571818,
+      "learning_rate": 7.642410644905726e-07,
+      "loss": 0.4066,
+      "step": 788
+    },
+    {
+      "epoch": 11.825515947467167,
+      "grad_norm": 0.012072572789924537,
+      "learning_rate": 7.618071688602198e-07,
+      "loss": 0.411,
+      "step": 789
+    },
+    {
+      "epoch": 11.840525328330207,
+      "grad_norm": 0.012477736514295582,
+      "learning_rate": 7.593747682021181e-07,
+      "loss": 0.4162,
+      "step": 790
+    },
+    {
+      "epoch": 11.855534709193245,
+      "grad_norm": 0.01223133703780588,
+      "learning_rate": 7.569438777827705e-07,
+      "loss": 0.4139,
+      "step": 791
+    },
+    {
+      "epoch": 11.870544090056285,
+      "grad_norm": 0.012134907953234304,
+      "learning_rate": 7.545145128592008e-07,
+      "loss": 0.4143,
+      "step": 792
+    },
+    {
+      "epoch": 11.870544090056285,
+      "eval_loss": 0.3981357216835022,
+      "eval_runtime": 13.8587,
+      "eval_samples_per_second": 32.254,
+      "eval_steps_per_second": 2.02,
+      "step": 792
+    },
+    {
+      "epoch": 11.885553470919325,
+      "grad_norm": 0.012556981627557074,
+      "learning_rate": 7.520866886788587e-07,
+      "loss": 0.4137,
+      "step": 793
+    },
+    {
+      "epoch": 11.900562851782365,
+      "grad_norm": 0.012816523723577786,
+      "learning_rate": 7.496604204795234e-07,
+      "loss": 0.4035,
+      "step": 794
+    },
+    {
+      "epoch": 11.915572232645403,
+      "grad_norm": 0.012143845555033037,
+      "learning_rate": 7.472357234892081e-07,
+      "loss": 0.4006,
+      "step": 795
+    },
+    {
+      "epoch": 11.930581613508442,
+      "grad_norm": 0.012405667588160222,
+      "learning_rate": 7.448126129260651e-07,
+      "loss": 0.4086,
+      "step": 796
+    },
+    {
+      "epoch": 11.945590994371482,
+      "grad_norm": 0.012494666356775595,
+      "learning_rate": 7.423911039982893e-07,
+      "loss": 0.4188,
+      "step": 797
+    },
+    {
+      "epoch": 11.960600375234522,
+      "grad_norm": 0.012828825056010124,
+      "learning_rate": 7.399712119040236e-07,
+      "loss": 0.4253,
+      "step": 798
+    },
+    {
+      "epoch": 11.975609756097562,
+      "grad_norm": 0.01248045961928763,
+      "learning_rate": 7.375529518312636e-07,
+      "loss": 0.4094,
+      "step": 799
+    },
+    {
+      "epoch": 11.9906191369606,
+      "grad_norm": 0.011879777000295733,
+      "learning_rate": 7.3513633895776e-07,
+      "loss": 0.4089,
+      "step": 800
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.01480589004238864,
+      "learning_rate": 7.327213884509272e-07,
+      "loss": 0.4039,
+      "step": 801
+    },
+    {
+      "epoch": 12.01500938086304,
+      "grad_norm": 0.015597993205706172,
+      "learning_rate": 7.303081154677451e-07,
+      "loss": 0.4125,
+      "step": 802
+    },
+    {
+      "epoch": 12.03001876172608,
+      "grad_norm": 0.01238599658294667,
+      "learning_rate": 7.278965351546648e-07,
+      "loss": 0.4199,
+      "step": 803
+    },
+    {
+      "epoch": 12.045028142589118,
+      "grad_norm": 0.012326415759353096,
+      "learning_rate": 7.254866626475152e-07,
+      "loss": 0.4065,
+      "step": 804
+    },
+    {
+      "epoch": 12.060037523452158,
+      "grad_norm": 0.01249682081721596,
+      "learning_rate": 7.230785130714037e-07,
+      "loss": 0.4188,
+      "step": 805
+    },
+    {
+      "epoch": 12.075046904315197,
+      "grad_norm": 0.012342465641942092,
+      "learning_rate": 7.206721015406266e-07,
+      "loss": 0.4051,
+      "step": 806
+    },
+    {
+      "epoch": 12.090056285178237,
+      "grad_norm": 0.012375842848816656,
+      "learning_rate": 7.182674431585702e-07,
+      "loss": 0.4144,
+      "step": 807
+    },
+    {
+      "epoch": 12.105065666041275,
+      "grad_norm": 0.01235742358239482,
+      "learning_rate": 7.158645530176184e-07,
+      "loss": 0.4153,
+      "step": 808
+    },
+    {
+      "epoch": 12.120075046904315,
+      "grad_norm": 0.01242364276675938,
+      "learning_rate": 7.134634461990569e-07,
+      "loss": 0.4198,
+      "step": 809
+    },
+    {
+      "epoch": 12.135084427767355,
+      "grad_norm": 0.011962847590866504,
+      "learning_rate": 7.110641377729777e-07,
+      "loss": 0.4115,
+      "step": 810
+    },
+    {
+      "epoch": 12.150093808630395,
+      "grad_norm": 0.012325487589974966,
+      "learning_rate": 7.086666427981868e-07,
+      "loss": 0.4125,
+      "step": 811
+    },
+    {
+      "epoch": 12.165103189493433,
+      "grad_norm": 0.012286797408210898,
+      "learning_rate": 7.062709763221078e-07,
+      "loss": 0.4087,
+      "step": 812
+    },
+    {
+      "epoch": 12.180112570356473,
+      "grad_norm": 0.012087334628339325,
+      "learning_rate": 7.038771533806883e-07,
+      "loss": 0.4183,
+      "step": 813
+    },
+    {
+      "epoch": 12.195121951219512,
+      "grad_norm": 0.01206278765338631,
+      "learning_rate": 7.014851889983057e-07,
+      "loss": 0.4171,
+      "step": 814
+    },
+    {
+      "epoch": 12.210131332082552,
+      "grad_norm": 0.01214504139796841,
+      "learning_rate": 6.990950981876709e-07,
+      "loss": 0.4016,
+      "step": 815
+    },
+    {
+      "epoch": 12.22514071294559,
+      "grad_norm": 0.012463474933901226,
+      "learning_rate": 6.967068959497376e-07,
+      "loss": 0.4138,
+      "step": 816
+    },
+    {
+      "epoch": 12.24015009380863,
+      "grad_norm": 0.012038537835947886,
+      "learning_rate": 6.94320597273605e-07,
+      "loss": 0.4072,
+      "step": 817
+    },
+    {
+      "epoch": 12.25515947467167,
+      "grad_norm": 0.012375869455876078,
+      "learning_rate": 6.919362171364261e-07,
+      "loss": 0.4187,
+      "step": 818
+    },
+    {
+      "epoch": 12.27016885553471,
+      "grad_norm": 0.012447453448819253,
+      "learning_rate": 6.895537705033107e-07,
+      "loss": 0.4072,
+      "step": 819
+    },
+    {
+      "epoch": 12.285178236397748,
+      "grad_norm": 0.012624813232774283,
+      "learning_rate": 6.871732723272354e-07,
+      "loss": 0.4084,
+      "step": 820
+    },
+    {
+      "epoch": 12.300187617260788,
+      "grad_norm": 0.012070464285206625,
+      "learning_rate": 6.847947375489464e-07,
+      "loss": 0.4091,
+      "step": 821
+    },
+    {
+      "epoch": 12.315196998123827,
+      "grad_norm": 0.012323123920528901,
+      "learning_rate": 6.824181810968674e-07,
+      "loss": 0.4077,
+      "step": 822
+    },
+    {
+      "epoch": 12.330206378986867,
+      "grad_norm": 0.012423328528856116,
+      "learning_rate": 6.800436178870057e-07,
+      "loss": 0.4176,
+      "step": 823
+    },
+    {
+      "epoch": 12.345215759849907,
+      "grad_norm": 0.011822785847084157,
+      "learning_rate": 6.776710628228576e-07,
+      "loss": 0.4072,
+      "step": 824
+    },
+    {
+      "epoch": 12.360225140712945,
+      "grad_norm": 0.01263193125503588,
+      "learning_rate": 6.753005307953165e-07,
+      "loss": 0.4125,
+      "step": 825
+    },
+    {
+      "epoch": 12.375234521575985,
+      "grad_norm": 0.011667379545734729,
+      "learning_rate": 6.729320366825783e-07,
+      "loss": 0.4113,
+      "step": 826
+    },
+    {
+      "epoch": 12.390243902439025,
+      "grad_norm": 0.012237311305074636,
+      "learning_rate": 6.705655953500483e-07,
+      "loss": 0.413,
+      "step": 827
+    },
+    {
+      "epoch": 12.405253283302065,
+      "grad_norm": 0.012427319712453859,
+      "learning_rate": 6.682012216502483e-07,
+      "loss": 0.4189,
+      "step": 828
+    },
+    {
+      "epoch": 12.420262664165103,
+      "grad_norm": 0.012117640495853378,
+      "learning_rate": 6.658389304227219e-07,
+      "loss": 0.4157,
+      "step": 829
+    },
+    {
+      "epoch": 12.435272045028142,
+      "grad_norm": 0.012064176015325582,
+      "learning_rate": 6.634787364939434e-07,
+      "loss": 0.4048,
+      "step": 830
+    },
+    {
+      "epoch": 12.450281425891182,
+      "grad_norm": 0.012531719531208345,
+      "learning_rate": 6.611206546772237e-07,
+      "loss": 0.426,
+      "step": 831
+    },
+    {
+      "epoch": 12.465290806754222,
+      "grad_norm": 0.012359334486955045,
+      "learning_rate": 6.587646997726173e-07,
+      "loss": 0.4065,
+      "step": 832
+    },
+    {
+      "epoch": 12.48030018761726,
+      "grad_norm": 0.011957899962627493,
+      "learning_rate": 6.564108865668297e-07,
+      "loss": 0.4048,
+      "step": 833
+    },
+    {
+      "epoch": 12.4953095684803,
+      "grad_norm": 0.01170019242610937,
+      "learning_rate": 6.540592298331238e-07,
+      "loss": 0.4126,
+      "step": 834
+    },
+    {
+      "epoch": 12.51031894934334,
+      "grad_norm": 0.012331576031846944,
+      "learning_rate": 6.517097443312288e-07,
+      "loss": 0.4049,
+      "step": 835
+    },
+    {
+      "epoch": 12.52532833020638,
+      "grad_norm": 0.012366827738055758,
+      "learning_rate": 6.493624448072457e-07,
+      "loss": 0.4127,
+      "step": 836
+    },
+    {
+      "epoch": 12.540337711069418,
+      "grad_norm": 0.011860523908193414,
+      "learning_rate": 6.470173459935559e-07,
+      "loss": 0.4172,
+      "step": 837
+    },
+    {
+      "epoch": 12.555347091932457,
+      "grad_norm": 0.012415007915885625,
+      "learning_rate": 6.446744626087293e-07,
+      "loss": 0.4137,
+      "step": 838
+    },
+    {
+      "epoch": 12.570356472795497,
+      "grad_norm": 0.012431394669758795,
+      "learning_rate": 6.423338093574293e-07,
+      "loss": 0.4136,
+      "step": 839
+    },
+    {
+      "epoch": 12.585365853658537,
+      "grad_norm": 0.012176504783944421,
+      "learning_rate": 6.399954009303239e-07,
+      "loss": 0.411,
+      "step": 840
+    },
+    {
+      "epoch": 12.600375234521575,
+      "grad_norm": 0.01197249057193435,
+      "learning_rate": 6.376592520039912e-07,
+      "loss": 0.4141,
+      "step": 841
+    },
+    {
+      "epoch": 12.615384615384615,
+      "grad_norm": 0.012336864192816516,
+      "learning_rate": 6.35325377240828e-07,
+      "loss": 0.4138,
+      "step": 842
+    },
+    {
+      "epoch": 12.630393996247655,
+      "grad_norm": 0.011861502798104129,
+      "learning_rate": 6.329937912889581e-07,
+      "loss": 0.3931,
+      "step": 843
+    },
+    {
+      "epoch": 12.645403377110695,
+      "grad_norm": 0.012391892541325432,
+      "learning_rate": 6.306645087821392e-07,
+      "loss": 0.4241,
+      "step": 844
+    },
+    {
+      "epoch": 12.660412757973734,
+      "grad_norm": 0.012478980233980006,
+      "learning_rate": 6.283375443396726e-07,
+      "loss": 0.4161,
+      "step": 845
+    },
+    {
+      "epoch": 12.675422138836772,
+      "grad_norm": 0.012527299390245597,
+      "learning_rate": 6.260129125663105e-07,
+      "loss": 0.41,
+      "step": 846
+    },
+    {
+      "epoch": 12.690431519699812,
+      "grad_norm": 0.011927959930610983,
+      "learning_rate": 6.236906280521646e-07,
+      "loss": 0.4055,
+      "step": 847
+    },
+    {
+      "epoch": 12.705440900562852,
+      "grad_norm": 0.012720010931915432,
+      "learning_rate": 6.213707053726145e-07,
+      "loss": 0.4173,
+      "step": 848
+    },
+    {
+      "epoch": 12.720450281425892,
+      "grad_norm": 0.012556965039986982,
+      "learning_rate": 6.190531590882158e-07,
+      "loss": 0.4176,
+      "step": 849
+    },
+    {
+      "epoch": 12.73545966228893,
+      "grad_norm": 0.012646171657061266,
+      "learning_rate": 6.167380037446094e-07,
+      "loss": 0.4037,
+      "step": 850
+    },
+    {
+      "epoch": 12.75046904315197,
+      "grad_norm": 0.012363455660222528,
+      "learning_rate": 6.144252538724302e-07,
+      "loss": 0.4069,
+      "step": 851
+    },
+    {
+      "epoch": 12.76547842401501,
+      "grad_norm": 0.012481896036275676,
+      "learning_rate": 6.12114923987215e-07,
+      "loss": 0.4098,
+      "step": 852
+    },
+    {
+      "epoch": 12.78048780487805,
+      "grad_norm": 0.01219025499093808,
+      "learning_rate": 6.098070285893128e-07,
+      "loss": 0.4128,
+      "step": 853
+    },
+    {
+      "epoch": 12.795497185741088,
+      "grad_norm": 0.012221753177996873,
+      "learning_rate": 6.075015821637922e-07,
+      "loss": 0.4124,
+      "step": 854
+    },
+    {
+      "epoch": 12.810506566604127,
+      "grad_norm": 0.01242451231763906,
+      "learning_rate": 6.051985991803517e-07,
+      "loss": 0.4055,
+      "step": 855
+    },
+    {
+      "epoch": 12.825515947467167,
+      "grad_norm": 0.012105488715900472,
+      "learning_rate": 6.028980940932282e-07,
+      "loss": 0.398,
+      "step": 856
+    },
+    {
+      "epoch": 12.840525328330207,
+      "grad_norm": 0.012102745982651956,
+      "learning_rate": 6.006000813411069e-07,
+      "loss": 0.4152,
+      "step": 857
+    },
+    {
+      "epoch": 12.855534709193245,
+      "grad_norm": 0.012200334931675806,
+      "learning_rate": 5.983045753470307e-07,
+      "loss": 0.4146,
+      "step": 858
+    },
+    {
+      "epoch": 12.855534709193245,
+      "eval_loss": 0.39677873253822327,
+      "eval_runtime": 13.689,
+      "eval_samples_per_second": 32.654,
+      "eval_steps_per_second": 2.045,
+      "step": 858
+    },
+    {
+      "epoch": 12.870544090056285,
+      "grad_norm": 0.012649382929243192,
+      "learning_rate": 5.960115905183078e-07,
+      "loss": 0.4081,
+      "step": 859
+    },
+    {
+      "epoch": 12.885553470919325,
+      "grad_norm": 0.011929152112251899,
+      "learning_rate": 5.937211412464245e-07,
+      "loss": 0.4031,
+      "step": 860
+    },
+    {
+      "epoch": 12.900562851782365,
+      "grad_norm": 0.011962658774633357,
+      "learning_rate": 5.914332419069519e-07,
+      "loss": 0.4111,
+      "step": 861
+    },
+    {
+      "epoch": 12.915572232645403,
+      "grad_norm": 0.012120445434134606,
+      "learning_rate": 5.89147906859458e-07,
+      "loss": 0.4057,
+      "step": 862
+    },
+    {
+      "epoch": 12.930581613508442,
+      "grad_norm": 0.012223863205227052,
+      "learning_rate": 5.868651504474156e-07,
+      "loss": 0.422,
+      "step": 863
+    },
+    {
+      "epoch": 12.945590994371482,
+      "grad_norm": 0.012093907000714669,
+      "learning_rate": 5.845849869981136e-07,
+      "loss": 0.4063,
+      "step": 864
+    },
+    {
+      "epoch": 12.960600375234522,
+      "grad_norm": 0.011744441936770404,
+      "learning_rate": 5.823074308225668e-07,
+      "loss": 0.4214,
+      "step": 865
+    },
+    {
+      "epoch": 12.975609756097562,
+      "grad_norm": 0.012588359080999381,
+      "learning_rate": 5.800324962154251e-07,
+      "loss": 0.4104,
+      "step": 866
+    },
+    {
+      "epoch": 12.9906191369606,
+      "grad_norm": 0.012041813356469647,
+      "learning_rate": 5.777601974548866e-07,
+      "loss": 0.409,
+      "step": 867
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.017454775927059043,
+      "learning_rate": 5.754905488026034e-07,
+      "loss": 0.4009,
+      "step": 868
+    },
+    {
+      "epoch": 13.01500938086304,
+      "grad_norm": 0.012590573823027078,
+      "learning_rate": 5.732235645035963e-07,
+      "loss": 0.4077,
+      "step": 869
+    },
+    {
+      "epoch": 13.03001876172608,
+      "grad_norm": 0.012476473937542754,
+      "learning_rate": 5.709592587861637e-07,
+      "loss": 0.409,
+      "step": 870
+    },
+    {
+      "epoch": 13.045028142589118,
+      "grad_norm": 0.01272863688069376,
+      "learning_rate": 5.686976458617921e-07,
+      "loss": 0.4203,
+      "step": 871
+    },
+    {
+      "epoch": 13.060037523452158,
+      "grad_norm": 0.012212260852439769,
+      "learning_rate": 5.664387399250672e-07,
+      "loss": 0.4052,
+      "step": 872
+    },
+    {
+      "epoch": 13.075046904315197,
+      "grad_norm": 0.012019289466009251,
+      "learning_rate": 5.641825551535848e-07,
+      "loss": 0.4038,
+      "step": 873
+    },
+    {
+      "epoch": 13.090056285178237,
+      "grad_norm": 0.011953777292384806,
+      "learning_rate": 5.619291057078618e-07,
+      "loss": 0.3931,
+      "step": 874
+    },
+    {
+      "epoch": 13.105065666041275,
+      "grad_norm": 0.01214865490238678,
+      "learning_rate": 5.596784057312474e-07,
+      "loss": 0.4007,
+      "step": 875
+    },
+    {
+      "epoch": 13.120075046904315,
+      "grad_norm": 0.011912792450191237,
+      "learning_rate": 5.574304693498345e-07,
+      "loss": 0.4192,
+      "step": 876
+    },
+    {
+      "epoch": 13.135084427767355,
+      "grad_norm": 0.012090316577047174,
+      "learning_rate": 5.551853106723709e-07,
+      "loss": 0.4073,
+      "step": 877
+    },
+    {
+      "epoch": 13.150093808630395,
+      "grad_norm": 0.013010062600398912,
+      "learning_rate": 5.529429437901696e-07,
+      "loss": 0.4227,
+      "step": 878
+    },
+    {
+      "epoch": 13.165103189493433,
+      "grad_norm": 0.01280067493337377,
+      "learning_rate": 5.507033827770225e-07,
+      "loss": 0.4126,
+      "step": 879
+    },
+    {
+      "epoch": 13.180112570356473,
+      "grad_norm": 0.012398125964523131,
+      "learning_rate": 5.484666416891108e-07,
+      "loss": 0.4023,
+      "step": 880
+    },
+    {
+      "epoch": 13.195121951219512,
+      "grad_norm": 0.012420941719772401,
+      "learning_rate": 5.462327345649165e-07,
+      "loss": 0.4044,
+      "step": 881
+    },
+    {
+      "epoch": 13.210131332082552,
+      "grad_norm": 0.012049668556132256,
+      "learning_rate": 5.440016754251364e-07,
+      "loss": 0.4175,
+      "step": 882
+    },
+    {
+      "epoch": 13.22514071294559,
+      "grad_norm": 0.012258701638030365,
+      "learning_rate": 5.417734782725896e-07,
+      "loss": 0.416,
+      "step": 883
+    },
+    {
+      "epoch": 13.24015009380863,
+      "grad_norm": 0.01192198170753603,
+      "learning_rate": 5.395481570921349e-07,
+      "loss": 0.4039,
+      "step": 884
+    },
+    {
+      "epoch": 13.25515947467167,
+      "grad_norm": 0.012554184751834683,
+      "learning_rate": 5.373257258505796e-07,
+      "loss": 0.4156,
+      "step": 885
+    },
+    {
+      "epoch": 13.27016885553471,
+      "grad_norm": 0.012851533427761994,
+      "learning_rate": 5.351061984965931e-07,
+      "loss": 0.4197,
+      "step": 886
+    },
+    {
+      "epoch": 13.285178236397748,
+      "grad_norm": 0.012316726606129447,
+      "learning_rate": 5.328895889606193e-07,
+      "loss": 0.4236,
+      "step": 887
+    },
+    {
+      "epoch": 13.300187617260788,
+      "grad_norm": 0.013029382216239293,
+      "learning_rate": 5.306759111547881e-07,
+      "loss": 0.427,
+      "step": 888
+    },
+    {
+      "epoch": 13.315196998123827,
+      "grad_norm": 0.012480929561426931,
+      "learning_rate": 5.284651789728296e-07,
+      "loss": 0.4107,
+      "step": 889
+    },
+    {
+      "epoch": 13.330206378986867,
+      "grad_norm": 0.01199215605719895,
+      "learning_rate": 5.262574062899866e-07,
+      "loss": 0.3977,
+      "step": 890
+    },
+    {
+      "epoch": 13.345215759849907,
+      "grad_norm": 0.011780966276621337,
+      "learning_rate": 5.240526069629264e-07,
+      "loss": 0.4078,
+      "step": 891
+    },
+    {
+      "epoch": 13.360225140712945,
+      "grad_norm": 0.012128143743191527,
+      "learning_rate": 5.218507948296556e-07,
+      "loss": 0.4143,
+      "step": 892
+    },
+    {
+      "epoch": 13.375234521575985,
+      "grad_norm": 0.011698499209161491,
+      "learning_rate": 5.196519837094306e-07,
+      "loss": 0.3999,
+      "step": 893
+    },
+    {
+      "epoch": 13.390243902439025,
+      "grad_norm": 0.011777330802458462,
+      "learning_rate": 5.174561874026741e-07,
+      "loss": 0.4202,
+      "step": 894
+    },
+    {
+      "epoch": 13.405253283302065,
+      "grad_norm": 0.012154703240758565,
+      "learning_rate": 5.152634196908861e-07,
+      "loss": 0.411,
+      "step": 895
+    },
+    {
+      "epoch": 13.420262664165103,
+      "grad_norm": 0.012477581253436483,
+      "learning_rate": 5.13073694336558e-07,
+      "loss": 0.3935,
+      "step": 896
+    },
+    {
+      "epoch": 13.435272045028142,
+      "grad_norm": 0.012300889865186484,
+      "learning_rate": 5.108870250830881e-07,
+      "loss": 0.4173,
+      "step": 897
+    },
+    {
+      "epoch": 13.450281425891182,
+      "grad_norm": 0.01236137621122289,
+      "learning_rate": 5.087034256546912e-07,
+      "loss": 0.4063,
+      "step": 898
+    },
+    {
+      "epoch": 13.465290806754222,
+      "grad_norm": 0.01178006897188101,
+      "learning_rate": 5.065229097563164e-07,
+      "loss": 0.4027,
+      "step": 899
+    },
+    {
+      "epoch": 13.48030018761726,
+      "grad_norm": 0.012622903840672843,
+      "learning_rate": 5.043454910735593e-07,
+      "loss": 0.4007,
+      "step": 900
+    },
+    {
+      "epoch": 13.4953095684803,
+      "grad_norm": 0.01232943004197537,
+      "learning_rate": 5.021711832725767e-07,
+      "loss": 0.4101,
+      "step": 901
+    },
+    {
+      "epoch": 13.51031894934334,
+      "grad_norm": 0.012650338163967687,
+      "learning_rate": 5.000000000000002e-07,
+      "loss": 0.4109,
+      "step": 902
+    },
+    {
+      "epoch": 13.52532833020638,
+      "grad_norm": 0.012308627141887482,
+      "learning_rate": 4.978319548828504e-07,
+      "loss": 0.4167,
+      "step": 903
+    },
+    {
+      "epoch": 13.540337711069418,
+      "grad_norm": 0.01247431058858993,
+      "learning_rate": 4.956670615284528e-07,
+      "loss": 0.4083,
+      "step": 904
+    },
+    {
+      "epoch": 13.555347091932457,
+      "grad_norm": 0.012521896733928029,
+      "learning_rate": 4.935053335243508e-07,
+      "loss": 0.41,
+      "step": 905
+    },
+    {
+      "epoch": 13.570356472795497,
+      "grad_norm": 0.01224071942990429,
+      "learning_rate": 4.913467844382217e-07,
+      "loss": 0.411,
+      "step": 906
+    },
+    {
+      "epoch": 13.585365853658537,
+      "grad_norm": 0.011911018144128583,
+      "learning_rate": 4.891914278177907e-07,
+      "loss": 0.4131,
+      "step": 907
+    },
+    {
+      "epoch": 13.600375234521575,
+      "grad_norm": 0.012173795572423684,
+      "learning_rate": 4.870392771907454e-07,
+      "loss": 0.4172,
+      "step": 908
+    },
+    {
+      "epoch": 13.615384615384615,
+      "grad_norm": 0.012787639508096029,
+      "learning_rate": 4.848903460646522e-07,
+      "loss": 0.4082,
+      "step": 909
+    },
+    {
+      "epoch": 13.630393996247655,
+      "grad_norm": 0.012810162920205651,
+      "learning_rate": 4.827446479268712e-07,
+      "loss": 0.4156,
+      "step": 910
+    },
+    {
+      "epoch": 13.645403377110695,
+      "grad_norm": 0.012158067835970099,
+      "learning_rate": 4.806021962444707e-07,
+      "loss": 0.4066,
+      "step": 911
+    },
+    {
+      "epoch": 13.660412757973734,
+      "grad_norm": 0.012243835560067891,
+      "learning_rate": 4.784630044641435e-07,
+      "loss": 0.4141,
+      "step": 912
+    },
+    {
+      "epoch": 13.675422138836772,
+      "grad_norm": 0.012182441628748585,
+      "learning_rate": 4.7632708601212215e-07,
+      "loss": 0.4132,
+      "step": 913
+    },
+    {
+      "epoch": 13.690431519699812,
+      "grad_norm": 0.012064707690036225,
+      "learning_rate": 4.7419445429409487e-07,
+      "loss": 0.4004,
+      "step": 914
+    },
+    {
+      "epoch": 13.705440900562852,
+      "grad_norm": 0.012058309173201142,
+      "learning_rate": 4.7206512269512125e-07,
+      "loss": 0.4065,
+      "step": 915
+    },
+    {
+      "epoch": 13.720450281425892,
+      "grad_norm": 0.011914352483260126,
+      "learning_rate": 4.6993910457954864e-07,
+      "loss": 0.4074,
+      "step": 916
+    },
+    {
+      "epoch": 13.73545966228893,
+      "grad_norm": 0.01218029087555133,
+      "learning_rate": 4.6781641329092705e-07,
+      "loss": 0.4167,
+      "step": 917
+    },
+    {
+      "epoch": 13.75046904315197,
+      "grad_norm": 0.013057166343761247,
+      "learning_rate": 4.6569706215192693e-07,
+      "loss": 0.4068,
+      "step": 918
+    },
+    {
+      "epoch": 13.76547842401501,
+      "grad_norm": 0.012604582774669597,
+      "learning_rate": 4.635810644642552e-07,
+      "loss": 0.4144,
+      "step": 919
+    },
+    {
+      "epoch": 13.78048780487805,
+      "grad_norm": 0.011935794848686154,
+      "learning_rate": 4.614684335085708e-07,
+      "loss": 0.4009,
+      "step": 920
+    },
+    {
+      "epoch": 13.795497185741088,
+      "grad_norm": 0.012666727346839646,
+      "learning_rate": 4.5935918254440274e-07,
+      "loss": 0.4102,
+      "step": 921
+    },
+    {
+      "epoch": 13.810506566604127,
+      "grad_norm": 0.01205052533335544,
+      "learning_rate": 4.572533248100652e-07,
+      "loss": 0.4107,
+      "step": 922
+    },
+    {
+      "epoch": 13.825515947467167,
+      "grad_norm": 0.012515947617199258,
+      "learning_rate": 4.5515087352257606e-07,
+      "loss": 0.4058,
+      "step": 923
+    },
+    {
+      "epoch": 13.840525328330207,
+      "grad_norm": 0.01178275512252074,
+      "learning_rate": 4.530518418775733e-07,
+      "loss": 0.3981,
+      "step": 924
+    },
+    {
+      "epoch": 13.840525328330207,
+      "eval_loss": 0.39569905400276184,
+      "eval_runtime": 13.9015,
+      "eval_samples_per_second": 32.155,
+      "eval_steps_per_second": 2.014,
+      "step": 924
+    },
+    {
+      "epoch": 13.855534709193245,
+      "grad_norm": 0.012172425812137781,
+      "learning_rate": 4.50956243049232e-07,
+      "loss": 0.41,
+      "step": 925
+    },
+    {
+      "epoch": 13.870544090056285,
+      "grad_norm": 0.01225111633980482,
+      "learning_rate": 4.488640901901818e-07,
+      "loss": 0.4132,
+      "step": 926
+    },
+    {
+      "epoch": 13.885553470919325,
+      "grad_norm": 0.012388855766636281,
+      "learning_rate": 4.467753964314245e-07,
+      "loss": 0.4108,
+      "step": 927
+    },
+    {
+      "epoch": 13.900562851782365,
+      "grad_norm": 0.012447467722629292,
+      "learning_rate": 4.4469017488225124e-07,
+      "loss": 0.4181,
+      "step": 928
+    },
+    {
+      "epoch": 13.915572232645403,
+      "grad_norm": 0.0118810129924204,
+      "learning_rate": 4.426084386301607e-07,
+      "loss": 0.4139,
+      "step": 929
+    },
+    {
+      "epoch": 13.930581613508442,
+      "grad_norm": 0.0118987273245147,
+      "learning_rate": 4.40530200740777e-07,
+      "loss": 0.4192,
+      "step": 930
+    },
+    {
+      "epoch": 13.945590994371482,
+      "grad_norm": 0.012530895292621011,
+      "learning_rate": 4.3845547425776707e-07,
+      "loss": 0.4098,
+      "step": 931
+    },
+    {
+      "epoch": 13.960600375234522,
+      "grad_norm": 0.011523586359779753,
+      "learning_rate": 4.3638427220275876e-07,
+      "loss": 0.4048,
+      "step": 932
+    },
+    {
+      "epoch": 13.975609756097562,
+      "grad_norm": 0.012130640942285414,
+      "learning_rate": 4.3431660757526043e-07,
+      "loss": 0.4003,
+      "step": 933
+    },
+    {
+      "epoch": 13.9906191369606,
+      "grad_norm": 0.01306375560358271,
+      "learning_rate": 4.3225249335257795e-07,
+      "loss": 0.419,
+      "step": 934
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.01306375560358271,
+      "learning_rate": 4.3019194248973377e-07,
+      "loss": 0.4085,
+      "step": 935
+    },
+    {
+      "epoch": 14.01500938086304,
+      "grad_norm": 0.01702987966177615,
+      "learning_rate": 4.281349679193861e-07,
+      "loss": 0.4086,
+      "step": 936
+    },
+    {
+      "epoch": 14.03001876172608,
+      "grad_norm": 0.01210923339196911,
+      "learning_rate": 4.2608158255174597e-07,
+      "loss": 0.4112,
+      "step": 937
+    },
+    {
+      "epoch": 14.045028142589118,
+      "grad_norm": 0.011866596152432489,
+      "learning_rate": 4.2403179927449864e-07,
+      "loss": 0.4109,
+      "step": 938
+    },
+    {
+      "epoch": 14.060037523452158,
+      "grad_norm": 0.012607746156689865,
+      "learning_rate": 4.219856309527211e-07,
+      "loss": 0.4221,
+      "step": 939
+    },
+    {
+      "epoch": 14.075046904315197,
+      "grad_norm": 0.012486558528938796,
+      "learning_rate": 4.1994309042880193e-07,
+      "loss": 0.4103,
+      "step": 940
+    },
+    {
+      "epoch": 14.090056285178237,
+      "grad_norm": 0.012303061756963003,
+      "learning_rate": 4.1790419052236025e-07,
+      "loss": 0.4104,
+      "step": 941
+    },
+    {
+      "epoch": 14.105065666041275,
+      "grad_norm": 0.012176253504823318,
+      "learning_rate": 4.158689440301657e-07,
+      "loss": 0.4156,
+      "step": 942
+    },
+    {
+      "epoch": 14.120075046904315,
+      "grad_norm": 0.012798739423948427,
+      "learning_rate": 4.138373637260579e-07,
+      "loss": 0.4094,
+      "step": 943
+    },
+    {
+      "epoch": 14.135084427767355,
+      "grad_norm": 0.012149574296456156,
+      "learning_rate": 4.1180946236086646e-07,
+      "loss": 0.4153,
+      "step": 944
+    },
+    {
+      "epoch": 14.150093808630395,
+      "grad_norm": 0.012028612599444181,
+      "learning_rate": 4.0978525266233064e-07,
+      "loss": 0.4054,
+      "step": 945
+    },
+    {
+      "epoch": 14.165103189493433,
+      "grad_norm": 0.012231549955693293,
+      "learning_rate": 4.0776474733502007e-07,
+      "loss": 0.416,
+      "step": 946
+    },
+    {
+      "epoch": 14.180112570356473,
+      "grad_norm": 0.012421110011924136,
+      "learning_rate": 4.0574795906025374e-07,
+      "loss": 0.4016,
+      "step": 947
+    },
+    {
+      "epoch": 14.195121951219512,
+      "grad_norm": 0.011730159482603666,
+      "learning_rate": 4.03734900496022e-07,
+      "loss": 0.4013,
+      "step": 948
+    },
+    {
+      "epoch": 14.210131332082552,
+      "grad_norm": 0.012688603636352387,
+      "learning_rate": 4.017255842769062e-07,
+      "loss": 0.415,
+      "step": 949
+    },
+    {
+      "epoch": 14.22514071294559,
+      "grad_norm": 0.012404842948789518,
+      "learning_rate": 3.9972002301399956e-07,
+      "loss": 0.4169,
+      "step": 950
+    },
+    {
+      "epoch": 14.24015009380863,
+      "grad_norm": 0.012149123886554853,
+      "learning_rate": 3.977182292948282e-07,
+      "loss": 0.3949,
+      "step": 951
+    },
+    {
+      "epoch": 14.25515947467167,
+      "grad_norm": 0.012045312561245865,
+      "learning_rate": 3.957202156832713e-07,
+      "loss": 0.4134,
+      "step": 952
+    },
+    {
+      "epoch": 14.27016885553471,
+      "grad_norm": 0.01209269757907142,
+      "learning_rate": 3.9372599471948354e-07,
+      "loss": 0.414,
+      "step": 953
+    },
+    {
+      "epoch": 14.285178236397748,
+      "grad_norm": 0.011918842634659655,
+      "learning_rate": 3.9173557891981567e-07,
+      "loss": 0.4014,
+      "step": 954
+    },
+    {
+      "epoch": 14.300187617260788,
+      "grad_norm": 0.01220439396332339,
+      "learning_rate": 3.89748980776736e-07,
+      "loss": 0.4018,
+      "step": 955
+    },
+    {
+      "epoch": 14.315196998123827,
+      "grad_norm": 0.011998622448288693,
+      "learning_rate": 3.877662127587521e-07,
+      "loss": 0.4174,
+      "step": 956
+    },
+    {
+      "epoch": 14.330206378986867,
+      "grad_norm": 0.012295617446559496,
+      "learning_rate": 3.8578728731033214e-07,
+      "loss": 0.4102,
+      "step": 957
+    },
+    {
+      "epoch": 14.345215759849907,
+      "grad_norm": 0.011980609920463275,
+      "learning_rate": 3.838122168518276e-07,
+      "loss": 0.4006,
+      "step": 958
+    },
+    {
+      "epoch": 14.360225140712945,
+      "grad_norm": 0.01234999901307482,
+      "learning_rate": 3.818410137793947e-07,
+      "loss": 0.4083,
+      "step": 959
+    },
+    {
+      "epoch": 14.375234521575985,
+      "grad_norm": 0.01204318922158648,
+      "learning_rate": 3.798736904649168e-07,
+      "loss": 0.416,
+      "step": 960
+    },
+    {
+      "epoch": 14.390243902439025,
+      "grad_norm": 0.012342974076721963,
+      "learning_rate": 3.77910259255926e-07,
+      "loss": 0.4042,
+      "step": 961
+    },
+    {
+      "epoch": 14.405253283302065,
+      "grad_norm": 0.012080518503284057,
+      "learning_rate": 3.7595073247552735e-07,
+      "loss": 0.4148,
+      "step": 962
+    },
+    {
+      "epoch": 14.420262664165103,
+      "grad_norm": 0.012401425685947038,
+      "learning_rate": 3.739951224223199e-07,
+      "loss": 0.4166,
+      "step": 963
+    },
+    {
+      "epoch": 14.435272045028142,
+      "grad_norm": 0.012113429871714052,
+      "learning_rate": 3.720434413703202e-07,
+      "loss": 0.4031,
+      "step": 964
+    },
+    {
+      "epoch": 14.450281425891182,
+      "grad_norm": 0.012196068177764108,
+      "learning_rate": 3.700957015688858e-07,
+      "loss": 0.4115,
+      "step": 965
+    },
+    {
+      "epoch": 14.465290806754222,
+      "grad_norm": 0.011860016831751172,
+      "learning_rate": 3.681519152426362e-07,
+      "loss": 0.4212,
+      "step": 966
+    },
+    {
+      "epoch": 14.48030018761726,
+      "grad_norm": 0.012149681720096986,
+      "learning_rate": 3.6621209459137926e-07,
+      "loss": 0.4126,
+      "step": 967
+    },
+    {
+      "epoch": 14.4953095684803,
+      "grad_norm": 0.011922991193016708,
+      "learning_rate": 3.6427625179003217e-07,
+      "loss": 0.404,
+      "step": 968
+    },
+    {
+      "epoch": 14.51031894934334,
+      "grad_norm": 0.012235166739834057,
+      "learning_rate": 3.623443989885462e-07,
+      "loss": 0.4008,
+      "step": 969
+    },
+    {
+      "epoch": 14.52532833020638,
+      "grad_norm": 0.01261366907306786,
+      "learning_rate": 3.604165483118299e-07,
+      "loss": 0.4157,
+      "step": 970
+    },
+    {
+      "epoch": 14.540337711069418,
+      "grad_norm": 0.011959411543845642,
+      "learning_rate": 3.5849271185967366e-07,
+      "loss": 0.4087,
+      "step": 971
+    },
+    {
+      "epoch": 14.555347091932457,
+      "grad_norm": 0.011886511893275631,
+      "learning_rate": 3.565729017066729e-07,
+      "loss": 0.4073,
+      "step": 972
+    },
+    {
+      "epoch": 14.570356472795497,
+      "grad_norm": 0.012266040637982558,
+      "learning_rate": 3.546571299021529e-07,
+      "loss": 0.4002,
+      "step": 973
+    },
+    {
+      "epoch": 14.585365853658537,
+      "grad_norm": 0.011946836948162617,
+      "learning_rate": 3.527454084700933e-07,
+      "loss": 0.4113,
+      "step": 974
+    },
+    {
+      "epoch": 14.600375234521575,
+      "grad_norm": 0.012884422251256487,
+      "learning_rate": 3.508377494090521e-07,
+      "loss": 0.411,
+      "step": 975
+    },
+    {
+      "epoch": 14.615384615384615,
+      "grad_norm": 0.012401104679477528,
+      "learning_rate": 3.4893416469208993e-07,
+      "loss": 0.405,
+      "step": 976
+    },
+    {
+      "epoch": 14.630393996247655,
+      "grad_norm": 0.012397424222628246,
+      "learning_rate": 3.4703466626669673e-07,
+      "loss": 0.4009,
+      "step": 977
+    },
+    {
+      "epoch": 14.645403377110695,
+      "grad_norm": 0.01211105873440178,
+      "learning_rate": 3.45139266054715e-07,
+      "loss": 0.4211,
+      "step": 978
+    },
+    {
+      "epoch": 14.660412757973734,
+      "grad_norm": 0.012745867091250343,
+      "learning_rate": 3.4324797595226564e-07,
+      "loss": 0.4133,
+      "step": 979
+    },
+    {
+      "epoch": 14.675422138836772,
+      "grad_norm": 0.012089095003607657,
+      "learning_rate": 3.413608078296735e-07,
+      "loss": 0.4052,
+      "step": 980
+    },
+    {
+      "epoch": 14.690431519699812,
+      "grad_norm": 0.012182824041581471,
+      "learning_rate": 3.394777735313918e-07,
+      "loss": 0.4043,
+      "step": 981
+    },
+    {
+      "epoch": 14.705440900562852,
+      "grad_norm": 0.012109620293361477,
+      "learning_rate": 3.3759888487592946e-07,
+      "loss": 0.4059,
+      "step": 982
+    },
+    {
+      "epoch": 14.720450281425892,
+      "grad_norm": 0.012382313496190551,
+      "learning_rate": 3.357241536557758e-07,
+      "loss": 0.4086,
+      "step": 983
+    },
+    {
+      "epoch": 14.73545966228893,
+      "grad_norm": 0.012198508778120983,
+      "learning_rate": 3.3385359163732664e-07,
+      "loss": 0.4136,
+      "step": 984
+    },
+    {
+      "epoch": 14.75046904315197,
+      "grad_norm": 0.01280406441595411,
+      "learning_rate": 3.319872105608107e-07,
+      "loss": 0.4068,
+      "step": 985
+    },
+    {
+      "epoch": 14.76547842401501,
+      "grad_norm": 0.012130187940707679,
+      "learning_rate": 3.3012502214021577e-07,
+      "loss": 0.4145,
+      "step": 986
+    },
+    {
+      "epoch": 14.78048780487805,
+      "grad_norm": 0.011810045886264997,
+      "learning_rate": 3.282670380632152e-07,
+      "loss": 0.4003,
+      "step": 987
+    },
+    {
+      "epoch": 14.795497185741088,
+      "grad_norm": 0.01226997027635051,
+      "learning_rate": 3.2641326999109474e-07,
+      "loss": 0.4181,
+      "step": 988
+    },
+    {
+      "epoch": 14.810506566604127,
+      "grad_norm": 0.012662471100966417,
+      "learning_rate": 3.2456372955867907e-07,
+      "loss": 0.4058,
+      "step": 989
+    },
+    {
+      "epoch": 14.825515947467167,
+      "grad_norm": 0.012554555241937682,
+      "learning_rate": 3.227184283742591e-07,
+      "loss": 0.4011,
+      "step": 990
+    },
+    {
+      "epoch": 14.825515947467167,
+      "eval_loss": 0.3950127065181732,
+      "eval_runtime": 13.8589,
+      "eval_samples_per_second": 32.254,
+      "eval_steps_per_second": 2.02,
+      "step": 990
+    },
+    {
+      "epoch": 14.840525328330207,
+      "grad_norm": 0.01206293666136027,
+      "learning_rate": 3.20877378019518e-07,
+      "loss": 0.4098,
+      "step": 991
+    },
+    {
+      "epoch": 14.855534709193245,
+      "grad_norm": 0.012160543935788812,
+      "learning_rate": 3.190405900494606e-07,
+      "loss": 0.4022,
+      "step": 992
+    },
+    {
+      "epoch": 14.870544090056285,
+      "grad_norm": 0.011862384188573029,
+      "learning_rate": 3.17208075992339e-07,
+      "loss": 0.4132,
+      "step": 993
+    },
+    {
+      "epoch": 14.885553470919325,
+      "grad_norm": 0.012348297087273847,
+      "learning_rate": 3.153798473495811e-07,
+      "loss": 0.4063,
+      "step": 994
+    },
+    {
+      "epoch": 14.900562851782365,
+      "grad_norm": 0.011971438983032082,
+      "learning_rate": 3.135559155957186e-07,
+      "loss": 0.4189,
+      "step": 995
+    },
+    {
+      "epoch": 14.915572232645403,
+      "grad_norm": 0.012225913697186104,
+      "learning_rate": 3.117362921783134e-07,
+      "loss": 0.4078,
+      "step": 996
+    },
+    {
+      "epoch": 14.930581613508442,
+      "grad_norm": 0.012483752970869568,
+      "learning_rate": 3.0992098851788817e-07,
+      "loss": 0.4027,
+      "step": 997
+    },
+    {
+      "epoch": 14.945590994371482,
+      "grad_norm": 0.012312435583901655,
+      "learning_rate": 3.081100160078528e-07,
+      "loss": 0.3964,
+      "step": 998
+    },
+    {
+      "epoch": 14.960600375234522,
+      "grad_norm": 0.011733287392883436,
+      "learning_rate": 3.0630338601443385e-07,
+      "loss": 0.4077,
+      "step": 999
+    },
+    {
+      "epoch": 14.975609756097562,
+      "grad_norm": 0.012352553640401984,
+      "learning_rate": 3.045011098766026e-07,
+      "loss": 0.4097,
+      "step": 1000
+    },
+    {
+      "epoch": 14.9906191369606,
+      "grad_norm": 0.012691085307760875,
+      "learning_rate": 3.027031989060046e-07,
+      "loss": 0.4014,
+      "step": 1001
+    },
+    {
+      "epoch": 15.01500938086304,
+      "grad_norm": 0.01450895061621053,
+      "learning_rate": 3.009096643868877e-07,
+      "loss": 0.8212,
+      "step": 1002
+    },
+    {
+      "epoch": 15.03001876172608,
+      "grad_norm": 0.012442122708447712,
+      "learning_rate": 2.991205175760322e-07,
+      "loss": 0.4064,
+      "step": 1003
+    },
+    {
+      "epoch": 15.045028142589118,
+      "grad_norm": 0.01177546286369461,
+      "learning_rate": 2.9733576970267973e-07,
+      "loss": 0.395,
+      "step": 1004
+    },
+    {
+      "epoch": 15.060037523452158,
+      "grad_norm": 0.012583125025593713,
+      "learning_rate": 2.955554319684629e-07,
+      "loss": 0.404,
+      "step": 1005
+    },
+    {
+      "epoch": 15.075046904315197,
+      "grad_norm": 0.012181333733193132,
+      "learning_rate": 2.937795155473343e-07,
+      "loss": 0.4163,
+      "step": 1006
+    },
+    {
+      "epoch": 15.090056285178237,
+      "grad_norm": 0.011929578865847229,
+      "learning_rate": 2.920080315854975e-07,
+      "loss": 0.4091,
+      "step": 1007
+    },
+    {
+      "epoch": 15.105065666041275,
+      "grad_norm": 0.012219751268944107,
+      "learning_rate": 2.902409912013367e-07,
+      "loss": 0.4087,
+      "step": 1008
+    },
+    {
+      "epoch": 15.120075046904315,
+      "grad_norm": 0.012185881807267762,
+      "learning_rate": 2.8847840548534695e-07,
+      "loss": 0.3959,
+      "step": 1009
+    },
+    {
+      "epoch": 15.135084427767355,
+      "grad_norm": 0.012095974327974867,
+      "learning_rate": 2.8672028550006357e-07,
+      "loss": 0.4142,
+      "step": 1010
+    },
+    {
+      "epoch": 15.150093808630395,
+      "grad_norm": 0.012004403180987345,
+      "learning_rate": 2.8496664227999414e-07,
+      "loss": 0.4095,
+      "step": 1011
+    },
+    {
+      "epoch": 15.165103189493433,
+      "grad_norm": 0.012068360546402585,
+      "learning_rate": 2.8321748683154887e-07,
+      "loss": 0.412,
+      "step": 1012
+    },
+    {
+      "epoch": 15.180112570356473,
+      "grad_norm": 0.011604065137702905,
+      "learning_rate": 2.814728301329711e-07,
+      "loss": 0.4037,
+      "step": 1013
+    },
+    {
+      "epoch": 15.195121951219512,
+      "grad_norm": 0.012246442251214433,
+      "learning_rate": 2.7973268313426835e-07,
+      "loss": 0.4176,
+      "step": 1014
+    },
+    {
+      "epoch": 15.210131332082552,
+      "grad_norm": 0.012835581733332583,
+      "learning_rate": 2.7799705675714437e-07,
+      "loss": 0.4142,
+      "step": 1015
+    },
+    {
+      "epoch": 15.22514071294559,
+      "grad_norm": 0.012179697043205245,
+      "learning_rate": 2.762659618949298e-07,
+      "loss": 0.4074,
+      "step": 1016
+    },
+    {
+      "epoch": 15.24015009380863,
+      "grad_norm": 0.012369178745362223,
+      "learning_rate": 2.745394094125141e-07,
+      "loss": 0.3992,
+      "step": 1017
+    },
+    {
+      "epoch": 15.25515947467167,
+      "grad_norm": 0.012579361492169629,
+      "learning_rate": 2.7281741014627714e-07,
+      "loss": 0.4104,
+      "step": 1018
+    },
+    {
+      "epoch": 15.27016885553471,
+      "grad_norm": 0.01162764738709065,
+      "learning_rate": 2.710999749040223e-07,
+      "loss": 0.4068,
+      "step": 1019
+    },
+    {
+      "epoch": 15.285178236397748,
+      "grad_norm": 0.01265468112430842,
+      "learning_rate": 2.69387114464906e-07,
+      "loss": 0.4088,
+      "step": 1020
+    },
+    {
+      "epoch": 15.300187617260788,
+      "grad_norm": 0.011940035373381468,
+      "learning_rate": 2.6767883957937344e-07,
+      "loss": 0.4063,
+      "step": 1021
+    },
+    {
+      "epoch": 15.315196998123827,
+      "grad_norm": 0.012255329102484067,
+      "learning_rate": 2.6597516096908867e-07,
+      "loss": 0.4069,
+      "step": 1022
+    },
+    {
+      "epoch": 15.330206378986867,
+      "grad_norm": 0.012355083411473719,
+      "learning_rate": 2.642760893268684e-07,
+      "loss": 0.405,
+      "step": 1023
+    },
+    {
+      "epoch": 15.345215759849907,
+      "grad_norm": 0.012128588311350583,
+      "learning_rate": 2.6258163531661447e-07,
+      "loss": 0.4085,
+      "step": 1024
+    },
+    {
+      "epoch": 15.360225140712945,
+      "grad_norm": 0.012015480810663814,
+      "learning_rate": 2.6089180957324654e-07,
+      "loss": 0.4099,
+      "step": 1025
+    },
+    {
+      "epoch": 15.375234521575985,
+      "grad_norm": 0.01236965765692212,
+      "learning_rate": 2.5920662270263647e-07,
+      "loss": 0.3968,
+      "step": 1026
+    },
+    {
+      "epoch": 15.390243902439025,
+      "grad_norm": 0.012236517064876534,
+      "learning_rate": 2.575260852815411e-07,
+      "loss": 0.4087,
+      "step": 1027
+    },
+    {
+      "epoch": 15.405253283302065,
+      "grad_norm": 0.011933985911797585,
+      "learning_rate": 2.5585020785753553e-07,
+      "loss": 0.4057,
+      "step": 1028
+    },
+    {
+      "epoch": 15.420262664165103,
+      "grad_norm": 0.012075593886736229,
+      "learning_rate": 2.541790009489474e-07,
+      "loss": 0.4015,
+      "step": 1029
+    },
+    {
+      "epoch": 15.435272045028142,
+      "grad_norm": 0.012164890137346288,
+      "learning_rate": 2.525124750447908e-07,
+      "loss": 0.4168,
+      "step": 1030
+    },
+    {
+      "epoch": 15.450281425891182,
+      "grad_norm": 0.012126106786702912,
+      "learning_rate": 2.508506406047004e-07,
+      "loss": 0.4058,
+      "step": 1031
+    },
+    {
+      "epoch": 15.465290806754222,
+      "grad_norm": 0.012368399052280451,
+      "learning_rate": 2.4919350805886576e-07,
+      "loss": 0.406,
+      "step": 1032
+    },
+    {
+      "epoch": 15.48030018761726,
+      "grad_norm": 0.012432763679806415,
+      "learning_rate": 2.475410878079657e-07,
+      "loss": 0.4056,
+      "step": 1033
+    },
+    {
+      "epoch": 15.4953095684803,
+      "grad_norm": 0.012881685474676679,
+      "learning_rate": 2.458933902231038e-07,
+      "loss": 0.4085,
+      "step": 1034
+    },
+    {
+      "epoch": 15.51031894934334,
+      "grad_norm": 0.01228631484433566,
+      "learning_rate": 2.4425042564574185e-07,
+      "loss": 0.4017,
+      "step": 1035
+    },
+    {
+      "epoch": 15.52532833020638,
+      "grad_norm": 0.012042020829137407,
+      "learning_rate": 2.426122043876362e-07,
+      "loss": 0.4046,
+      "step": 1036
+    },
+    {
+      "epoch": 15.540337711069418,
+      "grad_norm": 0.012587414690850632,
+      "learning_rate": 2.4097873673077296e-07,
+      "loss": 0.408,
+      "step": 1037
+    },
+    {
+      "epoch": 15.555347091932457,
+      "grad_norm": 0.012190544175375687,
+      "learning_rate": 2.393500329273029e-07,
+      "loss": 0.4097,
+      "step": 1038
+    },
+    {
+      "epoch": 15.570356472795497,
+      "grad_norm": 0.01206814550432668,
+      "learning_rate": 2.377261031994776e-07,
+      "loss": 0.4064,
+      "step": 1039
+    },
+    {
+      "epoch": 15.585365853658537,
+      "grad_norm": 0.012307556354982051,
+      "learning_rate": 2.3610695773958434e-07,
+      "loss": 0.4168,
+      "step": 1040
+    },
+    {
+      "epoch": 15.600375234521575,
+      "grad_norm": 0.01222641572619058,
+      "learning_rate": 2.3449260670988358e-07,
+      "loss": 0.4022,
+      "step": 1041
+    },
+    {
+      "epoch": 15.615384615384615,
+      "grad_norm": 0.012220527683488478,
+      "learning_rate": 2.3288306024254411e-07,
+      "loss": 0.3987,
+      "step": 1042
+    },
+    {
+      "epoch": 15.630393996247655,
+      "grad_norm": 0.012424430033867473,
+      "learning_rate": 2.3127832843958007e-07,
+      "loss": 0.4166,
+      "step": 1043
+    },
+    {
+      "epoch": 15.645403377110695,
+      "grad_norm": 0.012366507275888419,
+      "learning_rate": 2.2967842137278703e-07,
+      "loss": 0.4115,
+      "step": 1044
+    },
+    {
+      "epoch": 15.660412757973734,
+      "grad_norm": 0.012360880870716443,
+      "learning_rate": 2.2808334908367909e-07,
+      "loss": 0.4161,
+      "step": 1045
+    },
+    {
+      "epoch": 15.675422138836772,
+      "grad_norm": 0.012736823965131592,
+      "learning_rate": 2.264931215834257e-07,
+      "loss": 0.4066,
+      "step": 1046
+    },
+    {
+      "epoch": 15.690431519699812,
+      "grad_norm": 0.012155204376594498,
+      "learning_rate": 2.2490774885278907e-07,
+      "loss": 0.4049,
+      "step": 1047
+    },
+    {
+      "epoch": 15.705440900562852,
+      "grad_norm": 0.012646948905131343,
+      "learning_rate": 2.2332724084206112e-07,
+      "loss": 0.4102,
+      "step": 1048
+    },
+    {
+      "epoch": 15.720450281425892,
+      "grad_norm": 0.012200685840136094,
+      "learning_rate": 2.2175160747100198e-07,
+      "loss": 0.4049,
+      "step": 1049
+    },
+    {
+      "epoch": 15.73545966228893,
+      "grad_norm": 0.012245324836010893,
+      "learning_rate": 2.2018085862877566e-07,
+      "loss": 0.411,
+      "step": 1050
+    },
+    {
+      "epoch": 15.75046904315197,
+      "grad_norm": 0.012513647467032053,
+      "learning_rate": 2.1861500417389056e-07,
+      "loss": 0.4048,
+      "step": 1051
+    },
+    {
+      "epoch": 15.76547842401501,
+      "grad_norm": 0.011903061421256312,
+      "learning_rate": 2.170540539341361e-07,
+      "loss": 0.4188,
+      "step": 1052
+    },
+    {
+      "epoch": 15.78048780487805,
+      "grad_norm": 0.012394997852371569,
+      "learning_rate": 2.1549801770652098e-07,
+      "loss": 0.3948,
+      "step": 1053
+    },
+    {
+      "epoch": 15.795497185741088,
+      "grad_norm": 0.012059547174933096,
+      "learning_rate": 2.139469052572127e-07,
+      "loss": 0.4074,
+      "step": 1054
+    },
+    {
+      "epoch": 15.810506566604127,
+      "grad_norm": 0.012205668055297809,
+      "learning_rate": 2.1240072632147456e-07,
+      "loss": 0.421,
+      "step": 1055
+    },
+    {
+      "epoch": 15.825515947467167,
+      "grad_norm": 0.0120693595501382,
+      "learning_rate": 2.1085949060360653e-07,
+      "loss": 0.4148,
+      "step": 1056
+    },
+    {
+      "epoch": 15.825515947467167,
+      "eval_loss": 0.3944862484931946,
+      "eval_runtime": 14.0894,
+      "eval_samples_per_second": 31.726,
+      "eval_steps_per_second": 1.987,
+      "step": 1056
+    },
+    {
+      "epoch": 15.840525328330207,
+      "grad_norm": 0.012103676359132986,
+      "learning_rate": 2.0932320777688296e-07,
+      "loss": 0.405,
+      "step": 1057
+    },
+    {
+      "epoch": 15.855534709193245,
+      "grad_norm": 0.012592718645086199,
+      "learning_rate": 2.0779188748349252e-07,
+      "loss": 0.4153,
+      "step": 1058
+    },
+    {
+      "epoch": 15.870544090056285,
+      "grad_norm": 0.012256564326088341,
+      "learning_rate": 2.0626553933447732e-07,
+      "loss": 0.4097,
+      "step": 1059
+    },
+    {
+      "epoch": 15.885553470919325,
+      "grad_norm": 0.011906039730046884,
+      "learning_rate": 2.0474417290967295e-07,
+      "loss": 0.3977,
+      "step": 1060
+    },
+    {
+      "epoch": 15.900562851782365,
+      "grad_norm": 0.01245313620942531,
+      "learning_rate": 2.0322779775764787e-07,
+      "loss": 0.421,
+      "step": 1061
+    },
+    {
+      "epoch": 15.915572232645403,
+      "grad_norm": 0.012327925900428386,
+      "learning_rate": 2.0171642339564398e-07,
+      "loss": 0.4174,
+      "step": 1062
+    },
+    {
+      "epoch": 15.930581613508442,
+      "grad_norm": 0.012067615556392703,
+      "learning_rate": 2.0021005930951684e-07,
+      "loss": 0.4047,
+      "step": 1063
+    },
+    {
+      "epoch": 15.945590994371482,
+      "grad_norm": 0.011899607848417232,
+      "learning_rate": 1.9870871495367514e-07,
+      "loss": 0.4109,
+      "step": 1064
+    },
+    {
+      "epoch": 15.960600375234522,
+      "grad_norm": 0.012062481535146134,
+      "learning_rate": 1.972123997510231e-07,
+      "loss": 0.4121,
+      "step": 1065
+    },
+    {
+      "epoch": 15.975609756097562,
+      "grad_norm": 0.012510881372292592,
+      "learning_rate": 1.957211230929e-07,
+      "loss": 0.409,
+      "step": 1066
+    },
+    {
+      "epoch": 15.9906191369606,
+      "grad_norm": 0.01227375801391932,
+      "learning_rate": 1.9423489433902184e-07,
+      "loss": 0.4076,
+      "step": 1067
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.01227375801391932,
+      "learning_rate": 1.9275372281742243e-07,
+      "loss": 0.4065,
+      "step": 1068
+    },
+    {
+      "epoch": 16.015009380863038,
+      "grad_norm": 0.016887925794017364,
+      "learning_rate": 1.91277617824394e-07,
+      "loss": 0.4033,
+      "step": 1069
+    },
+    {
+      "epoch": 16.03001876172608,
+      "grad_norm": 0.012065709393656405,
+      "learning_rate": 1.8980658862443088e-07,
+      "loss": 0.4139,
+      "step": 1070
+    },
+    {
+      "epoch": 16.045028142589118,
+      "grad_norm": 0.012123882563609396,
+      "learning_rate": 1.8834064445016951e-07,
+      "loss": 0.4141,
+      "step": 1071
+    },
+    {
+      "epoch": 16.06003752345216,
+      "grad_norm": 0.011970596541082451,
+      "learning_rate": 1.8687979450233115e-07,
+      "loss": 0.3953,
+      "step": 1072
+    },
+    {
+      "epoch": 16.075046904315197,
+      "grad_norm": 0.0121109332002954,
+      "learning_rate": 1.8542404794966427e-07,
+      "loss": 0.4007,
+      "step": 1073
+    },
+    {
+      "epoch": 16.090056285178235,
+      "grad_norm": 0.012317267567386788,
+      "learning_rate": 1.8397341392888676e-07,
+      "loss": 0.3968,
+      "step": 1074
+    },
+    {
+      "epoch": 16.105065666041277,
+      "grad_norm": 0.011954379333899165,
+      "learning_rate": 1.825279015446286e-07,
+      "loss": 0.4098,
+      "step": 1075
+    },
+    {
+      "epoch": 16.120075046904315,
+      "grad_norm": 0.01207522116296904,
+      "learning_rate": 1.8108751986937486e-07,
+      "loss": 0.4101,
+      "step": 1076
+    },
+    {
+      "epoch": 16.135084427767353,
+      "grad_norm": 0.012742776596916777,
+      "learning_rate": 1.7965227794340875e-07,
+      "loss": 0.4127,
+      "step": 1077
+    },
+    {
+      "epoch": 16.150093808630395,
+      "grad_norm": 0.01227951952136753,
+      "learning_rate": 1.7822218477475494e-07,
+      "loss": 0.4146,
+      "step": 1078
+    },
+    {
+      "epoch": 16.165103189493433,
+      "grad_norm": 0.012201981579291116,
+      "learning_rate": 1.767972493391222e-07,
+      "loss": 0.4127,
+      "step": 1079
+    },
+    {
+      "epoch": 16.180112570356474,
+      "grad_norm": 0.012271422051618314,
+      "learning_rate": 1.7537748057984857e-07,
+      "loss": 0.4039,
+      "step": 1080
+    },
+    {
+      "epoch": 16.195121951219512,
+      "grad_norm": 0.012025618790831537,
+      "learning_rate": 1.7396288740784416e-07,
+      "loss": 0.402,
+      "step": 1081
+    },
+    {
+      "epoch": 16.21013133208255,
+      "grad_norm": 0.012207501752001196,
+      "learning_rate": 1.7255347870153536e-07,
+      "loss": 0.4167,
+      "step": 1082
+    },
+    {
+      "epoch": 16.225140712945592,
+      "grad_norm": 0.01276307209079064,
+      "learning_rate": 1.7114926330680957e-07,
+      "loss": 0.4067,
+      "step": 1083
+    },
+    {
+      "epoch": 16.24015009380863,
+      "grad_norm": 0.011866760953989293,
+      "learning_rate": 1.6975025003695864e-07,
+      "loss": 0.4025,
+      "step": 1084
+    },
+    {
+      "epoch": 16.255159474671668,
+      "grad_norm": 0.012251478648853141,
+      "learning_rate": 1.6835644767262514e-07,
+      "loss": 0.3965,
+      "step": 1085
+    },
+    {
+      "epoch": 16.27016885553471,
+      "grad_norm": 0.012206207332206386,
+      "learning_rate": 1.6696786496174575e-07,
+      "loss": 0.409,
+      "step": 1086
+    },
+    {
+      "epoch": 16.285178236397748,
+      "grad_norm": 0.012182631218416822,
+      "learning_rate": 1.655845106194973e-07,
+      "loss": 0.4113,
+      "step": 1087
+    },
+    {
+      "epoch": 16.30018761726079,
+      "grad_norm": 0.01226161680696391,
+      "learning_rate": 1.642063933282417e-07,
+      "loss": 0.4032,
+      "step": 1088
+    },
+    {
+      "epoch": 16.315196998123827,
+      "grad_norm": 0.011802893119126617,
+      "learning_rate": 1.6283352173747146e-07,
+      "loss": 0.4121,
+      "step": 1089
+    },
+    {
+      "epoch": 16.330206378986865,
+      "grad_norm": 0.01205076600250808,
+      "learning_rate": 1.614659044637553e-07,
+      "loss": 0.4146,
+      "step": 1090
+    },
+    {
+      "epoch": 16.345215759849907,
+      "grad_norm": 0.012403739116953917,
+      "learning_rate": 1.6010355009068454e-07,
+      "loss": 0.4127,
+      "step": 1091
+    },
+    {
+      "epoch": 16.360225140712945,
+      "grad_norm": 0.011974952494326613,
+      "learning_rate": 1.5874646716881868e-07,
+      "loss": 0.4056,
+      "step": 1092
+    },
+    {
+      "epoch": 16.375234521575987,
+      "grad_norm": 0.012012554552280001,
+      "learning_rate": 1.5739466421563218e-07,
+      "loss": 0.3993,
+      "step": 1093
+    },
+    {
+      "epoch": 16.390243902439025,
+      "grad_norm": 0.012068435859544514,
+      "learning_rate": 1.560481497154602e-07,
+      "loss": 0.4067,
+      "step": 1094
+    },
+    {
+      "epoch": 16.405253283302063,
+      "grad_norm": 0.01241486073176841,
+      "learning_rate": 1.5470693211944642e-07,
+      "loss": 0.4168,
+      "step": 1095
+    },
+    {
+      "epoch": 16.420262664165104,
+      "grad_norm": 0.012421971155925233,
+      "learning_rate": 1.5337101984548951e-07,
+      "loss": 0.4036,
+      "step": 1096
+    },
+    {
+      "epoch": 16.435272045028142,
+      "grad_norm": 0.012148607504961384,
+      "learning_rate": 1.5204042127819018e-07,
+      "loss": 0.3997,
+      "step": 1097
+    },
+    {
+      "epoch": 16.45028142589118,
+      "grad_norm": 0.011893274496745576,
+      "learning_rate": 1.5071514476879876e-07,
+      "loss": 0.4075,
+      "step": 1098
+    },
+    {
+      "epoch": 16.465290806754222,
+      "grad_norm": 0.012445240319998217,
+      "learning_rate": 1.4939519863516213e-07,
+      "loss": 0.4038,
+      "step": 1099
+    },
+    {
+      "epoch": 16.48030018761726,
+      "grad_norm": 0.012537068527918893,
+      "learning_rate": 1.4808059116167303e-07,
+      "loss": 0.4111,
+      "step": 1100
+    },
+    {
+      "epoch": 16.4953095684803,
+      "grad_norm": 0.012304138189345946,
+      "learning_rate": 1.4677133059921632e-07,
+      "loss": 0.4151,
+      "step": 1101
+    },
+    {
+      "epoch": 16.51031894934334,
+      "grad_norm": 0.012061421440472614,
+      "learning_rate": 1.4546742516511845e-07,
+      "loss": 0.3969,
+      "step": 1102
+    },
+    {
+      "epoch": 16.525328330206378,
+      "grad_norm": 0.011836675742582285,
+      "learning_rate": 1.4416888304309515e-07,
+      "loss": 0.4047,
+      "step": 1103
+    },
+    {
+      "epoch": 16.54033771106942,
+      "grad_norm": 0.011817532065112164,
+      "learning_rate": 1.4287571238320051e-07,
+      "loss": 0.4107,
+      "step": 1104
+    },
+    {
+      "epoch": 16.555347091932457,
+      "grad_norm": 0.011743671409316899,
+      "learning_rate": 1.4158792130177543e-07,
+      "loss": 0.4004,
+      "step": 1105
+    },
+    {
+      "epoch": 16.570356472795496,
+      "grad_norm": 0.012116572838494573,
+      "learning_rate": 1.4030551788139721e-07,
+      "loss": 0.4141,
+      "step": 1106
+    },
+    {
+      "epoch": 16.585365853658537,
+      "grad_norm": 0.012425598089451213,
+      "learning_rate": 1.3902851017082862e-07,
+      "loss": 0.4118,
+      "step": 1107
+    },
+    {
+      "epoch": 16.600375234521575,
+      "grad_norm": 0.011753586649073179,
+      "learning_rate": 1.377569061849665e-07,
+      "loss": 0.4082,
+      "step": 1108
+    },
+    {
+      "epoch": 16.615384615384617,
+      "grad_norm": 0.012375977275680615,
+      "learning_rate": 1.3649071390479283e-07,
+      "loss": 0.4146,
+      "step": 1109
+    },
+    {
+      "epoch": 16.630393996247655,
+      "grad_norm": 0.012295332163973069,
+      "learning_rate": 1.3522994127732412e-07,
+      "loss": 0.4151,
+      "step": 1110
+    },
+    {
+      "epoch": 16.645403377110693,
+      "grad_norm": 0.011963182926471421,
+      "learning_rate": 1.3397459621556128e-07,
+      "loss": 0.4151,
+      "step": 1111
+    },
+    {
+      "epoch": 16.660412757973734,
+      "grad_norm": 0.011814638769608714,
+      "learning_rate": 1.327246865984404e-07,
+      "loss": 0.406,
+      "step": 1112
+    },
+    {
+      "epoch": 16.675422138836772,
+      "grad_norm": 0.012205572263242072,
+      "learning_rate": 1.314802202707822e-07,
+      "loss": 0.41,
+      "step": 1113
+    },
+    {
+      "epoch": 16.690431519699814,
+      "grad_norm": 0.011956127437528156,
+      "learning_rate": 1.3024120504324454e-07,
+      "loss": 0.4042,
+      "step": 1114
+    },
+    {
+      "epoch": 16.705440900562852,
+      "grad_norm": 0.012425936619786686,
+      "learning_rate": 1.290076486922722e-07,
+      "loss": 0.4098,
+      "step": 1115
+    },
+    {
+      "epoch": 16.72045028142589,
+      "grad_norm": 0.012195755792282742,
+      "learning_rate": 1.2777955896004811e-07,
+      "loss": 0.4123,
+      "step": 1116
+    },
+    {
+      "epoch": 16.735459662288932,
+      "grad_norm": 0.012001955272470884,
+      "learning_rate": 1.2655694355444547e-07,
+      "loss": 0.4058,
+      "step": 1117
+    },
+    {
+      "epoch": 16.75046904315197,
+      "grad_norm": 0.012612779412664959,
+      "learning_rate": 1.25339810148978e-07,
+      "loss": 0.4018,
+      "step": 1118
+    },
+    {
+      "epoch": 16.765478424015008,
+      "grad_norm": 0.011731053965490292,
+      "learning_rate": 1.2412816638275402e-07,
+      "loss": 0.4099,
+      "step": 1119
+    },
+    {
+      "epoch": 16.78048780487805,
+      "grad_norm": 0.011942110649578081,
+      "learning_rate": 1.2292201986042616e-07,
+      "loss": 0.4159,
+      "step": 1120
+    },
+    {
+      "epoch": 16.795497185741088,
+      "grad_norm": 0.01228838930130753,
+      "learning_rate": 1.2172137815214488e-07,
+      "loss": 0.4177,
+      "step": 1121
+    },
+    {
+      "epoch": 16.81050656660413,
+      "grad_norm": 0.012201958299201607,
+      "learning_rate": 1.2052624879351103e-07,
+      "loss": 0.4064,
+      "step": 1122
+    },
+    {
+      "epoch": 16.81050656660413,
+      "eval_loss": 0.3941747844219208,
+      "eval_runtime": 13.7699,
+      "eval_samples_per_second": 32.462,
+      "eval_steps_per_second": 2.033,
+      "step": 1122
+    },
+    {
+      "epoch": 16.825515947467167,
+      "grad_norm": 0.011987590697607683,
+      "learning_rate": 1.1933663928552752e-07,
+      "loss": 0.3976,
+      "step": 1123
+    },
+    {
+      "epoch": 16.840525328330205,
+      "grad_norm": 0.012138943362389928,
+      "learning_rate": 1.1815255709455374e-07,
+      "loss": 0.4153,
+      "step": 1124
+    },
+    {
+      "epoch": 16.855534709193247,
+      "grad_norm": 0.012373458329033428,
+      "learning_rate": 1.1697400965225745e-07,
+      "loss": 0.4146,
+      "step": 1125
+    },
+    {
+      "epoch": 16.870544090056285,
+      "grad_norm": 0.012389090392038503,
+      "learning_rate": 1.1580100435556883e-07,
+      "loss": 0.3946,
+      "step": 1126
+    },
+    {
+      "epoch": 16.885553470919323,
+      "grad_norm": 0.011834382886208047,
+      "learning_rate": 1.1463354856663399e-07,
+      "loss": 0.4016,
+      "step": 1127
+    },
+    {
+      "epoch": 16.900562851782365,
+      "grad_norm": 0.012114418651751394,
+      "learning_rate": 1.1347164961276789e-07,
+      "loss": 0.396,
+      "step": 1128
+    },
+    {
+      "epoch": 16.915572232645403,
+      "grad_norm": 0.012269351272196211,
+      "learning_rate": 1.1231531478640987e-07,
+      "loss": 0.4098,
+      "step": 1129
+    },
+    {
+      "epoch": 16.930581613508444,
+      "grad_norm": 0.011614991226426072,
+      "learning_rate": 1.1116455134507663e-07,
+      "loss": 0.4122,
+      "step": 1130
+    },
+    {
+      "epoch": 16.945590994371482,
+      "grad_norm": 0.012827165860445595,
+      "learning_rate": 1.1001936651131716e-07,
+      "loss": 0.4074,
+      "step": 1131
+    },
+    {
+      "epoch": 16.96060037523452,
+      "grad_norm": 0.01202261694187779,
+      "learning_rate": 1.0887976747266791e-07,
+      "loss": 0.4017,
+      "step": 1132
+    },
+    {
+      "epoch": 16.975609756097562,
+      "grad_norm": 0.012092296382532815,
+      "learning_rate": 1.0774576138160596e-07,
+      "loss": 0.4114,
+      "step": 1133
+    },
+    {
+      "epoch": 16.9906191369606,
+      "grad_norm": 0.012388455511771996,
+      "learning_rate": 1.0661735535550665e-07,
+      "loss": 0.4104,
+      "step": 1134
+    },
+    {
+      "epoch": 17.015009380863038,
+      "grad_norm": 0.01607381588237361,
+      "learning_rate": 1.0549455647659677e-07,
+      "loss": 0.7922,
+      "step": 1135
+    },
+    {
+      "epoch": 17.03001876172608,
+      "grad_norm": 0.01182074740531476,
+      "learning_rate": 1.0437737179191108e-07,
+      "loss": 0.4057,
+      "step": 1136
+    },
+    {
+      "epoch": 17.045028142589118,
+      "grad_norm": 0.012095915652515062,
+      "learning_rate": 1.0326580831324816e-07,
+      "loss": 0.4012,
+      "step": 1137
+    },
+    {
+      "epoch": 17.06003752345216,
+      "grad_norm": 0.011903831536743867,
+      "learning_rate": 1.021598730171257e-07,
+      "loss": 0.4091,
+      "step": 1138
+    },
+    {
+      "epoch": 17.075046904315197,
+      "grad_norm": 0.012259225232080817,
+      "learning_rate": 1.0105957284473732e-07,
+      "loss": 0.4093,
+      "step": 1139
+    },
+    {
+      "epoch": 17.090056285178235,
+      "grad_norm": 0.012083353911997635,
+      "learning_rate": 9.996491470190915e-08,
+      "loss": 0.4137,
+      "step": 1140
+    },
+    {
+      "epoch": 17.105065666041277,
+      "grad_norm": 0.012224092783758394,
+      "learning_rate": 9.887590545905589e-08,
+      "loss": 0.4254,
+      "step": 1141
+    },
+    {
+      "epoch": 17.120075046904315,
+      "grad_norm": 0.011652986549382856,
+      "learning_rate": 9.779255195113823e-08,
+      "loss": 0.4037,
+      "step": 1142
+    },
+    {
+      "epoch": 17.135084427767353,
+      "grad_norm": 0.012465106664410062,
+      "learning_rate": 9.671486097761917e-08,
+      "loss": 0.401,
+      "step": 1143
+    },
+    {
+      "epoch": 17.150093808630395,
+      "grad_norm": 0.012292307923531054,
+      "learning_rate": 9.564283930242257e-08,
+      "loss": 0.4078,
+      "step": 1144
+    },
+    {
+      "epoch": 17.165103189493433,
+      "grad_norm": 0.012083496838805925,
+      "learning_rate": 9.457649365388965e-08,
+      "loss": 0.4061,
+      "step": 1145
+    },
+    {
+      "epoch": 17.180112570356474,
+      "grad_norm": 0.012058613681905764,
+      "learning_rate": 9.351583072473712e-08,
+      "loss": 0.4011,
+      "step": 1146
+    },
+    {
+      "epoch": 17.195121951219512,
+      "grad_norm": 0.011786553163980374,
+      "learning_rate": 9.246085717201546e-08,
+      "loss": 0.4148,
+      "step": 1147
+    },
+    {
+      "epoch": 17.21013133208255,
+      "grad_norm": 0.012314917316211435,
+      "learning_rate": 9.141157961706602e-08,
+      "loss": 0.4102,
+      "step": 1148
+    },
+    {
+      "epoch": 17.225140712945592,
+      "grad_norm": 0.012107777455723816,
+      "learning_rate": 9.036800464548156e-08,
+      "loss": 0.3958,
+      "step": 1149
+    },
+    {
+      "epoch": 17.24015009380863,
+      "grad_norm": 0.011964321058374836,
+      "learning_rate": 8.933013880706275e-08,
+      "loss": 0.4023,
+      "step": 1150
+    },
+    {
+      "epoch": 17.255159474671668,
+      "grad_norm": 0.012067958170577502,
+      "learning_rate": 8.829798861577831e-08,
+      "loss": 0.4134,
+      "step": 1151
+    },
+    {
+      "epoch": 17.27016885553471,
+      "grad_norm": 0.01209478822335003,
+      "learning_rate": 8.727156054972373e-08,
+      "loss": 0.416,
+      "step": 1152
+    },
+    {
+      "epoch": 17.285178236397748,
+      "grad_norm": 0.012244663184378318,
+      "learning_rate": 8.625086105108037e-08,
+      "loss": 0.4005,
+      "step": 1153
+    },
+    {
+      "epoch": 17.30018761726079,
+      "grad_norm": 0.011573669129444004,
+      "learning_rate": 8.523589652607566e-08,
+      "loss": 0.4041,
+      "step": 1154
+    },
+    {
+      "epoch": 17.315196998123827,
+      "grad_norm": 0.01184555083569059,
+      "learning_rate": 8.422667334494249e-08,
+      "loss": 0.3999,
+      "step": 1155
+    },
+    {
+      "epoch": 17.330206378986865,
+      "grad_norm": 0.01271028447647729,
+      "learning_rate": 8.322319784187959e-08,
+      "loss": 0.4113,
+      "step": 1156
+    },
+    {
+      "epoch": 17.345215759849907,
+      "grad_norm": 0.012424858123698831,
+      "learning_rate": 8.222547631501054e-08,
+      "loss": 0.4073,
+      "step": 1157
+    },
+    {
+      "epoch": 17.360225140712945,
+      "grad_norm": 0.012569921108406372,
+      "learning_rate": 8.123351502634623e-08,
+      "loss": 0.4176,
+      "step": 1158
+    },
+    {
+      "epoch": 17.375234521575987,
+      "grad_norm": 0.012212460256096685,
+      "learning_rate": 8.024732020174385e-08,
+      "loss": 0.4163,
+      "step": 1159
+    },
+    {
+      "epoch": 17.390243902439025,
+      "grad_norm": 0.012876844421681181,
+      "learning_rate": 7.926689803086872e-08,
+      "loss": 0.4137,
+      "step": 1160
+    },
+    {
+      "epoch": 17.405253283302063,
+      "grad_norm": 0.012127902236964899,
+      "learning_rate": 7.82922546671555e-08,
+      "loss": 0.4108,
+      "step": 1161
+    },
+    {
+      "epoch": 17.420262664165104,
+      "grad_norm": 0.012475847191274562,
+      "learning_rate": 7.732339622776829e-08,
+      "loss": 0.4119,
+      "step": 1162
+    },
+    {
+      "epoch": 17.435272045028142,
+      "grad_norm": 0.012323895374580014,
+      "learning_rate": 7.636032879356425e-08,
+      "loss": 0.4064,
+      "step": 1163
+    },
+    {
+      "epoch": 17.45028142589118,
+      "grad_norm": 0.01162521749026464,
+      "learning_rate": 7.540305840905369e-08,
+      "loss": 0.4099,
+      "step": 1164
+    },
+    {
+      "epoch": 17.465290806754222,
+      "grad_norm": 0.012085289434805383,
+      "learning_rate": 7.445159108236343e-08,
+      "loss": 0.4014,
+      "step": 1165
+    },
+    {
+      "epoch": 17.48030018761726,
+      "grad_norm": 0.011680985710547098,
+      "learning_rate": 7.350593278519823e-08,
+      "loss": 0.4118,
+      "step": 1166
+    },
+    {
+      "epoch": 17.4953095684803,
+      "grad_norm": 0.01202917040251438,
+      "learning_rate": 7.256608945280318e-08,
+      "loss": 0.4085,
+      "step": 1167
+    },
+    {
+      "epoch": 17.51031894934334,
+      "grad_norm": 0.011995016219742638,
+      "learning_rate": 7.163206698392742e-08,
+      "loss": 0.4121,
+      "step": 1168
+    },
+    {
+      "epoch": 17.525328330206378,
+      "grad_norm": 0.012587588608999197,
+      "learning_rate": 7.070387124078614e-08,
+      "loss": 0.4134,
+      "step": 1169
+    },
+    {
+      "epoch": 17.54033771106942,
+      "grad_norm": 0.011907862956892574,
+      "learning_rate": 6.978150804902449e-08,
+      "loss": 0.4149,
+      "step": 1170
+    },
+    {
+      "epoch": 17.555347091932457,
+      "grad_norm": 0.012367732761458044,
+      "learning_rate": 6.886498319768075e-08,
+      "loss": 0.4123,
+      "step": 1171
+    },
+    {
+      "epoch": 17.570356472795496,
+      "grad_norm": 0.012413142793066507,
+      "learning_rate": 6.795430243914935e-08,
+      "loss": 0.4099,
+      "step": 1172
+    },
+    {
+      "epoch": 17.585365853658537,
+      "grad_norm": 0.01198028253713889,
+      "learning_rate": 6.704947148914608e-08,
+      "loss": 0.4053,
+      "step": 1173
+    },
+    {
+      "epoch": 17.600375234521575,
+      "grad_norm": 0.01218802781184607,
+      "learning_rate": 6.615049602667122e-08,
+      "loss": 0.4116,
+      "step": 1174
+    },
+    {
+      "epoch": 17.615384615384617,
+      "grad_norm": 0.012525942652443793,
+      "learning_rate": 6.52573816939742e-08,
+      "loss": 0.4123,
+      "step": 1175
+    },
+    {
+      "epoch": 17.630393996247655,
+      "grad_norm": 0.012661673801348647,
+      "learning_rate": 6.437013409651847e-08,
+      "loss": 0.4108,
+      "step": 1176
+    },
+    {
+      "epoch": 17.645403377110693,
+      "grad_norm": 0.012526249345482146,
+      "learning_rate": 6.348875880294535e-08,
+      "loss": 0.4129,
+      "step": 1177
+    },
+    {
+      "epoch": 17.660412757973734,
+      "grad_norm": 0.012160064393132261,
+      "learning_rate": 6.26132613450403e-08,
+      "loss": 0.405,
+      "step": 1178
+    },
+    {
+      "epoch": 17.675422138836772,
+      "grad_norm": 0.011856736199021006,
+      "learning_rate": 6.174364721769742e-08,
+      "loss": 0.3979,
+      "step": 1179
+    },
+    {
+      "epoch": 17.690431519699814,
+      "grad_norm": 0.012209332212864363,
+      "learning_rate": 6.087992187888557e-08,
+      "loss": 0.4094,
+      "step": 1180
+    },
+    {
+      "epoch": 17.705440900562852,
+      "grad_norm": 0.012164727576505307,
+      "learning_rate": 6.00220907496135e-08,
+      "loss": 0.4064,
+      "step": 1181
+    },
+    {
+      "epoch": 17.72045028142589,
+      "grad_norm": 0.012094675237917947,
+      "learning_rate": 5.917015921389568e-08,
+      "loss": 0.4111,
+      "step": 1182
+    },
+    {
+      "epoch": 17.735459662288932,
+      "grad_norm": 0.012301334949674643,
+      "learning_rate": 5.832413261871938e-08,
+      "loss": 0.4019,
+      "step": 1183
+    },
+    {
+      "epoch": 17.75046904315197,
+      "grad_norm": 0.012225443758653235,
+      "learning_rate": 5.748401627401067e-08,
+      "loss": 0.3957,
+      "step": 1184
+    },
+    {
+      "epoch": 17.765478424015008,
+      "grad_norm": 0.012458043664162905,
+      "learning_rate": 5.6649815452600725e-08,
+      "loss": 0.3975,
+      "step": 1185
+    },
+    {
+      "epoch": 17.78048780487805,
+      "grad_norm": 0.011703394783094899,
+      "learning_rate": 5.5821535390193406e-08,
+      "loss": 0.4084,
+      "step": 1186
+    },
+    {
+      "epoch": 17.795497185741088,
+      "grad_norm": 0.01193572234009368,
+      "learning_rate": 5.499918128533154e-08,
+      "loss": 0.4029,
+      "step": 1187
+    },
+    {
+      "epoch": 17.81050656660413,
+      "grad_norm": 0.012490715952476177,
+      "learning_rate": 5.4182758299365364e-08,
+      "loss": 0.4066,
+      "step": 1188
+    },
+    {
+      "epoch": 17.81050656660413,
+      "eval_loss": 0.3940185606479645,
+      "eval_runtime": 14.0978,
+      "eval_samples_per_second": 31.707,
+      "eval_steps_per_second": 1.986,
+      "step": 1188
+    },
+    {
+      "epoch": 17.825515947467167,
+      "grad_norm": 0.012227421280696971,
+      "learning_rate": 5.337227155641921e-08,
+      "loss": 0.4083,
+      "step": 1189
+    },
+    {
+      "epoch": 17.840525328330205,
+      "grad_norm": 0.012367946788776257,
+      "learning_rate": 5.256772614335991e-08,
+      "loss": 0.4082,
+      "step": 1190
+    },
+    {
+      "epoch": 17.855534709193247,
+      "grad_norm": 0.012324728938463323,
+      "learning_rate": 5.1769127109764666e-08,
+      "loss": 0.4009,
+      "step": 1191
+    },
+    {
+      "epoch": 17.870544090056285,
+      "grad_norm": 0.011883776326167475,
+      "learning_rate": 5.0976479467888966e-08,
+      "loss": 0.3992,
+      "step": 1192
+    },
+    {
+      "epoch": 17.885553470919323,
+      "grad_norm": 0.01191459640325878,
+      "learning_rate": 5.018978819263597e-08,
+      "loss": 0.4086,
+      "step": 1193
+    },
+    {
+      "epoch": 17.900562851782365,
+      "grad_norm": 0.012409893635999196,
+      "learning_rate": 4.940905822152452e-08,
+      "loss": 0.3926,
+      "step": 1194
+    },
+    {
+      "epoch": 17.915572232645403,
+      "grad_norm": 0.012283886910921115,
+      "learning_rate": 4.863429445465883e-08,
+      "loss": 0.4075,
+      "step": 1195
+    },
+    {
+      "epoch": 17.930581613508444,
+      "grad_norm": 0.012064735027299723,
+      "learning_rate": 4.786550175469728e-08,
+      "loss": 0.3929,
+      "step": 1196
+    },
+    {
+      "epoch": 17.945590994371482,
+      "grad_norm": 0.012077507797889245,
+      "learning_rate": 4.7102684946821456e-08,
+      "loss": 0.4086,
+      "step": 1197
+    },
+    {
+      "epoch": 17.96060037523452,
+      "grad_norm": 0.011773580263745117,
+      "learning_rate": 4.6345848818706956e-08,
+      "loss": 0.4195,
+      "step": 1198
+    },
+    {
+      "epoch": 17.975609756097562,
+      "grad_norm": 0.012158454333714083,
+      "learning_rate": 4.55949981204925e-08,
+      "loss": 0.4147,
+      "step": 1199
+    },
+    {
+      "epoch": 17.9906191369606,
+      "grad_norm": 0.011705832981943262,
+      "learning_rate": 4.4850137564750756e-08,
+      "loss": 0.4133,
+      "step": 1200
+    },
+    {
+      "epoch": 18.015009380863038,
+      "grad_norm": 0.01892041042339661,
+      "learning_rate": 4.4111271826457684e-08,
+      "loss": 0.8008,
+      "step": 1201
+    },
+    {
+      "epoch": 18.03001876172608,
+      "grad_norm": 0.011875241891989333,
+      "learning_rate": 4.337840554296468e-08,
+      "loss": 0.3956,
+      "step": 1202
+    },
+    {
+      "epoch": 18.045028142589118,
+      "grad_norm": 0.011518111425783685,
+      "learning_rate": 4.265154331396814e-08,
+      "loss": 0.4018,
+      "step": 1203
+    },
+    {
+      "epoch": 18.06003752345216,
+      "grad_norm": 0.011921877135567948,
+      "learning_rate": 4.193068970148139e-08,
+      "loss": 0.4135,
+      "step": 1204
+    },
+    {
+      "epoch": 18.075046904315197,
+      "grad_norm": 0.01196404394665153,
+      "learning_rate": 4.121584922980603e-08,
+      "loss": 0.4152,
+      "step": 1205
+    },
+    {
+      "epoch": 18.090056285178235,
+      "grad_norm": 0.012254596451346144,
+      "learning_rate": 4.050702638550274e-08,
+      "loss": 0.4057,
+      "step": 1206
+    },
+    {
+      "epoch": 18.105065666041277,
+      "grad_norm": 0.012184092362587513,
+      "learning_rate": 3.9804225617364185e-08,
+      "loss": 0.4042,
+      "step": 1207
+    },
+    {
+      "epoch": 18.120075046904315,
+      "grad_norm": 0.012194493098812067,
+      "learning_rate": 3.910745133638638e-08,
+      "loss": 0.418,
+      "step": 1208
+    },
+    {
+      "epoch": 18.135084427767353,
+      "grad_norm": 0.012555563095673745,
+      "learning_rate": 3.841670791574136e-08,
+      "loss": 0.4102,
+      "step": 1209
+    },
+    {
+      "epoch": 18.150093808630395,
+      "grad_norm": 0.012169854152024248,
+      "learning_rate": 3.7731999690749585e-08,
+      "loss": 0.3893,
+      "step": 1210
+    },
+    {
+      "epoch": 18.165103189493433,
+      "grad_norm": 0.01244474180194911,
+      "learning_rate": 3.705333095885277e-08,
+      "loss": 0.4044,
+      "step": 1211
+    },
+    {
+      "epoch": 18.180112570356474,
+      "grad_norm": 0.012701077259060964,
+      "learning_rate": 3.6380705979586644e-08,
+      "loss": 0.4094,
+      "step": 1212
+    },
+    {
+      "epoch": 18.195121951219512,
+      "grad_norm": 0.011824029437486382,
+      "learning_rate": 3.571412897455495e-08,
+      "loss": 0.4129,
+      "step": 1213
+    },
+    {
+      "epoch": 18.21013133208255,
+      "grad_norm": 0.012828647907710029,
+      "learning_rate": 3.505360412740188e-08,
+      "loss": 0.4,
+      "step": 1214
+    },
+    {
+      "epoch": 18.225140712945592,
+      "grad_norm": 0.01201395104905769,
+      "learning_rate": 3.439913558378704e-08,
+      "loss": 0.4207,
+      "step": 1215
+    },
+    {
+      "epoch": 18.24015009380863,
+      "grad_norm": 0.012461422730290947,
+      "learning_rate": 3.3750727451358094e-08,
+      "loss": 0.3988,
+      "step": 1216
+    },
+    {
+      "epoch": 18.255159474671668,
+      "grad_norm": 0.012047772292080035,
+      "learning_rate": 3.310838379972614e-08,
+      "loss": 0.4122,
+      "step": 1217
+    },
+    {
+      "epoch": 18.27016885553471,
+      "grad_norm": 0.012451921378931235,
+      "learning_rate": 3.24721086604397e-08,
+      "loss": 0.4179,
+      "step": 1218
+    },
+    {
+      "epoch": 18.285178236397748,
+      "grad_norm": 0.012038541117606516,
+      "learning_rate": 3.1841906026959356e-08,
+      "loss": 0.4033,
+      "step": 1219
+    },
+    {
+      "epoch": 18.30018761726079,
+      "grad_norm": 0.011860346393252194,
+      "learning_rate": 3.1217779854632806e-08,
+      "loss": 0.3957,
+      "step": 1220
+    },
+    {
+      "epoch": 18.315196998123827,
+      "grad_norm": 0.012122525135396791,
+      "learning_rate": 3.0599734060669626e-08,
+      "loss": 0.408,
+      "step": 1221
+    },
+    {
+      "epoch": 18.330206378986865,
+      "grad_norm": 0.01207502168393969,
+      "learning_rate": 2.998777252411766e-08,
+      "loss": 0.4165,
+      "step": 1222
+    },
+    {
+      "epoch": 18.345215759849907,
+      "grad_norm": 0.012521513750259158,
+      "learning_rate": 2.9381899085837438e-08,
+      "loss": 0.4122,
+      "step": 1223
+    },
+    {
+      "epoch": 18.360225140712945,
+      "grad_norm": 0.012634009105925964,
+      "learning_rate": 2.8782117548479258e-08,
+      "loss": 0.4151,
+      "step": 1224
+    },
+    {
+      "epoch": 18.375234521575987,
+      "grad_norm": 0.011959711219096641,
+      "learning_rate": 2.8188431676458345e-08,
+      "loss": 0.4078,
+      "step": 1225
+    },
+    {
+      "epoch": 18.390243902439025,
+      "grad_norm": 0.011988140892609642,
+      "learning_rate": 2.7600845195931867e-08,
+      "loss": 0.4058,
+      "step": 1226
+    },
+    {
+      "epoch": 18.405253283302063,
+      "grad_norm": 0.012178000803191502,
+      "learning_rate": 2.701936179477515e-08,
+      "loss": 0.4144,
+      "step": 1227
+    },
+    {
+      "epoch": 18.420262664165104,
+      "grad_norm": 0.0120582199067019,
+      "learning_rate": 2.6443985122558855e-08,
+      "loss": 0.4048,
+      "step": 1228
+    },
+    {
+      "epoch": 18.435272045028142,
+      "grad_norm": 0.012256955326780608,
+      "learning_rate": 2.587471879052572e-08,
+      "loss": 0.4053,
+      "step": 1229
+    },
+    {
+      "epoch": 18.45028142589118,
+      "grad_norm": 0.012220393687074404,
+      "learning_rate": 2.5311566371568505e-08,
+      "loss": 0.4166,
+      "step": 1230
+    },
+    {
+      "epoch": 18.465290806754222,
+      "grad_norm": 0.012318315655887042,
+      "learning_rate": 2.4754531400206446e-08,
+      "loss": 0.4086,
+      "step": 1231
+    },
+    {
+      "epoch": 18.48030018761726,
+      "grad_norm": 0.01208759598395148,
+      "learning_rate": 2.4203617372564378e-08,
+      "loss": 0.403,
+      "step": 1232
+    },
+    {
+      "epoch": 18.4953095684803,
+      "grad_norm": 0.012045700658904396,
+      "learning_rate": 2.3658827746349974e-08,
+      "loss": 0.4016,
+      "step": 1233
+    },
+    {
+      "epoch": 18.51031894934334,
+      "grad_norm": 0.011950579146901357,
+      "learning_rate": 2.3120165940832325e-08,
+      "loss": 0.4111,
+      "step": 1234
+    },
+    {
+      "epoch": 18.525328330206378,
+      "grad_norm": 0.012254984423373173,
+      "learning_rate": 2.2587635336820398e-08,
+      "loss": 0.4163,
+      "step": 1235
+    },
+    {
+      "epoch": 18.54033771106942,
+      "grad_norm": 0.012241032174288546,
+      "learning_rate": 2.2061239276641607e-08,
+      "loss": 0.4067,
+      "step": 1236
+    },
+    {
+      "epoch": 18.555347091932457,
+      "grad_norm": 0.01207555807762867,
+      "learning_rate": 2.1540981064121388e-08,
+      "loss": 0.4155,
+      "step": 1237
+    },
+    {
+      "epoch": 18.570356472795496,
+      "grad_norm": 0.012558998024423071,
+      "learning_rate": 2.102686396456199e-08,
+      "loss": 0.4131,
+      "step": 1238
+    },
+    {
+      "epoch": 18.585365853658537,
+      "grad_norm": 0.012060644512723748,
+      "learning_rate": 2.0518891204722167e-08,
+      "loss": 0.4069,
+      "step": 1239
+    },
+    {
+      "epoch": 18.600375234521575,
+      "grad_norm": 0.012285463532045451,
+      "learning_rate": 2.0017065972796843e-08,
+      "loss": 0.3989,
+      "step": 1240
+    },
+    {
+      "epoch": 18.615384615384617,
+      "grad_norm": 0.012025225107120854,
+      "learning_rate": 1.9521391418397148e-08,
+      "loss": 0.4034,
+      "step": 1241
+    },
+    {
+      "epoch": 18.630393996247655,
+      "grad_norm": 0.012338195232809763,
+      "learning_rate": 1.9031870652530756e-08,
+      "loss": 0.4113,
+      "step": 1242
+    },
+    {
+      "epoch": 18.645403377110693,
+      "grad_norm": 0.01213275063867394,
+      "learning_rate": 1.8548506747582128e-08,
+      "loss": 0.4115,
+      "step": 1243
+    },
+    {
+      "epoch": 18.660412757973734,
+      "grad_norm": 0.012004565010333276,
+      "learning_rate": 1.807130273729329e-08,
+      "loss": 0.3981,
+      "step": 1244
+    },
+    {
+      "epoch": 18.675422138836772,
+      "grad_norm": 0.012366830778200107,
+      "learning_rate": 1.7600261616745103e-08,
+      "loss": 0.4113,
+      "step": 1245
+    },
+    {
+      "epoch": 18.690431519699814,
+      "grad_norm": 0.012029863257280412,
+      "learning_rate": 1.713538634233791e-08,
+      "loss": 0.4086,
+      "step": 1246
+    },
+    {
+      "epoch": 18.705440900562852,
+      "grad_norm": 0.011996240644873084,
+      "learning_rate": 1.6676679831773567e-08,
+      "loss": 0.4019,
+      "step": 1247
+    },
+    {
+      "epoch": 18.72045028142589,
+      "grad_norm": 0.012493637507283401,
+      "learning_rate": 1.622414496403668e-08,
+      "loss": 0.4007,
+      "step": 1248
+    },
+    {
+      "epoch": 18.735459662288932,
+      "grad_norm": 0.011864242959638414,
+      "learning_rate": 1.5777784579376728e-08,
+      "loss": 0.4002,
+      "step": 1249
+    },
+    {
+      "epoch": 18.75046904315197,
+      "grad_norm": 0.012004702120412627,
+      "learning_rate": 1.5337601479290195e-08,
+      "loss": 0.3977,
+      "step": 1250
+    },
+    {
+      "epoch": 18.765478424015008,
+      "grad_norm": 0.012055148241702568,
+      "learning_rate": 1.4903598426503237e-08,
+      "loss": 0.4056,
+      "step": 1251
+    },
+    {
+      "epoch": 18.78048780487805,
+      "grad_norm": 0.011971783702517814,
+      "learning_rate": 1.447577814495371e-08,
+      "loss": 0.404,
+      "step": 1252
+    },
+    {
+      "epoch": 18.795497185741088,
+      "grad_norm": 0.011875158436815665,
+      "learning_rate": 1.4054143319774724e-08,
+      "loss": 0.4023,
+      "step": 1253
+    },
+    {
+      "epoch": 18.81050656660413,
+      "grad_norm": 0.012294967191521976,
+      "learning_rate": 1.3638696597277677e-08,
+      "loss": 0.4137,
+      "step": 1254
+    },
+    {
+      "epoch": 18.81050656660413,
+      "eval_loss": 0.39393627643585205,
+      "eval_runtime": 13.7085,
+      "eval_samples_per_second": 32.607,
+      "eval_steps_per_second": 2.043,
+      "step": 1254
+    },
+    {
+      "epoch": 18.825515947467167,
+      "grad_norm": 0.012150083576670793,
+      "learning_rate": 1.3229440584935137e-08,
+      "loss": 0.4042,
+      "step": 1255
+    },
+    {
+      "epoch": 18.840525328330205,
+      "grad_norm": 0.012191506353413198,
+      "learning_rate": 1.28263778513652e-08,
+      "loss": 0.4135,
+      "step": 1256
+    },
+    {
+      "epoch": 18.855534709193247,
+      "grad_norm": 0.012120685160381235,
+      "learning_rate": 1.2429510926314835e-08,
+      "loss": 0.4119,
+      "step": 1257
+    },
+    {
+      "epoch": 18.870544090056285,
+      "grad_norm": 0.011999394179816762,
+      "learning_rate": 1.2038842300644225e-08,
+      "loss": 0.4091,
+      "step": 1258
+    },
+    {
+      "epoch": 18.885553470919323,
+      "grad_norm": 0.012229137988916727,
+      "learning_rate": 1.165437442631112e-08,
+      "loss": 0.4026,
+      "step": 1259
+    },
+    {
+      "epoch": 18.900562851782365,
+      "grad_norm": 0.011773188892312082,
+      "learning_rate": 1.1276109716355286e-08,
+      "loss": 0.3999,
+      "step": 1260
+    },
+    {
+      "epoch": 18.915572232645403,
+      "grad_norm": 0.011987595281597069,
+      "learning_rate": 1.0904050544883858e-08,
+      "loss": 0.4038,
+      "step": 1261
+    },
+    {
+      "epoch": 18.930581613508444,
+      "grad_norm": 0.011884116567775816,
+      "learning_rate": 1.0538199247055678e-08,
+      "loss": 0.4053,
+      "step": 1262
+    },
+    {
+      "epoch": 18.945590994371482,
+      "grad_norm": 0.011817654569350527,
+      "learning_rate": 1.0178558119067315e-08,
+      "loss": 0.4057,
+      "step": 1263
+    },
+    {
+      "epoch": 18.96060037523452,
+      "grad_norm": 0.012055678102132312,
+      "learning_rate": 9.825129418138178e-09,
+      "loss": 0.4078,
+      "step": 1264
+    },
+    {
+      "epoch": 18.975609756097562,
+      "grad_norm": 0.012071982250938978,
+      "learning_rate": 9.477915362496758e-09,
+      "loss": 0.4203,
+      "step": 1265
+    },
+    {
+      "epoch": 18.9906191369606,
+      "grad_norm": 0.012189144844470683,
+      "learning_rate": 9.13691813136641e-09,
+      "loss": 0.4162,
+      "step": 1266
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.013032683738861633,
+      "learning_rate": 8.802139864951596e-09,
+      "loss": 0.3283,
+      "step": 1267
+    },
+    {
+      "epoch": 19.015009380863038,
+      "grad_norm": 0.014335853539907665,
+      "learning_rate": 8.473582664424995e-09,
+      "loss": 0.4792,
+      "step": 1268
+    },
+    {
+      "epoch": 19.03001876172608,
+      "grad_norm": 0.012484679040138053,
+      "learning_rate": 8.151248591913518e-09,
+      "loss": 0.4106,
+      "step": 1269
+    },
+    {
+      "epoch": 19.045028142589118,
+      "grad_norm": 0.012105246321067362,
+      "learning_rate": 7.835139670486212e-09,
+      "loss": 0.4001,
+      "step": 1270
+    },
+    {
+      "epoch": 19.06003752345216,
+      "grad_norm": 0.011751825236754727,
+      "learning_rate": 7.525257884140823e-09,
+      "loss": 0.4008,
+      "step": 1271
+    },
+    {
+      "epoch": 19.075046904315197,
+      "grad_norm": 0.013175703813983093,
+      "learning_rate": 7.2216051777916894e-09,
+      "loss": 0.4093,
+      "step": 1272
+    },
+    {
+      "epoch": 19.090056285178235,
+      "grad_norm": 0.011978352610379423,
+      "learning_rate": 6.924183457257871e-09,
+      "loss": 0.4121,
+      "step": 1273
+    },
+    {
+      "epoch": 19.105065666041277,
+      "grad_norm": 0.011787239977337143,
+      "learning_rate": 6.632994589250262e-09,
+      "loss": 0.4121,
+      "step": 1274
+    },
+    {
+      "epoch": 19.120075046904315,
+      "grad_norm": 0.012318814698430361,
+      "learning_rate": 6.3480404013608325e-09,
+      "loss": 0.4043,
+      "step": 1275
+    },
+    {
+      "epoch": 19.135084427767353,
+      "grad_norm": 0.012037273362049511,
+      "learning_rate": 6.069322682050515e-09,
+      "loss": 0.4066,
+      "step": 1276
+    },
+    {
+      "epoch": 19.150093808630395,
+      "grad_norm": 0.011959073152947426,
+      "learning_rate": 5.796843180638555e-09,
+      "loss": 0.4095,
+      "step": 1277
+    },
+    {
+      "epoch": 19.165103189493433,
+      "grad_norm": 0.011966460370732191,
+      "learning_rate": 5.530603607290851e-09,
+      "loss": 0.4224,
+      "step": 1278
+    },
+    {
+      "epoch": 19.180112570356474,
+      "grad_norm": 0.012353059701364673,
+      "learning_rate": 5.2706056330098505e-09,
+      "loss": 0.4063,
+      "step": 1279
+    },
+    {
+      "epoch": 19.195121951219512,
+      "grad_norm": 0.011930396547934605,
+      "learning_rate": 5.0168508896235585e-09,
+      "loss": 0.4033,
+      "step": 1280
+    },
+    {
+      "epoch": 19.21013133208255,
+      "grad_norm": 0.011731376690623204,
+      "learning_rate": 4.769340969775659e-09,
+      "loss": 0.405,
+      "step": 1281
+    },
+    {
+      "epoch": 19.225140712945592,
+      "grad_norm": 0.012283286872202488,
+      "learning_rate": 4.528077426915411e-09,
+      "loss": 0.4106,
+      "step": 1282
+    },
+    {
+      "epoch": 19.24015009380863,
+      "grad_norm": 0.012574046336957924,
+      "learning_rate": 4.293061775287654e-09,
+      "loss": 0.4065,
+      "step": 1283
+    },
+    {
+      "epoch": 19.255159474671668,
+      "grad_norm": 0.011951354592048286,
+      "learning_rate": 4.064295489923819e-09,
+      "loss": 0.4023,
+      "step": 1284
+    },
+    {
+      "epoch": 19.27016885553471,
+      "grad_norm": 0.012132271788831939,
+      "learning_rate": 3.841780006632267e-09,
+      "loss": 0.4075,
+      "step": 1285
+    },
+    {
+      "epoch": 19.285178236397748,
+      "grad_norm": 0.01221857164582425,
+      "learning_rate": 3.625516721989075e-09,
+      "loss": 0.4077,
+      "step": 1286
+    },
+    {
+      "epoch": 19.30018761726079,
+      "grad_norm": 0.011863748308289977,
+      "learning_rate": 3.415506993330153e-09,
+      "loss": 0.4045,
+      "step": 1287
+    },
+    {
+      "epoch": 19.315196998123827,
+      "grad_norm": 0.011741159713343184,
+      "learning_rate": 3.211752138741697e-09,
+      "loss": 0.4143,
+      "step": 1288
+    },
+    {
+      "epoch": 19.330206378986865,
+      "grad_norm": 0.01191775807178149,
+      "learning_rate": 3.0142534370524164e-09,
+      "loss": 0.4062,
+      "step": 1289
+    },
+    {
+      "epoch": 19.345215759849907,
+      "grad_norm": 0.012215595050070076,
+      "learning_rate": 2.8230121278257635e-09,
+      "loss": 0.4093,
+      "step": 1290
+    },
+    {
+      "epoch": 19.360225140712945,
+      "grad_norm": 0.012564655988299225,
+      "learning_rate": 2.6380294113514943e-09,
+      "loss": 0.4139,
+      "step": 1291
+    },
+    {
+      "epoch": 19.375234521575987,
+      "grad_norm": 0.012477001425241382,
+      "learning_rate": 2.459306448638676e-09,
+      "loss": 0.405,
+      "step": 1292
+    },
+    {
+      "epoch": 19.390243902439025,
+      "grad_norm": 0.01206388735700181,
+      "learning_rate": 2.2868443614082468e-09,
+      "loss": 0.4231,
+      "step": 1293
+    },
+    {
+      "epoch": 19.405253283302063,
+      "grad_norm": 0.012208171675223407,
+      "learning_rate": 2.1206442320858e-09,
+      "loss": 0.4005,
+      "step": 1294
+    },
+    {
+      "epoch": 19.420262664165104,
+      "grad_norm": 0.012153451875566665,
+      "learning_rate": 1.960707103795034e-09,
+      "loss": 0.4028,
+      "step": 1295
+    },
+    {
+      "epoch": 19.435272045028142,
+      "grad_norm": 0.012279486741819839,
+      "learning_rate": 1.8070339803509804e-09,
+      "loss": 0.4057,
+      "step": 1296
+    },
+    {
+      "epoch": 19.45028142589118,
+      "grad_norm": 0.012000294004781479,
+      "learning_rate": 1.6596258262541184e-09,
+      "loss": 0.4097,
+      "step": 1297
+    },
+    {
+      "epoch": 19.465290806754222,
+      "grad_norm": 0.012492834461960383,
+      "learning_rate": 1.5184835666838258e-09,
+      "loss": 0.4173,
+      "step": 1298
+    },
+    {
+      "epoch": 19.48030018761726,
+      "grad_norm": 0.012299822720232542,
+      "learning_rate": 1.3836080874926047e-09,
+      "loss": 0.4092,
+      "step": 1299
+    },
+    {
+      "epoch": 19.4953095684803,
+      "grad_norm": 0.01218733011356003,
+      "learning_rate": 1.2550002352010868e-09,
+      "loss": 0.4218,
+      "step": 1300
+    },
+    {
+      "epoch": 19.51031894934334,
+      "grad_norm": 0.012042960770651666,
+      "learning_rate": 1.1326608169920371e-09,
+      "loss": 0.3959,
+      "step": 1301
+    },
+    {
+      "epoch": 19.525328330206378,
+      "grad_norm": 0.011997398364275975,
+      "learning_rate": 1.0165906007056912e-09,
+      "loss": 0.4166,
+      "step": 1302
+    },
+    {
+      "epoch": 19.54033771106942,
+      "grad_norm": 0.012305321109405035,
+      "learning_rate": 9.067903148348711e-10,
+      "loss": 0.4087,
+      "step": 1303
+    },
+    {
+      "epoch": 19.555347091932457,
+      "grad_norm": 0.012014818503486962,
+      "learning_rate": 8.032606485200988e-10,
+      "loss": 0.4154,
+      "step": 1304
+    },
+    {
+      "epoch": 19.570356472795496,
+      "grad_norm": 0.01251044844330409,
+      "learning_rate": 7.060022515460451e-10,
+      "loss": 0.4102,
+      "step": 1305
+    },
+    {
+      "epoch": 19.585365853658537,
+      "grad_norm": 0.012008572784907577,
+      "learning_rate": 6.150157343364215e-10,
+      "loss": 0.4152,
+      "step": 1306
+    },
+    {
+      "epoch": 19.600375234521575,
+      "grad_norm": 0.012287338325467436,
+      "learning_rate": 5.303016679509831e-10,
+      "loss": 0.3981,
+      "step": 1307
+    },
+    {
+      "epoch": 19.615384615384617,
+      "grad_norm": 0.012267724291012534,
+      "learning_rate": 4.518605840815315e-10,
+      "loss": 0.4135,
+      "step": 1308
+    },
+    {
+      "epoch": 19.630393996247655,
+      "grad_norm": 0.011809176076779143,
+      "learning_rate": 3.7969297504858443e-10,
+      "loss": 0.3975,
+      "step": 1309
+    },
+    {
+      "epoch": 19.645403377110693,
+      "grad_norm": 0.012294547435049158,
+      "learning_rate": 3.1379929379871104e-10,
+      "loss": 0.4003,
+      "step": 1310
+    },
+    {
+      "epoch": 19.660412757973734,
+      "grad_norm": 0.011704232467770586,
+      "learning_rate": 2.541799539008682e-10,
+      "loss": 0.4041,
+      "step": 1311
+    },
+    {
+      "epoch": 19.675422138836772,
+      "grad_norm": 0.011850331991569664,
+      "learning_rate": 2.0083532954484618e-10,
+      "loss": 0.404,
+      "step": 1312
+    },
+    {
+      "epoch": 19.690431519699814,
+      "grad_norm": 0.011944977782669314,
+      "learning_rate": 1.5376575553793793e-10,
+      "loss": 0.3907,
+      "step": 1313
+    },
+    {
+      "epoch": 19.705440900562852,
+      "grad_norm": 0.012277893048513143,
+      "learning_rate": 1.1297152730338489e-10,
+      "loss": 0.4192,
+      "step": 1314
+    },
+    {
+      "epoch": 19.72045028142589,
+      "grad_norm": 0.012179141361100891,
+      "learning_rate": 7.845290087848954e-11,
+      "loss": 0.4054,
+      "step": 1315
+    },
+    {
+      "epoch": 19.735459662288932,
+      "grad_norm": 0.012034350217278049,
+      "learning_rate": 5.0210092912950087e-11,
+      "loss": 0.4143,
+      "step": 1316
+    },
+    {
+      "epoch": 19.75046904315197,
+      "grad_norm": 0.012006277883402618,
+      "learning_rate": 2.824328066730608e-11,
+      "loss": 0.3977,
+      "step": 1317
+    },
+    {
+      "epoch": 19.765478424015008,
+      "grad_norm": 0.011954480700150845,
+      "learning_rate": 1.255260201216135e-11,
+      "loss": 0.3968,
+      "step": 1318
+    },
+    {
+      "epoch": 19.78048780487805,
+      "grad_norm": 0.01235198314980799,
+      "learning_rate": 3.138155427073741e-12,
+      "loss": 0.4071,
+      "step": 1319
+    },
+    {
+      "epoch": 19.795497185741088,
+      "grad_norm": 0.012063710602907587,
+      "learning_rate": 0.0,
+      "loss": 0.4101,
+      "step": 1320
+    },
+    {
+      "epoch": 19.795497185741088,
+      "eval_loss": 0.3939184844493866,
+      "eval_runtime": 14.1078,
+      "eval_samples_per_second": 31.685,
+      "eval_steps_per_second": 1.985,
+      "step": 1320
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1320,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 66,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1201839626256384.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}