{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 200,
  "global_step": 320,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00625,
      "grad_norm": 0.40599126920339407,
      "learning_rate": 3.125e-06,
      "loss": 0.508,
      "step": 1
    },
    {
      "epoch": 0.0125,
      "grad_norm": 0.16174971893093387,
      "learning_rate": 6.25e-06,
      "loss": 0.3989,
      "step": 2
    },
    {
      "epoch": 0.01875,
      "grad_norm": 0.13980982904548378,
      "learning_rate": 9.375000000000001e-06,
      "loss": 0.3526,
      "step": 3
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.27727799449785184,
      "learning_rate": 1.25e-05,
      "loss": 0.3927,
      "step": 4
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.1157104063128156,
      "learning_rate": 1.5625e-05,
      "loss": 0.3232,
      "step": 5
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.14945724236967864,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 0.3486,
      "step": 6
    },
    {
      "epoch": 0.04375,
      "grad_norm": 0.1806281329991288,
      "learning_rate": 2.1875e-05,
      "loss": 0.3894,
      "step": 7
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.16431928934147372,
      "learning_rate": 2.5e-05,
      "loss": 0.3606,
      "step": 8
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.15979437230246274,
      "learning_rate": 2.8125000000000003e-05,
      "loss": 0.3323,
      "step": 9
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.2004445206673931,
      "learning_rate": 3.125e-05,
      "loss": 0.3689,
      "step": 10
    },
    {
      "epoch": 0.06875,
      "grad_norm": 0.20835456635890684,
      "learning_rate": 3.4375e-05,
      "loss": 0.3825,
      "step": 11
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.18507055166360947,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.3368,
      "step": 12
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.21673005959559813,
      "learning_rate": 4.0625000000000005e-05,
      "loss": 0.3345,
      "step": 13
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.17167000281963693,
      "learning_rate": 4.375e-05,
      "loss": 0.3176,
      "step": 14
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.19654075830086185,
      "learning_rate": 4.6875e-05,
      "loss": 0.3136,
      "step": 15
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.16056560874254397,
      "learning_rate": 5e-05,
      "loss": 0.2986,
      "step": 16
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.14196579272732793,
      "learning_rate": 5.3125000000000004e-05,
      "loss": 0.2691,
      "step": 17
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.15400147007847648,
      "learning_rate": 5.6250000000000005e-05,
      "loss": 0.3044,
      "step": 18
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.10944808517977976,
      "learning_rate": 5.9375e-05,
      "loss": 0.232,
      "step": 19
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.11702109032620692,
      "learning_rate": 6.25e-05,
      "loss": 0.237,
      "step": 20
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.13599177017428848,
      "learning_rate": 6.562500000000001e-05,
      "loss": 0.2708,
      "step": 21
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.10113783542128998,
      "learning_rate": 6.875e-05,
      "loss": 0.2334,
      "step": 22
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.07723777905374925,
      "learning_rate": 7.1875e-05,
      "loss": 0.1994,
      "step": 23
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.08703618197718174,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.2253,
      "step": 24
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.11206045033884303,
      "learning_rate": 7.8125e-05,
      "loss": 0.2677,
      "step": 25
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.08484274071341459,
      "learning_rate": 8.125000000000001e-05,
      "loss": 0.1909,
      "step": 26
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.13523622669439594,
      "learning_rate": 8.4375e-05,
      "loss": 0.2352,
      "step": 27
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.0979564733902834,
      "learning_rate": 8.75e-05,
      "loss": 0.2312,
      "step": 28
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.10257710940833924,
      "learning_rate": 9.062500000000001e-05,
      "loss": 0.2571,
      "step": 29
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.09612386608372053,
      "learning_rate": 9.375e-05,
      "loss": 0.2181,
      "step": 30
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.08223867478377872,
      "learning_rate": 9.687500000000001e-05,
      "loss": 0.1768,
      "step": 31
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.08986243609911292,
      "learning_rate": 0.0001,
      "loss": 0.1995,
      "step": 32
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.22662504165100472,
      "learning_rate": 9.999702525000749e-05,
      "loss": 0.2344,
      "step": 33
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.11694951154367994,
      "learning_rate": 9.998810135399546e-05,
      "loss": 0.1581,
      "step": 34
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.10469730042736397,
      "learning_rate": 9.997322937381829e-05,
      "loss": 0.2129,
      "step": 35
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.09098907134196822,
      "learning_rate": 9.99524110790929e-05,
      "loss": 0.1837,
      "step": 36
    },
    {
      "epoch": 0.23125,
      "grad_norm": 0.10818262125011802,
      "learning_rate": 9.992564894698816e-05,
      "loss": 0.1881,
      "step": 37
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.09073616923032347,
      "learning_rate": 9.989294616193017e-05,
      "loss": 0.1837,
      "step": 38
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.08876555004490387,
      "learning_rate": 9.985430661522333e-05,
      "loss": 0.1918,
      "step": 39
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.1046229015794259,
      "learning_rate": 9.980973490458728e-05,
      "loss": 0.1823,
      "step": 40
    },
    {
      "epoch": 0.25625,
      "grad_norm": 0.10749279775724821,
      "learning_rate": 9.975923633360985e-05,
      "loss": 0.2191,
      "step": 41
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.07655181308042079,
      "learning_rate": 9.970281691111598e-05,
      "loss": 0.1671,
      "step": 42
    },
    {
      "epoch": 0.26875,
      "grad_norm": 0.06987142581471417,
      "learning_rate": 9.964048335045275e-05,
      "loss": 0.1445,
      "step": 43
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.08578476236740849,
      "learning_rate": 9.957224306869053e-05,
      "loss": 0.1883,
      "step": 44
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.08735769756820697,
      "learning_rate": 9.949810418574039e-05,
      "loss": 0.1912,
      "step": 45
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.08454191122193365,
      "learning_rate": 9.941807552338804e-05,
      "loss": 0.1781,
      "step": 46
    },
    {
      "epoch": 0.29375,
      "grad_norm": 0.07561417915639863,
      "learning_rate": 9.933216660424395e-05,
      "loss": 0.1741,
      "step": 47
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.0908845677740239,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.1862,
      "step": 48
    },
    {
      "epoch": 0.30625,
      "grad_norm": 0.08957984885995234,
      "learning_rate": 9.914274958326505e-05,
      "loss": 0.1948,
      "step": 49
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.06721787175218842,
      "learning_rate": 9.903926402016153e-05,
      "loss": 0.1387,
      "step": 50
    },
    {
      "epoch": 0.31875,
      "grad_norm": 0.07776287708078782,
      "learning_rate": 9.892994327504693e-05,
      "loss": 0.1897,
      "step": 51
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.0792915804134436,
      "learning_rate": 9.881480035599667e-05,
      "loss": 0.1878,
      "step": 52
    },
    {
      "epoch": 0.33125,
      "grad_norm": 0.11195588138897727,
      "learning_rate": 9.869384896386668e-05,
      "loss": 0.194,
      "step": 53
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.10744243347143223,
      "learning_rate": 9.856710349066307e-05,
      "loss": 0.1881,
      "step": 54
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.1162711120696835,
      "learning_rate": 9.843457901782967e-05,
      "loss": 0.2129,
      "step": 55
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.08320344631618402,
      "learning_rate": 9.829629131445342e-05,
      "loss": 0.187,
      "step": 56
    },
    {
      "epoch": 0.35625,
      "grad_norm": 0.08853925634789721,
      "learning_rate": 9.815225683538814e-05,
      "loss": 0.1952,
      "step": 57
    },
    {
      "epoch": 0.3625,
      "grad_norm": 0.08064278407146641,
      "learning_rate": 9.800249271929645e-05,
      "loss": 0.1722,
      "step": 58
    },
    {
      "epoch": 0.36875,
      "grad_norm": 0.08627992209736293,
      "learning_rate": 9.784701678661045e-05,
      "loss": 0.1852,
      "step": 59
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.08472663945575681,
      "learning_rate": 9.768584753741134e-05,
      "loss": 0.1861,
      "step": 60
    },
    {
      "epoch": 0.38125,
      "grad_norm": 0.0706516311545354,
      "learning_rate": 9.751900414922805e-05,
      "loss": 0.1681,
      "step": 61
    },
    {
      "epoch": 0.3875,
      "grad_norm": 0.07830536169386694,
      "learning_rate": 9.73465064747553e-05,
      "loss": 0.1768,
      "step": 62
    },
    {
      "epoch": 0.39375,
      "grad_norm": 0.07870447814947025,
      "learning_rate": 9.716837503949127e-05,
      "loss": 0.1592,
      "step": 63
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.11475798771048969,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.2007,
      "step": 64
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.09295937705194224,
      "learning_rate": 9.67952963378663e-05,
      "loss": 0.1499,
      "step": 65
    },
    {
      "epoch": 0.4125,
      "grad_norm": 0.09326386653332064,
      "learning_rate": 9.660039346413994e-05,
      "loss": 0.1702,
      "step": 66
    },
    {
      "epoch": 0.41875,
      "grad_norm": 0.08131260921217849,
      "learning_rate": 9.639994560960923e-05,
      "loss": 0.172,
      "step": 67
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.07365872216537292,
      "learning_rate": 9.619397662556435e-05,
      "loss": 0.1363,
      "step": 68
    },
    {
      "epoch": 0.43125,
      "grad_norm": 0.0834833164127378,
      "learning_rate": 9.598251102025461e-05,
      "loss": 0.1664,
      "step": 69
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.07655054737496132,
      "learning_rate": 9.576557395597236e-05,
      "loss": 0.1439,
      "step": 70
    },
    {
      "epoch": 0.44375,
      "grad_norm": 0.09641298517325338,
      "learning_rate": 9.554319124605879e-05,
      "loss": 0.1526,
      "step": 71
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07985464053948435,
      "learning_rate": 9.53153893518325e-05,
      "loss": 0.1514,
      "step": 72
    },
    {
      "epoch": 0.45625,
      "grad_norm": 0.08227789931433875,
      "learning_rate": 9.508219537944081e-05,
      "loss": 0.1481,
      "step": 73
    },
    {
      "epoch": 0.4625,
      "grad_norm": 0.07992014265398506,
      "learning_rate": 9.484363707663442e-05,
      "loss": 0.1552,
      "step": 74
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.08428886519848619,
      "learning_rate": 9.459974282946571e-05,
      "loss": 0.1533,
      "step": 75
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.07999237487858113,
      "learning_rate": 9.435054165891109e-05,
      "loss": 0.15,
      "step": 76
    },
    {
      "epoch": 0.48125,
      "grad_norm": 0.08663635431835072,
      "learning_rate": 9.409606321741775e-05,
      "loss": 0.1633,
      "step": 77
    },
    {
      "epoch": 0.4875,
      "grad_norm": 0.10421286796237919,
      "learning_rate": 9.38363377853754e-05,
      "loss": 0.1675,
      "step": 78
    },
    {
      "epoch": 0.49375,
      "grad_norm": 0.08371956698091174,
      "learning_rate": 9.357139626751308e-05,
      "loss": 0.1649,
      "step": 79
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.11576971658648634,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.1818,
      "step": 80
    },
    {
      "epoch": 0.50625,
      "grad_norm": 0.09180205457837495,
      "learning_rate": 9.302599169280395e-05,
      "loss": 0.1535,
      "step": 81
    },
    {
      "epoch": 0.5125,
      "grad_norm": 0.11143842983351335,
      "learning_rate": 9.274559353364734e-05,
      "loss": 0.1573,
      "step": 82
    },
    {
      "epoch": 0.51875,
      "grad_norm": 0.08382222694709042,
      "learning_rate": 9.246010907632895e-05,
      "loss": 0.1552,
      "step": 83
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.08169820823619627,
      "learning_rate": 9.21695722906443e-05,
      "loss": 0.1348,
      "step": 84
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.09264402945807464,
      "learning_rate": 9.18740177475654e-05,
      "loss": 0.1541,
      "step": 85
    },
    {
      "epoch": 0.5375,
      "grad_norm": 0.12035173607425367,
      "learning_rate": 9.157348061512727e-05,
      "loss": 0.1584,
      "step": 86
    },
    {
      "epoch": 0.54375,
      "grad_norm": 0.0933034733005768,
      "learning_rate": 9.126799665424319e-05,
      "loss": 0.1558,
      "step": 87
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.09983789678085002,
      "learning_rate": 9.09576022144496e-05,
      "loss": 0.178,
      "step": 88
    },
    {
      "epoch": 0.55625,
      "grad_norm": 0.08824386686645358,
      "learning_rate": 9.064233422958077e-05,
      "loss": 0.1382,
      "step": 89
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.12496408760397422,
      "learning_rate": 9.032223021337414e-05,
      "loss": 0.2028,
      "step": 90
    },
    {
      "epoch": 0.56875,
      "grad_norm": 0.08896745045700023,
      "learning_rate": 8.999732825500648e-05,
      "loss": 0.1564,
      "step": 91
    },
    {
      "epoch": 0.575,
      "grad_norm": 0.1051267783567327,
      "learning_rate": 8.966766701456177e-05,
      "loss": 0.1748,
      "step": 92
    },
    {
      "epoch": 0.58125,
      "grad_norm": 0.1068446272490391,
      "learning_rate": 8.933328571843084e-05,
      "loss": 0.166,
      "step": 93
    },
    {
      "epoch": 0.5875,
      "grad_norm": 0.09693703827165154,
      "learning_rate": 8.899422415464409e-05,
      "loss": 0.1371,
      "step": 94
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.11397584234437574,
      "learning_rate": 8.865052266813685e-05,
      "loss": 0.1695,
      "step": 95
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08309347621522221,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.1397,
      "step": 96
    },
    {
      "epoch": 0.60625,
      "grad_norm": 0.09441073972154676,
      "learning_rate": 8.79493640623581e-05,
      "loss": 0.1475,
      "step": 97
    },
    {
      "epoch": 0.6125,
      "grad_norm": 0.10017885648608761,
      "learning_rate": 8.759199037394887e-05,
      "loss": 0.1455,
      "step": 98
    },
    {
      "epoch": 0.61875,
      "grad_norm": 0.09389095525738553,
      "learning_rate": 8.723014361461632e-05,
      "loss": 0.155,
      "step": 99
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.08794088850259763,
      "learning_rate": 8.68638668405062e-05,
      "loss": 0.14,
      "step": 100
    },
    {
      "epoch": 0.63125,
      "grad_norm": 0.08768231254617773,
      "learning_rate": 8.649320363489179e-05,
      "loss": 0.1268,
      "step": 101
    },
    {
      "epoch": 0.6375,
      "grad_norm": 0.10989824440042859,
      "learning_rate": 8.611819810298778e-05,
      "loss": 0.174,
      "step": 102
    },
    {
      "epoch": 0.64375,
      "grad_norm": 0.09207703015396494,
      "learning_rate": 8.573889486670233e-05,
      "loss": 0.1314,
      "step": 103
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.10433836170510401,
      "learning_rate": 8.535533905932738e-05,
      "loss": 0.1563,
      "step": 104
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.1394424066715557,
      "learning_rate": 8.496757632016836e-05,
      "loss": 0.2076,
      "step": 105
    },
    {
      "epoch": 0.6625,
      "grad_norm": 0.09605746900221901,
      "learning_rate": 8.457565278911348e-05,
      "loss": 0.1516,
      "step": 106
    },
    {
      "epoch": 0.66875,
      "grad_norm": 0.09934008188904551,
      "learning_rate": 8.417961510114356e-05,
      "loss": 0.163,
      "step": 107
    },
    {
      "epoch": 0.675,
      "grad_norm": 0.096551403883122,
      "learning_rate": 8.377951038078302e-05,
      "loss": 0.1351,
      "step": 108
    },
    {
      "epoch": 0.68125,
      "grad_norm": 0.09261714349099234,
      "learning_rate": 8.337538623649237e-05,
      "loss": 0.1181,
      "step": 109
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.09869545197682032,
      "learning_rate": 8.296729075500344e-05,
      "loss": 0.1404,
      "step": 110
    },
    {
      "epoch": 0.69375,
      "grad_norm": 0.17566063934542003,
      "learning_rate": 8.255527249559746e-05,
      "loss": 0.1746,
      "step": 111
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.11448964041640074,
      "learning_rate": 8.213938048432697e-05,
      "loss": 0.1724,
      "step": 112
    },
    {
      "epoch": 0.70625,
      "grad_norm": 0.09940589194936707,
      "learning_rate": 8.171966420818228e-05,
      "loss": 0.1469,
      "step": 113
    },
    {
      "epoch": 0.7125,
      "grad_norm": 0.09560062944611337,
      "learning_rate": 8.129617360920296e-05,
      "loss": 0.1692,
      "step": 114
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.11078503759259131,
      "learning_rate": 8.086895907853526e-05,
      "loss": 0.145,
      "step": 115
    },
    {
      "epoch": 0.725,
      "grad_norm": 0.10258735833050488,
      "learning_rate": 8.043807145043604e-05,
      "loss": 0.1401,
      "step": 116
    },
    {
      "epoch": 0.73125,
      "grad_norm": 0.09522206054276056,
      "learning_rate": 8.000356199622405e-05,
      "loss": 0.1289,
      "step": 117
    },
    {
      "epoch": 0.7375,
      "grad_norm": 0.13908178309980257,
      "learning_rate": 7.956548241817912e-05,
      "loss": 0.1191,
      "step": 118
    },
    {
      "epoch": 0.74375,
      "grad_norm": 0.10074203716975204,
      "learning_rate": 7.912388484339012e-05,
      "loss": 0.1679,
      "step": 119
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.09900042130140317,
      "learning_rate": 7.86788218175523e-05,
      "loss": 0.1455,
      "step": 120
    },
    {
      "epoch": 0.75625,
      "grad_norm": 0.09784130256143893,
      "learning_rate": 7.823034629871503e-05,
      "loss": 0.1387,
      "step": 121
    },
    {
      "epoch": 0.7625,
      "grad_norm": 0.10874950463645312,
      "learning_rate": 7.777851165098012e-05,
      "loss": 0.1595,
      "step": 122
    },
    {
      "epoch": 0.76875,
      "grad_norm": 0.108024736321919,
      "learning_rate": 7.732337163815217e-05,
      "loss": 0.1591,
      "step": 123
    },
    {
      "epoch": 0.775,
      "grad_norm": 0.10774049198035004,
      "learning_rate": 7.68649804173412e-05,
      "loss": 0.1623,
      "step": 124
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.1071299904224286,
      "learning_rate": 7.64033925325184e-05,
      "loss": 0.155,
      "step": 125
    },
    {
      "epoch": 0.7875,
      "grad_norm": 0.1000917142455837,
      "learning_rate": 7.593866290802608e-05,
      "loss": 0.1524,
      "step": 126
    },
    {
      "epoch": 0.79375,
      "grad_norm": 0.10821955303820206,
      "learning_rate": 7.54708468420421e-05,
      "loss": 0.1599,
      "step": 127
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.09585433780364112,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.1554,
      "step": 128
    },
    {
      "epoch": 0.80625,
      "grad_norm": 0.12861896583829888,
      "learning_rate": 7.45261784079654e-05,
      "loss": 0.1538,
      "step": 129
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.09906883135040825,
      "learning_rate": 7.404943844596939e-05,
      "loss": 0.1525,
      "step": 130
    },
    {
      "epoch": 0.81875,
      "grad_norm": 0.09731521778705561,
      "learning_rate": 7.35698368412999e-05,
      "loss": 0.1478,
      "step": 131
    },
    {
      "epoch": 0.825,
      "grad_norm": 0.09827888495925427,
      "learning_rate": 7.308743066175172e-05,
      "loss": 0.1484,
      "step": 132
    },
    {
      "epoch": 0.83125,
      "grad_norm": 0.09864917828015088,
      "learning_rate": 7.2602277308836e-05,
      "loss": 0.124,
      "step": 133
    },
    {
      "epoch": 0.8375,
      "grad_norm": 0.1002828586258035,
      "learning_rate": 7.211443451095007e-05,
      "loss": 0.1422,
      "step": 134
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.10620289407411102,
      "learning_rate": 7.162396031650831e-05,
      "loss": 0.1488,
      "step": 135
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.09917275385305373,
      "learning_rate": 7.113091308703498e-05,
      "loss": 0.1227,
      "step": 136
    },
    {
      "epoch": 0.85625,
      "grad_norm": 0.09676283023246729,
      "learning_rate": 7.063535149021973e-05,
      "loss": 0.1397,
      "step": 137
    },
    {
      "epoch": 0.8625,
      "grad_norm": 0.10405765108275118,
      "learning_rate": 7.013733449293687e-05,
      "loss": 0.1489,
      "step": 138
    },
    {
      "epoch": 0.86875,
      "grad_norm": 0.11729246349725461,
      "learning_rate": 6.96369213542287e-05,
      "loss": 0.1625,
      "step": 139
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.11001117463075423,
      "learning_rate": 6.91341716182545e-05,
      "loss": 0.1575,
      "step": 140
    },
    {
      "epoch": 0.88125,
      "grad_norm": 0.09836686384061544,
      "learning_rate": 6.862914510720515e-05,
      "loss": 0.1367,
      "step": 141
    },
    {
      "epoch": 0.8875,
      "grad_norm": 0.09762698241197115,
      "learning_rate": 6.812190191418508e-05,
      "loss": 0.1269,
      "step": 142
    },
    {
      "epoch": 0.89375,
      "grad_norm": 0.11873455243886127,
      "learning_rate": 6.761250239606169e-05,
      "loss": 0.1653,
      "step": 143
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.11143312549675602,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.163,
      "step": 144
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.10224042656105548,
      "learning_rate": 6.658747708766762e-05,
      "loss": 0.1372,
      "step": 145
    },
    {
      "epoch": 0.9125,
      "grad_norm": 0.10537786627093436,
      "learning_rate": 6.607197326515808e-05,
      "loss": 0.1666,
      "step": 146
    },
    {
      "epoch": 0.91875,
      "grad_norm": 0.11598573107229065,
      "learning_rate": 6.555455703855454e-05,
      "loss": 0.1608,
      "step": 147
    },
    {
      "epoch": 0.925,
      "grad_norm": 0.09995067555095581,
      "learning_rate": 6.503528997521366e-05,
      "loss": 0.1358,
      "step": 148
    },
    {
      "epoch": 0.93125,
      "grad_norm": 0.1013311198834551,
      "learning_rate": 6.451423386272312e-05,
      "loss": 0.1467,
      "step": 149
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.12955305425483832,
      "learning_rate": 6.399145070154961e-05,
      "loss": 0.1602,
      "step": 150
    },
    {
      "epoch": 0.94375,
      "grad_norm": 0.11967014014153346,
      "learning_rate": 6.346700269766132e-05,
      "loss": 0.1491,
      "step": 151
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09715431421285034,
      "learning_rate": 6.294095225512603e-05,
      "loss": 0.1503,
      "step": 152
    },
    {
      "epoch": 0.95625,
      "grad_norm": 0.0993416996456672,
      "learning_rate": 6.241336196868582e-05,
      "loss": 0.1394,
      "step": 153
    },
    {
      "epoch": 0.9625,
      "grad_norm": 0.11282985988320719,
      "learning_rate": 6.188429461630866e-05,
      "loss": 0.1471,
      "step": 154
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.0953828839581251,
      "learning_rate": 6.135381315171867e-05,
      "loss": 0.1163,
      "step": 155
    },
    {
      "epoch": 0.975,
      "grad_norm": 0.10585616381949887,
      "learning_rate": 6.0821980696905146e-05,
      "loss": 0.1414,
      "step": 156
    },
    {
      "epoch": 0.98125,
      "grad_norm": 0.10303380839923655,
      "learning_rate": 6.0288860534611745e-05,
      "loss": 0.1371,
      "step": 157
    },
    {
      "epoch": 0.9875,
      "grad_norm": 0.10581039986719955,
      "learning_rate": 5.9754516100806423e-05,
      "loss": 0.1591,
      "step": 158
    },
    {
      "epoch": 0.99375,
      "grad_norm": 0.08949422220549504,
      "learning_rate": 5.9219010977133173e-05,
      "loss": 0.1136,
      "step": 159
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2566631074675719,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.1355,
      "step": 160
    },
    {
      "epoch": 1.00625,
      "grad_norm": 0.10977904119859523,
      "learning_rate": 5.814477366972945e-05,
      "loss": 0.1389,
      "step": 161
    },
    {
      "epoch": 1.0125,
      "grad_norm": 0.09358588046249755,
      "learning_rate": 5.7606169309495836e-05,
      "loss": 0.1278,
      "step": 162
    },
    {
      "epoch": 1.01875,
      "grad_norm": 0.1016639716973101,
      "learning_rate": 5.706665989117839e-05,
      "loss": 0.1266,
      "step": 163
    },
    {
      "epoch": 1.025,
      "grad_norm": 0.10447824270529592,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 0.1344,
      "step": 164
    },
    {
      "epoch": 1.03125,
      "grad_norm": 0.09539752784620499,
      "learning_rate": 5.5985182765248126e-05,
      "loss": 0.11,
      "step": 165
    },
    {
      "epoch": 1.0375,
      "grad_norm": 0.09870524777017345,
      "learning_rate": 5.544334374259823e-05,
      "loss": 0.1177,
      "step": 166
    },
    {
      "epoch": 1.04375,
      "grad_norm": 0.1319083652806534,
      "learning_rate": 5.490085701647805e-05,
      "loss": 0.1519,
      "step": 167
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.11490589915219332,
      "learning_rate": 5.435778713738292e-05,
      "loss": 0.1388,
      "step": 168
    },
    {
      "epoch": 1.05625,
      "grad_norm": 0.10960359392101734,
      "learning_rate": 5.381419872519763e-05,
      "loss": 0.1315,
      "step": 169
    },
    {
      "epoch": 1.0625,
      "grad_norm": 0.11911874080836313,
      "learning_rate": 5.327015646150716e-05,
      "loss": 0.1513,
      "step": 170
    },
    {
      "epoch": 1.06875,
      "grad_norm": 0.11667323294115564,
      "learning_rate": 5.2725725081900325e-05,
      "loss": 0.1265,
      "step": 171
    },
    {
      "epoch": 1.075,
      "grad_norm": 0.12009873927124597,
      "learning_rate": 5.218096936826681e-05,
      "loss": 0.1346,
      "step": 172
    },
    {
      "epoch": 1.08125,
      "grad_norm": 0.1096220905597413,
      "learning_rate": 5.1635954141088813e-05,
      "loss": 0.1129,
      "step": 173
    },
    {
      "epoch": 1.0875,
      "grad_norm": 0.10881175717833912,
      "learning_rate": 5.1090744251728064e-05,
      "loss": 0.1031,
      "step": 174
    },
    {
      "epoch": 1.09375,
      "grad_norm": 0.13152370066828684,
      "learning_rate": 5.054540457470912e-05,
      "loss": 0.1093,
      "step": 175
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.1363760209998771,
      "learning_rate": 5e-05,
      "loss": 0.1283,
      "step": 176
    },
    {
      "epoch": 1.10625,
      "grad_norm": 0.11792037030369434,
      "learning_rate": 4.945459542529089e-05,
      "loss": 0.1163,
      "step": 177
    },
    {
      "epoch": 1.1125,
      "grad_norm": 0.1291497029388642,
      "learning_rate": 4.890925574827195e-05,
      "loss": 0.1188,
      "step": 178
    },
    {
      "epoch": 1.11875,
      "grad_norm": 0.15349633438432128,
      "learning_rate": 4.83640458589112e-05,
      "loss": 0.1742,
      "step": 179
    },
    {
      "epoch": 1.125,
      "grad_norm": 0.13584411062076804,
      "learning_rate": 4.781903063173321e-05,
      "loss": 0.1217,
      "step": 180
    },
    {
      "epoch": 1.13125,
      "grad_norm": 0.11830432386637907,
      "learning_rate": 4.727427491809968e-05,
      "loss": 0.1047,
      "step": 181
    },
    {
      "epoch": 1.1375,
      "grad_norm": 0.13406559358836506,
      "learning_rate": 4.6729843538492847e-05,
      "loss": 0.1288,
      "step": 182
    },
    {
      "epoch": 1.14375,
      "grad_norm": 0.12419804398498213,
      "learning_rate": 4.618580127480238e-05,
      "loss": 0.1123,
      "step": 183
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.11882741893557454,
      "learning_rate": 4.564221286261709e-05,
      "loss": 0.1096,
      "step": 184
    },
    {
      "epoch": 1.15625,
      "grad_norm": 0.13277371284528894,
      "learning_rate": 4.509914298352197e-05,
      "loss": 0.1237,
      "step": 185
    },
    {
      "epoch": 1.1625,
      "grad_norm": 0.13106816929984538,
      "learning_rate": 4.4556656257401786e-05,
      "loss": 0.1256,
      "step": 186
    },
    {
      "epoch": 1.16875,
      "grad_norm": 0.10042628903496502,
      "learning_rate": 4.4014817234751885e-05,
      "loss": 0.087,
      "step": 187
    },
    {
      "epoch": 1.175,
      "grad_norm": 0.12858065744554853,
      "learning_rate": 4.347369038899744e-05,
      "loss": 0.132,
      "step": 188
    },
    {
      "epoch": 1.18125,
      "grad_norm": 0.13353933963282785,
      "learning_rate": 4.2933340108821644e-05,
      "loss": 0.1342,
      "step": 189
    },
    {
      "epoch": 1.1875,
      "grad_norm": 0.12535560223690698,
      "learning_rate": 4.239383069050417e-05,
      "loss": 0.1144,
      "step": 190
    },
    {
      "epoch": 1.19375,
      "grad_norm": 0.11919252614077346,
      "learning_rate": 4.185522633027057e-05,
      "loss": 0.11,
      "step": 191
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.12595711384481822,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.1256,
      "step": 192
    },
    {
      "epoch": 1.20625,
      "grad_norm": 0.140189285907938,
      "learning_rate": 4.078098902286683e-05,
      "loss": 0.1387,
      "step": 193
    },
    {
      "epoch": 1.2125,
      "grad_norm": 0.188759066767972,
      "learning_rate": 4.0245483899193595e-05,
      "loss": 0.1154,
      "step": 194
    },
    {
      "epoch": 1.21875,
      "grad_norm": 0.12510322910576527,
      "learning_rate": 3.971113946538826e-05,
      "loss": 0.1277,
      "step": 195
    },
    {
      "epoch": 1.225,
      "grad_norm": 0.13577535319914885,
      "learning_rate": 3.917801930309486e-05,
      "loss": 0.1245,
      "step": 196
    },
    {
      "epoch": 1.23125,
      "grad_norm": 0.11279041105321824,
      "learning_rate": 3.864618684828134e-05,
      "loss": 0.1149,
      "step": 197
    },
    {
      "epoch": 1.2375,
      "grad_norm": 0.11597618526997733,
      "learning_rate": 3.8115705383691355e-05,
      "loss": 0.1137,
      "step": 198
    },
    {
      "epoch": 1.24375,
      "grad_norm": 0.21159784242538673,
      "learning_rate": 3.758663803131418e-05,
      "loss": 0.1411,
      "step": 199
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.12706926447242534,
      "learning_rate": 3.705904774487396e-05,
      "loss": 0.117,
      "step": 200
    },
    {
      "epoch": 1.25,
      "eval_loss": 0.13555637001991272,
      "eval_runtime": 15.1829,
      "eval_samples_per_second": 0.461,
      "eval_steps_per_second": 0.132,
      "step": 200
    },
    {
      "epoch": 1.25625,
      "grad_norm": 0.140712680168253,
      "learning_rate": 3.65329973023387e-05,
      "loss": 0.1317,
      "step": 201
    },
    {
      "epoch": 1.2625,
      "grad_norm": 0.14063508556547588,
      "learning_rate": 3.60085492984504e-05,
      "loss": 0.1485,
      "step": 202
    },
    {
      "epoch": 1.26875,
      "grad_norm": 0.12420246892648465,
      "learning_rate": 3.5485766137276894e-05,
      "loss": 0.127,
      "step": 203
    },
    {
      "epoch": 1.275,
      "grad_norm": 0.1375293323917167,
      "learning_rate": 3.4964710024786354e-05,
      "loss": 0.1298,
      "step": 204
    },
    {
      "epoch": 1.28125,
      "grad_norm": 0.12567976945004108,
      "learning_rate": 3.4445442961445464e-05,
      "loss": 0.1218,
      "step": 205
    },
    {
      "epoch": 1.2875,
      "grad_norm": 0.10902064060724474,
      "learning_rate": 3.392802673484193e-05,
      "loss": 0.0911,
      "step": 206
    },
    {
      "epoch": 1.29375,
      "grad_norm": 0.1299840428381004,
      "learning_rate": 3.341252291233241e-05,
      "loss": 0.1105,
      "step": 207
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.14686027926986012,
      "learning_rate": 3.289899283371657e-05,
      "loss": 0.157,
      "step": 208
    },
    {
      "epoch": 1.30625,
      "grad_norm": 0.13310525982308075,
      "learning_rate": 3.2387497603938326e-05,
      "loss": 0.1167,
      "step": 209
    },
    {
      "epoch": 1.3125,
      "grad_norm": 0.23056279523041534,
      "learning_rate": 3.1878098085814924e-05,
      "loss": 0.1267,
      "step": 210
    },
    {
      "epoch": 1.31875,
      "grad_norm": 0.13379086959343525,
      "learning_rate": 3.137085489279485e-05,
      "loss": 0.1405,
      "step": 211
    },
    {
      "epoch": 1.325,
      "grad_norm": 0.16429012844656798,
      "learning_rate": 3.086582838174551e-05,
      "loss": 0.1454,
      "step": 212
    },
    {
      "epoch": 1.33125,
      "grad_norm": 0.1472540477988046,
      "learning_rate": 3.0363078645771303e-05,
      "loss": 0.1228,
      "step": 213
    },
    {
      "epoch": 1.3375,
      "grad_norm": 0.12810467911662524,
      "learning_rate": 2.9862665507063147e-05,
      "loss": 0.1155,
      "step": 214
    },
    {
      "epoch": 1.34375,
      "grad_norm": 0.1349885611023629,
      "learning_rate": 2.936464850978027e-05,
      "loss": 0.114,
      "step": 215
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2226264712891022,
      "learning_rate": 2.886908691296504e-05,
      "loss": 0.131,
      "step": 216
    },
    {
      "epoch": 1.35625,
      "grad_norm": 0.14284289832580171,
      "learning_rate": 2.8376039683491686e-05,
      "loss": 0.118,
      "step": 217
    },
    {
      "epoch": 1.3625,
      "grad_norm": 0.14670574239643006,
      "learning_rate": 2.7885565489049946e-05,
      "loss": 0.1206,
      "step": 218
    },
    {
      "epoch": 1.36875,
      "grad_norm": 0.13807081126340223,
      "learning_rate": 2.7397722691164018e-05,
      "loss": 0.1196,
      "step": 219
    },
    {
      "epoch": 1.375,
      "grad_norm": 0.1414426520091727,
      "learning_rate": 2.6912569338248315e-05,
      "loss": 0.1257,
      "step": 220
    },
    {
      "epoch": 1.38125,
      "grad_norm": 0.12974232596021115,
      "learning_rate": 2.6430163158700115e-05,
      "loss": 0.1078,
      "step": 221
    },
    {
      "epoch": 1.3875,
      "grad_norm": 0.12697025279359767,
      "learning_rate": 2.595056155403063e-05,
      "loss": 0.1039,
      "step": 222
    },
    {
      "epoch": 1.39375,
      "grad_norm": 0.1291839881974509,
      "learning_rate": 2.54738215920346e-05,
      "loss": 0.1044,
      "step": 223
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.13740214702279938,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.1152,
      "step": 224
    },
    {
      "epoch": 1.40625,
      "grad_norm": 0.1384802768122724,
      "learning_rate": 2.4529153157957913e-05,
      "loss": 0.1234,
      "step": 225
    },
    {
      "epoch": 1.4125,
      "grad_norm": 0.13354781137733693,
      "learning_rate": 2.4061337091973918e-05,
      "loss": 0.1193,
      "step": 226
    },
    {
      "epoch": 1.41875,
      "grad_norm": 0.1771648365806598,
      "learning_rate": 2.3596607467481603e-05,
      "loss": 0.1452,
      "step": 227
    },
    {
      "epoch": 1.425,
      "grad_norm": 0.11638362220378876,
      "learning_rate": 2.3135019582658802e-05,
      "loss": 0.0936,
      "step": 228
    },
    {
      "epoch": 1.43125,
      "grad_norm": 0.13555782216280093,
      "learning_rate": 2.2676628361847836e-05,
      "loss": 0.1194,
      "step": 229
    },
    {
      "epoch": 1.4375,
      "grad_norm": 0.13796797972293184,
      "learning_rate": 2.2221488349019903e-05,
      "loss": 0.1328,
      "step": 230
    },
    {
      "epoch": 1.44375,
      "grad_norm": 0.12977028041039126,
      "learning_rate": 2.176965370128498e-05,
      "loss": 0.1079,
      "step": 231
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.13740927778792686,
      "learning_rate": 2.132117818244771e-05,
      "loss": 0.1225,
      "step": 232
    },
    {
      "epoch": 1.45625,
      "grad_norm": 0.15309969236799242,
      "learning_rate": 2.08761151566099e-05,
      "loss": 0.1521,
      "step": 233
    },
    {
      "epoch": 1.4625,
      "grad_norm": 0.16080840678597888,
      "learning_rate": 2.0434517581820896e-05,
      "loss": 0.1214,
      "step": 234
    },
    {
      "epoch": 1.46875,
      "grad_norm": 0.1462626524834281,
      "learning_rate": 1.999643800377596e-05,
      "loss": 0.1305,
      "step": 235
    },
    {
      "epoch": 1.475,
      "grad_norm": 0.13708479721295597,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 0.1259,
      "step": 236
    },
    {
      "epoch": 1.48125,
      "grad_norm": 0.14485439862293895,
      "learning_rate": 1.913104092146476e-05,
      "loss": 0.1313,
      "step": 237
    },
    {
      "epoch": 1.4875,
      "grad_norm": 0.1305624984599595,
      "learning_rate": 1.8703826390797048e-05,
      "loss": 0.1082,
      "step": 238
    },
    {
      "epoch": 1.49375,
      "grad_norm": 0.12983841773778187,
      "learning_rate": 1.8280335791817733e-05,
      "loss": 0.1254,
      "step": 239
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.1305817772014699,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 0.0976,
      "step": 240
    },
    {
      "epoch": 1.50625,
      "grad_norm": 0.13523687056968922,
      "learning_rate": 1.7444727504402553e-05,
      "loss": 0.118,
      "step": 241
    },
    {
      "epoch": 1.5125,
      "grad_norm": 0.13276802064818327,
      "learning_rate": 1.703270924499656e-05,
      "loss": 0.1221,
      "step": 242
    },
    {
      "epoch": 1.51875,
      "grad_norm": 0.14813379345753966,
      "learning_rate": 1.662461376350764e-05,
      "loss": 0.1415,
      "step": 243
    },
    {
      "epoch": 1.525,
      "grad_norm": 0.1373736965280858,
      "learning_rate": 1.622048961921699e-05,
      "loss": 0.1241,
      "step": 244
    },
    {
      "epoch": 1.53125,
      "grad_norm": 0.12987502342407337,
      "learning_rate": 1.5820384898856434e-05,
      "loss": 0.1109,
      "step": 245
    },
    {
      "epoch": 1.5375,
      "grad_norm": 0.14097871387133398,
      "learning_rate": 1.5424347210886538e-05,
      "loss": 0.1171,
      "step": 246
    },
    {
      "epoch": 1.54375,
      "grad_norm": 0.12911360333125718,
      "learning_rate": 1.5032423679831642e-05,
      "loss": 0.1087,
      "step": 247
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.13452146268445594,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 0.1228,
      "step": 248
    },
    {
      "epoch": 1.55625,
      "grad_norm": 0.16983759281577876,
      "learning_rate": 1.4261105133297692e-05,
      "loss": 0.1217,
      "step": 249
    },
    {
      "epoch": 1.5625,
      "grad_norm": 0.13444059283520182,
      "learning_rate": 1.3881801897012225e-05,
      "loss": 0.1114,
      "step": 250
    },
    {
      "epoch": 1.56875,
      "grad_norm": 0.12954454455265535,
      "learning_rate": 1.3506796365108232e-05,
      "loss": 0.1022,
      "step": 251
    },
    {
      "epoch": 1.575,
      "grad_norm": 0.17591202784634585,
      "learning_rate": 1.3136133159493802e-05,
      "loss": 0.1114,
      "step": 252
    },
    {
      "epoch": 1.58125,
      "grad_norm": 0.1321105098614603,
      "learning_rate": 1.2769856385383688e-05,
      "loss": 0.1183,
      "step": 253
    },
    {
      "epoch": 1.5875,
      "grad_norm": 0.1432184606258264,
      "learning_rate": 1.2408009626051137e-05,
      "loss": 0.1152,
      "step": 254
    },
    {
      "epoch": 1.59375,
      "grad_norm": 0.1652313311913505,
      "learning_rate": 1.2050635937641908e-05,
      "loss": 0.0925,
      "step": 255
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.1363797254860259,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 0.1283,
      "step": 256
    },
    {
      "epoch": 1.60625,
      "grad_norm": 0.14243039726380746,
      "learning_rate": 1.134947733186315e-05,
      "loss": 0.13,
      "step": 257
    },
    {
      "epoch": 1.6125,
      "grad_norm": 0.1407260083641188,
      "learning_rate": 1.100577584535592e-05,
      "loss": 0.1107,
      "step": 258
    },
    {
      "epoch": 1.61875,
      "grad_norm": 0.1359874658608621,
      "learning_rate": 1.0666714281569151e-05,
      "loss": 0.1061,
      "step": 259
    },
    {
      "epoch": 1.625,
      "grad_norm": 0.1619598596563152,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 0.1151,
      "step": 260
    },
    {
      "epoch": 1.63125,
      "grad_norm": 0.14589312780062294,
      "learning_rate": 1.000267174499352e-05,
      "loss": 0.1288,
      "step": 261
    },
    {
      "epoch": 1.6375,
      "grad_norm": 0.1448713969935771,
      "learning_rate": 9.677769786625867e-06,
      "loss": 0.1096,
      "step": 262
    },
    {
      "epoch": 1.64375,
      "grad_norm": 0.15204585922412353,
      "learning_rate": 9.357665770419244e-06,
      "loss": 0.0998,
      "step": 263
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.132551181762264,
      "learning_rate": 9.042397785550405e-06,
      "loss": 0.1083,
      "step": 264
    },
    {
      "epoch": 1.65625,
      "grad_norm": 0.17245754726915724,
      "learning_rate": 8.732003345756811e-06,
      "loss": 0.118,
      "step": 265
    },
    {
      "epoch": 1.6625,
      "grad_norm": 0.13788212679850506,
      "learning_rate": 8.426519384872733e-06,
      "loss": 0.1088,
      "step": 266
    },
    {
      "epoch": 1.66875,
      "grad_norm": 0.16823545202946685,
      "learning_rate": 8.125982252434611e-06,
      "loss": 0.1239,
      "step": 267
    },
    {
      "epoch": 1.675,
      "grad_norm": 0.13554434267304058,
      "learning_rate": 7.830427709355725e-06,
      "loss": 0.1164,
      "step": 268
    },
    {
      "epoch": 1.68125,
      "grad_norm": 0.12270084667138997,
      "learning_rate": 7.539890923671062e-06,
      "loss": 0.0855,
      "step": 269
    },
    {
      "epoch": 1.6875,
      "grad_norm": 0.1610350461050514,
      "learning_rate": 7.2544064663526815e-06,
      "loss": 0.1395,
      "step": 270
    },
    {
      "epoch": 1.69375,
      "grad_norm": 0.13371983154995107,
      "learning_rate": 6.974008307196056e-06,
      "loss": 0.1081,
      "step": 271
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.15579745002988243,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.1358,
      "step": 272
    },
    {
      "epoch": 1.70625,
      "grad_norm": 0.13901889620059626,
      "learning_rate": 6.428603732486937e-06,
      "loss": 0.1208,
      "step": 273
    },
    {
      "epoch": 1.7125,
      "grad_norm": 0.15932824101956905,
      "learning_rate": 6.163662214624616e-06,
      "loss": 0.1208,
      "step": 274
    },
    {
      "epoch": 1.71875,
      "grad_norm": 0.14809539420100104,
      "learning_rate": 5.903936782582253e-06,
      "loss": 0.0961,
      "step": 275
    },
    {
      "epoch": 1.725,
      "grad_norm": 0.14762764130305206,
      "learning_rate": 5.649458341088915e-06,
      "loss": 0.1328,
      "step": 276
    },
    {
      "epoch": 1.73125,
      "grad_norm": 0.14698627279133403,
      "learning_rate": 5.400257170534295e-06,
      "loss": 0.1137,
      "step": 277
    },
    {
      "epoch": 1.7375,
      "grad_norm": 0.12766172584371513,
      "learning_rate": 5.156362923365588e-06,
      "loss": 0.0963,
      "step": 278
    },
    {
      "epoch": 1.74375,
      "grad_norm": 0.15550557920695354,
      "learning_rate": 4.917804620559202e-06,
      "loss": 0.1299,
      "step": 279
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.13371200089329044,
      "learning_rate": 4.684610648167503e-06,
      "loss": 0.1003,
      "step": 280
    },
    {
      "epoch": 1.75625,
      "grad_norm": 0.19718769962541566,
      "learning_rate": 4.456808753941205e-06,
      "loss": 0.1005,
      "step": 281
    },
    {
      "epoch": 1.7625,
      "grad_norm": 0.14609277866526107,
      "learning_rate": 4.234426044027645e-06,
      "loss": 0.1184,
      "step": 282
    },
    {
      "epoch": 1.76875,
      "grad_norm": 0.13846373587108526,
      "learning_rate": 4.017488979745387e-06,
      "loss": 0.1083,
      "step": 283
    },
    {
      "epoch": 1.775,
      "grad_norm": 0.16152586345422645,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 0.1349,
      "step": 284
    },
    {
      "epoch": 1.78125,
      "grad_norm": 0.15220108167136218,
      "learning_rate": 3.600054390390778e-06,
      "loss": 0.1189,
      "step": 285
    },
    {
      "epoch": 1.7875,
      "grad_norm": 0.14825944302091063,
      "learning_rate": 3.3996065358600782e-06,
      "loss": 0.1124,
      "step": 286
    },
    {
      "epoch": 1.79375,
      "grad_norm": 0.17101334397597814,
      "learning_rate": 3.2047036621337236e-06,
      "loss": 0.1242,
      "step": 287
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.15468868193258223,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 0.1269,
      "step": 288
    },
    {
      "epoch": 1.80625,
      "grad_norm": 0.13742574401888047,
      "learning_rate": 2.8316249605087386e-06,
      "loss": 0.108,
      "step": 289
    },
    {
      "epoch": 1.8125,
      "grad_norm": 0.12723180285999527,
      "learning_rate": 2.653493525244721e-06,
      "loss": 0.104,
      "step": 290
    },
    {
      "epoch": 1.81875,
      "grad_norm": 0.15299833624657141,
      "learning_rate": 2.4809958507719444e-06,
      "loss": 0.1227,
      "step": 291
    },
    {
      "epoch": 1.825,
      "grad_norm": 0.153187221540368,
      "learning_rate": 2.314152462588659e-06,
      "loss": 0.1122,
      "step": 292
    },
    {
      "epoch": 1.83125,
      "grad_norm": 0.1566217766687287,
      "learning_rate": 2.152983213389559e-06,
      "loss": 0.1206,
      "step": 293
    },
    {
      "epoch": 1.8375,
      "grad_norm": 0.1619426370013769,
      "learning_rate": 1.99750728070357e-06,
      "loss": 0.0849,
      "step": 294
    },
    {
      "epoch": 1.84375,
      "grad_norm": 0.1440771616743465,
      "learning_rate": 1.8477431646118648e-06,
      "loss": 0.1168,
      "step": 295
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1266403405941791,
      "learning_rate": 1.70370868554659e-06,
      "loss": 0.1002,
      "step": 296
    },
    {
      "epoch": 1.85625,
      "grad_norm": 0.14490235679395352,
      "learning_rate": 1.565420982170346e-06,
      "loss": 0.1204,
      "step": 297
    },
    {
      "epoch": 1.8625,
      "grad_norm": 0.14214631954361082,
      "learning_rate": 1.4328965093369283e-06,
      "loss": 0.1052,
      "step": 298
    },
    {
      "epoch": 1.86875,
      "grad_norm": 0.15125342239263603,
      "learning_rate": 1.3061510361333185e-06,
      "loss": 0.1185,
      "step": 299
    },
    {
      "epoch": 1.875,
      "grad_norm": 0.14873736163107223,
      "learning_rate": 1.1851996440033319e-06,
      "loss": 0.1372,
      "step": 300
    },
    {
      "epoch": 1.88125,
      "grad_norm": 0.15823839872382495,
      "learning_rate": 1.0700567249530834e-06,
      "loss": 0.1374,
      "step": 301
    },
    {
      "epoch": 1.8875,
      "grad_norm": 0.1477147886939706,
      "learning_rate": 9.607359798384785e-07,
      "loss": 0.1265,
      "step": 302
    },
    {
      "epoch": 1.89375,
      "grad_norm": 0.149870799299156,
      "learning_rate": 8.572504167349449e-07,
      "loss": 0.1156,
      "step": 303
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.13907104929191907,
      "learning_rate": 7.596123493895991e-07,
      "loss": 0.1131,
      "step": 304
    },
    {
      "epoch": 1.90625,
      "grad_norm": 0.1438881017950769,
      "learning_rate": 6.678333957560512e-07,
      "loss": 0.1212,
      "step": 305
    },
    {
      "epoch": 1.9125,
      "grad_norm": 0.14174173341102103,
      "learning_rate": 5.81924476611967e-07,
      "loss": 0.1249,
      "step": 306
    },
    {
      "epoch": 1.91875,
      "grad_norm": 0.1409441874264998,
      "learning_rate": 5.018958142596065e-07,
      "loss": 0.1123,
      "step": 307
    },
    {
      "epoch": 1.925,
      "grad_norm": 0.16658637594296666,
      "learning_rate": 4.277569313094809e-07,
      "loss": 0.1017,
      "step": 308
    },
    {
      "epoch": 1.93125,
      "grad_norm": 0.1767438653947937,
      "learning_rate": 3.59516649547248e-07,
      "loss": 0.1265,
      "step": 309
    },
    {
      "epoch": 1.9375,
      "grad_norm": 0.15957908409005475,
      "learning_rate": 2.971830888840177e-07,
      "loss": 0.139,
      "step": 310
    },
    {
      "epoch": 1.94375,
      "grad_norm": 0.13358713671440797,
      "learning_rate": 2.407636663901591e-07,
      "loss": 0.1015,
      "step": 311
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.14596552013446734,
      "learning_rate": 1.9026509541272275e-07,
      "loss": 0.1294,
      "step": 312
    },
    {
      "epoch": 1.95625,
      "grad_norm": 0.15582989274250142,
      "learning_rate": 1.4569338477666838e-07,
      "loss": 0.1282,
      "step": 313
    },
    {
      "epoch": 1.9625,
      "grad_norm": 0.14404601592111216,
      "learning_rate": 1.0705383806982606e-07,
      "loss": 0.1103,
      "step": 314
    },
    {
      "epoch": 1.96875,
      "grad_norm": 0.1591129940081992,
      "learning_rate": 7.43510530118452e-08,
      "loss": 0.1114,
      "step": 315
    },
    {
      "epoch": 1.975,
      "grad_norm": 0.14377087428625243,
      "learning_rate": 4.7588920907110094e-08,
      "loss": 0.1202,
      "step": 316
    },
    {
      "epoch": 1.98125,
      "grad_norm": 0.14890980505746196,
      "learning_rate": 2.6770626181715773e-08,
      "loss": 0.1172,
      "step": 317
    },
    {
      "epoch": 1.9875,
      "grad_norm": 0.1536343383847314,
      "learning_rate": 1.189864600454338e-08,
      "loss": 0.1239,
      "step": 318
    },
    {
      "epoch": 1.99375,
      "grad_norm": 0.15806075985905502,
      "learning_rate": 2.974749992512571e-09,
      "loss": 0.1275,
      "step": 319
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.14605676768659354,
      "learning_rate": 0.0,
      "loss": 0.1243,
      "step": 320
    },
    {
      "epoch": 2.0,
      "step": 320,
      "total_flos": 1567061767618560.0,
      "train_loss": 0.15366401586215944,
      "train_runtime": 5710.924,
      "train_samples_per_second": 0.224,
      "train_steps_per_second": 0.056
    }
  ],
  "logging_steps": 1,
  "max_steps": 320,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 300,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1567061767618560.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}