{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.983132530120482,
  "eval_steps": 20,
  "global_step": 255,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03855421686746988,
      "grad_norm": 2.0457221564142256,
      "learning_rate": 3.846153846153847e-07,
      "loss": 0.2354,
      "mean_token_accuracy": 0.930065356194973,
      "num_tokens": 131072.0,
      "step": 2
    },
    {
      "epoch": 0.07710843373493977,
      "grad_norm": 2.1086974646270145,
      "learning_rate": 1.153846153846154e-06,
      "loss": 0.2508,
      "mean_token_accuracy": 0.9255465492606163,
      "num_tokens": 262144.0,
      "step": 4
    },
    {
      "epoch": 0.11566265060240964,
      "grad_norm": 1.698182282959437,
      "learning_rate": 1.9230769230769234e-06,
      "loss": 0.2473,
      "mean_token_accuracy": 0.9256381466984749,
      "num_tokens": 393216.0,
      "step": 6
    },
    {
      "epoch": 0.15421686746987953,
      "grad_norm": 1.4331583326698771,
      "learning_rate": 2.6923076923076923e-06,
      "loss": 0.2193,
      "mean_token_accuracy": 0.9314393177628517,
      "num_tokens": 524288.0,
      "step": 8
    },
    {
      "epoch": 0.1927710843373494,
      "grad_norm": 1.280978852144958,
      "learning_rate": 3.4615384615384617e-06,
      "loss": 0.2205,
      "mean_token_accuracy": 0.930450152605772,
      "num_tokens": 654484.0,
      "step": 10
    },
    {
      "epoch": 0.23132530120481928,
      "grad_norm": 0.8255955634911271,
      "learning_rate": 4.230769230769231e-06,
      "loss": 0.2117,
      "mean_token_accuracy": 0.9317141100764275,
      "num_tokens": 785556.0,
      "step": 12
    },
    {
      "epoch": 0.26987951807228916,
      "grad_norm": 0.7584680371226415,
      "learning_rate": 5e-06,
      "loss": 0.206,
      "mean_token_accuracy": 0.9338631108403206,
      "num_tokens": 915519.0,
      "step": 14
    },
    {
      "epoch": 0.30843373493975906,
      "grad_norm": 0.9495192852210463,
      "learning_rate": 5.769230769230769e-06,
      "loss": 0.1982,
      "mean_token_accuracy": 0.9358359947800636,
      "num_tokens": 1046591.0,
      "step": 16
    },
    {
      "epoch": 0.3469879518072289,
      "grad_norm": 0.9714974283482016,
      "learning_rate": 6.538461538461539e-06,
      "loss": 0.2055,
      "mean_token_accuracy": 0.9338132180273533,
      "num_tokens": 1177663.0,
      "step": 18
    },
    {
      "epoch": 0.3855421686746988,
      "grad_norm": 0.6339236056292388,
      "learning_rate": 7.307692307692308e-06,
      "loss": 0.1917,
      "mean_token_accuracy": 0.9378740377724171,
      "num_tokens": 1308735.0,
      "step": 20
    },
    {
      "epoch": 0.3855421686746988,
      "eval_loss": 0.3343917727470398,
      "eval_mean_token_accuracy": 0.9013295725127247,
      "eval_num_tokens": 1308735.0,
      "eval_runtime": 70.0593,
      "eval_samples_per_second": 12.204,
      "eval_steps_per_second": 1.527,
      "step": 20
    },
    {
      "epoch": 0.42409638554216866,
      "grad_norm": 0.7315888499202351,
      "learning_rate": 8.076923076923077e-06,
      "loss": 0.1809,
      "mean_token_accuracy": 0.9400189444422722,
      "num_tokens": 1439807.0,
      "step": 22
    },
    {
      "epoch": 0.46265060240963857,
      "grad_norm": 0.7642349616310066,
      "learning_rate": 8.846153846153847e-06,
      "loss": 0.1928,
      "mean_token_accuracy": 0.9367095269262791,
      "num_tokens": 1570062.0,
      "step": 24
    },
    {
      "epoch": 0.5012048192771085,
      "grad_norm": 0.6114978913375759,
      "learning_rate": 9.615384615384616e-06,
      "loss": 0.1828,
      "mean_token_accuracy": 0.9394693598151207,
      "num_tokens": 1701134.0,
      "step": 26
    },
    {
      "epoch": 0.5397590361445783,
      "grad_norm": 0.6229653774047121,
      "learning_rate": 9.999529497453782e-06,
      "loss": 0.1806,
      "mean_token_accuracy": 0.9402282536029816,
      "num_tokens": 1832133.0,
      "step": 28
    },
    {
      "epoch": 0.5783132530120482,
      "grad_norm": 0.6722415161460822,
      "learning_rate": 9.99576600836172e-06,
      "loss": 0.1896,
      "mean_token_accuracy": 0.9363855794072151,
      "num_tokens": 1963205.0,
      "step": 30
    },
    {
      "epoch": 0.6168674698795181,
      "grad_norm": 0.5974286474799401,
      "learning_rate": 9.988241863214212e-06,
      "loss": 0.1814,
      "mean_token_accuracy": 0.9404540322721004,
      "num_tokens": 2094277.0,
      "step": 32
    },
    {
      "epoch": 0.655421686746988,
      "grad_norm": 0.601035342701654,
      "learning_rate": 9.976962725951878e-06,
      "loss": 0.1801,
      "mean_token_accuracy": 0.9400342106819153,
      "num_tokens": 2225349.0,
      "step": 34
    },
    {
      "epoch": 0.6939759036144578,
      "grad_norm": 0.5765003488310966,
      "learning_rate": 9.961937087155697e-06,
      "loss": 0.1828,
      "mean_token_accuracy": 0.9392519034445286,
      "num_tokens": 2355263.0,
      "step": 36
    },
    {
      "epoch": 0.7325301204819277,
      "grad_norm": 34.52047518558373,
      "learning_rate": 9.943176257655567e-06,
      "loss": 0.2098,
      "mean_token_accuracy": 0.9331491328775883,
      "num_tokens": 2486335.0,
      "step": 38
    },
    {
      "epoch": 0.7710843373493976,
      "grad_norm": 0.6276699276820382,
      "learning_rate": 9.920694360015864e-06,
      "loss": 0.1745,
      "mean_token_accuracy": 0.9413929060101509,
      "num_tokens": 2617407.0,
      "step": 40
    },
    {
      "epoch": 0.7710843373493976,
      "eval_loss": 0.32280808687210083,
      "eval_mean_token_accuracy": 0.9021720039510281,
      "eval_num_tokens": 2617407.0,
      "eval_runtime": 69.6577,
      "eval_samples_per_second": 12.274,
      "eval_steps_per_second": 1.536,
      "step": 40
    },
    {
      "epoch": 0.8096385542168675,
      "grad_norm": 0.6015365123041743,
      "learning_rate": 9.894508317904418e-06,
      "loss": 0.1751,
      "mean_token_accuracy": 0.9412707760930061,
      "num_tokens": 2748479.0,
      "step": 42
    },
    {
      "epoch": 0.8481927710843373,
      "grad_norm": 0.6316203175238668,
      "learning_rate": 9.864637843352916e-06,
      "loss": 0.184,
      "mean_token_accuracy": 0.9374923817813396,
      "num_tokens": 2879551.0,
      "step": 44
    },
    {
      "epoch": 0.8867469879518072,
      "grad_norm": 0.5904610746669308,
      "learning_rate": 9.831105421918287e-06,
      "loss": 0.1777,
      "mean_token_accuracy": 0.9405580870807171,
      "num_tokens": 3010185.0,
      "step": 46
    },
    {
      "epoch": 0.9253012048192771,
      "grad_norm": 0.5994215271575196,
      "learning_rate": 9.793936295756292e-06,
      "loss": 0.187,
      "mean_token_accuracy": 0.9375152811408043,
      "num_tokens": 3141257.0,
      "step": 48
    },
    {
      "epoch": 0.963855421686747,
      "grad_norm": 0.5854742456446934,
      "learning_rate": 9.753158444620013e-06,
      "loss": 0.1815,
      "mean_token_accuracy": 0.9394976831972599,
      "num_tokens": 3271788.0,
      "step": 50
    },
    {
      "epoch": 1.0192771084337349,
      "grad_norm": 0.957499837849808,
      "learning_rate": 9.70880256479758e-06,
      "loss": 0.2534,
      "mean_token_accuracy": 0.9437652796506881,
      "num_tokens": 3435628.0,
      "step": 52
    },
    {
      "epoch": 1.0578313253012048,
      "grad_norm": 0.6854514205992324,
      "learning_rate": 9.660902046004954e-06,
      "loss": 0.151,
      "mean_token_accuracy": 0.9503083899617195,
      "num_tokens": 3566700.0,
      "step": 54
    },
    {
      "epoch": 1.0963855421686748,
      "grad_norm": 0.6080507225701574,
      "learning_rate": 9.60949294625121e-06,
      "loss": 0.1415,
      "mean_token_accuracy": 0.9535066671669483,
      "num_tokens": 3697772.0,
      "step": 56
    },
    {
      "epoch": 1.1349397590361445,
      "grad_norm": 0.6054065882233389,
      "learning_rate": 9.554613964695189e-06,
      "loss": 0.1493,
      "mean_token_accuracy": 0.9502549581229687,
      "num_tokens": 3828844.0,
      "step": 58
    },
    {
      "epoch": 1.1734939759036145,
      "grad_norm": 0.7694600057204949,
      "learning_rate": 9.496306412513989e-06,
      "loss": 0.1462,
      "mean_token_accuracy": 0.9519953094422817,
      "num_tokens": 3959916.0,
      "step": 60
    },
    {
      "epoch": 1.1734939759036145,
      "eval_loss": 0.359206885099411,
      "eval_mean_token_accuracy": 0.9007850846397543,
      "eval_num_tokens": 3959916.0,
      "eval_runtime": 69.8215,
      "eval_samples_per_second": 12.246,
      "eval_steps_per_second": 1.532,
      "step": 60
    },
    {
      "epoch": 1.2120481927710842,
      "grad_norm": 0.6845669867023433,
      "learning_rate": 9.434614181805203e-06,
      "loss": 0.1407,
      "mean_token_accuracy": 0.9533876590430737,
      "num_tokens": 4089879.0,
      "step": 62
    },
    {
      "epoch": 1.2506024096385542,
      "grad_norm": 0.6197114152379135,
      "learning_rate": 9.369583712546322e-06,
      "loss": 0.1349,
      "mean_token_accuracy": 0.9554836452007294,
      "num_tokens": 4220951.0,
      "step": 64
    },
    {
      "epoch": 1.2891566265060241,
      "grad_norm": 0.6172158164875755,
      "learning_rate": 9.30126395763618e-06,
      "loss": 0.1535,
      "mean_token_accuracy": 0.95006413012743,
      "num_tokens": 4352023.0,
      "step": 66
    },
    {
      "epoch": 1.3277108433734939,
      "grad_norm": 0.6409060214608714,
      "learning_rate": 9.229706346044749e-06,
      "loss": 0.156,
      "mean_token_accuracy": 0.9484306424856186,
      "num_tokens": 4483095.0,
      "step": 68
    },
    {
      "epoch": 1.3662650602409638,
      "grad_norm": 0.6166450609513697,
      "learning_rate": 9.154964744099006e-06,
      "loss": 0.1419,
      "mean_token_accuracy": 0.9533540047705173,
      "num_tokens": 4614167.0,
      "step": 70
    },
    {
      "epoch": 1.4048192771084338,
      "grad_norm": 0.6058092262037136,
      "learning_rate": 9.077095414934076e-06,
      "loss": 0.1439,
      "mean_token_accuracy": 0.9524685628712177,
      "num_tokens": 4745239.0,
      "step": 72
    },
    {
      "epoch": 1.4433734939759035,
      "grad_norm": 0.6464674278239464,
      "learning_rate": 8.996156976140088e-06,
      "loss": 0.1427,
      "mean_token_accuracy": 0.9521632380783558,
      "num_tokens": 4876311.0,
      "step": 74
    },
    {
      "epoch": 1.4819277108433735,
      "grad_norm": 0.6232124362016298,
      "learning_rate": 8.91221035563669e-06,
      "loss": 0.1387,
      "mean_token_accuracy": 0.9537738263607025,
      "num_tokens": 5007383.0,
      "step": 76
    },
    {
      "epoch": 1.5204819277108435,
      "grad_norm": 0.6251055517263481,
      "learning_rate": 8.82531874580844e-06,
      "loss": 0.1544,
      "mean_token_accuracy": 0.9496977403759956,
      "num_tokens": 5138455.0,
      "step": 78
    },
    {
      "epoch": 1.5590361445783132,
      "grad_norm": 0.6597130966145244,
      "learning_rate": 8.735547555935538e-06,
      "loss": 0.1467,
      "mean_token_accuracy": 0.951957143843174,
      "num_tokens": 5269527.0,
      "step": 80
    },
    {
      "epoch": 1.5590361445783132,
      "eval_loss": 0.34304243326187134,
      "eval_mean_token_accuracy": 0.9011661727851796,
      "eval_num_tokens": 5269527.0,
      "eval_runtime": 69.6573,
      "eval_samples_per_second": 12.274,
      "eval_steps_per_second": 1.536,
      "step": 80
    },
    {
      "epoch": 1.5975903614457831,
      "grad_norm": 0.6093216234766912,
      "learning_rate": 8.642964362955781e-06,
      "loss": 0.145,
      "mean_token_accuracy": 0.9515700563788414,
      "num_tokens": 5400161.0,
      "step": 82
    },
    {
      "epoch": 1.636144578313253,
      "grad_norm": 0.5687703380048487,
      "learning_rate": 8.547638860594765e-06,
      "loss": 0.1484,
      "mean_token_accuracy": 0.9509495720267296,
      "num_tokens": 5531233.0,
      "step": 84
    },
    {
      "epoch": 1.6746987951807228,
      "grad_norm": 0.6551898466798518,
      "learning_rate": 8.449642806902623e-06,
      "loss": 0.1568,
      "mean_token_accuracy": 0.9481558501720428,
      "num_tokens": 5662305.0,
      "step": 86
    },
    {
      "epoch": 1.7132530120481928,
      "grad_norm": 0.6433780292504243,
      "learning_rate": 8.349049970236822e-06,
      "loss": 0.1349,
      "mean_token_accuracy": 0.954715259373188,
      "num_tokens": 5792219.0,
      "step": 88
    },
    {
      "epoch": 1.7518072289156628,
      "grad_norm": 0.5701046312406493,
      "learning_rate": 8.245936073731654e-06,
      "loss": 0.147,
      "mean_token_accuracy": 0.9507969096302986,
      "num_tokens": 5923291.0,
      "step": 90
    },
    {
      "epoch": 1.7903614457831325,
      "grad_norm": 0.6865332623152001,
      "learning_rate": 8.140378738296233e-06,
      "loss": 0.1529,
      "mean_token_accuracy": 0.9498768150806427,
      "num_tokens": 6053822.0,
      "step": 92
    },
    {
      "epoch": 1.8289156626506025,
      "grad_norm": 0.6305307568855328,
      "learning_rate": 8.032457424183909e-06,
      "loss": 0.1476,
      "mean_token_accuracy": 0.9505984485149384,
      "num_tokens": 6184894.0,
      "step": 94
    },
    {
      "epoch": 1.8674698795180724,
      "grad_norm": 0.5748443476790706,
      "learning_rate": 7.922253371177081e-06,
      "loss": 0.155,
      "mean_token_accuracy": 0.9482144415378571,
      "num_tokens": 6315149.0,
      "step": 96
    },
    {
      "epoch": 1.9060240963855422,
      "grad_norm": 0.5993128969226361,
      "learning_rate": 7.809849537432432e-06,
      "loss": 0.1434,
      "mean_token_accuracy": 0.9525645859539509,
      "num_tokens": 6445345.0,
      "step": 98
    },
    {
      "epoch": 1.944578313253012,
      "grad_norm": 0.6280456904784001,
      "learning_rate": 7.695330537032629e-06,
      "loss": 0.1445,
      "mean_token_accuracy": 0.9512222707271576,
      "num_tokens": 6576344.0,
      "step": 100
    },
    {
      "epoch": 1.944578313253012,
      "eval_loss": 0.3398211598396301,
      "eval_mean_token_accuracy": 0.901328669530209,
      "eval_num_tokens": 6576344.0,
      "eval_runtime": 69.654,
      "eval_samples_per_second": 12.275,
      "eval_steps_per_second": 1.536,
      "step": 100
    },
    {
      "epoch": 1.983132530120482,
      "grad_norm": 0.6197902890500856,
      "learning_rate": 7.578782576291501e-06,
      "loss": 0.1506,
      "mean_token_accuracy": 0.9492092207074165,
      "num_tokens": 6707416.0,
      "step": 102
    },
    {
      "epoch": 2.0385542168674697,
      "grad_norm": 0.6409344863530665,
      "learning_rate": 7.460293388860616e-06,
      "loss": 0.1754,
      "mean_token_accuracy": 0.9643502771854401,
      "num_tokens": 6871256.0,
      "step": 104
    },
    {
      "epoch": 2.07710843373494,
      "grad_norm": 0.6097248296204885,
      "learning_rate": 7.3399521696861505e-06,
      "loss": 0.1092,
      "mean_token_accuracy": 0.9659219309687614,
      "num_tokens": 7002255.0,
      "step": 106
    },
    {
      "epoch": 2.1156626506024097,
      "grad_norm": 0.5903613108322504,
      "learning_rate": 7.217849507865724e-06,
      "loss": 0.1066,
      "mean_token_accuracy": 0.9660860486328602,
      "num_tokens": 7133327.0,
      "step": 108
    },
    {
      "epoch": 2.1542168674698794,
      "grad_norm": 0.625091072426359,
      "learning_rate": 7.094077318455762e-06,
      "loss": 0.1091,
      "mean_token_accuracy": 0.9645588099956512,
      "num_tokens": 7263523.0,
      "step": 110
    },
    {
      "epoch": 2.1927710843373496,
      "grad_norm": 0.6604015968164485,
      "learning_rate": 6.96872877328073e-06,
      "loss": 0.1052,
      "mean_token_accuracy": 0.9661929123103619,
      "num_tokens": 7394595.0,
      "step": 112
    },
    {
      "epoch": 2.2313253012048193,
      "grad_norm": 0.7455880093770229,
      "learning_rate": 6.841898230796302e-06,
      "loss": 0.1049,
      "mean_token_accuracy": 0.9661089479923248,
      "num_tokens": 7525667.0,
      "step": 114
    },
    {
      "epoch": 2.269879518072289,
      "grad_norm": 0.6028303919109465,
      "learning_rate": 6.713681165059271e-06,
      "loss": 0.1127,
      "mean_token_accuracy": 0.9631625637412071,
      "num_tokens": 7656739.0,
      "step": 116
    },
    {
      "epoch": 2.3084337349397592,
      "grad_norm": 0.6799912009709536,
      "learning_rate": 6.584174093857676e-06,
      "loss": 0.1035,
      "mean_token_accuracy": 0.9669562242925167,
      "num_tokens": 7787811.0,
      "step": 118
    },
    {
      "epoch": 2.346987951807229,
      "grad_norm": 0.6255570427114552,
      "learning_rate": 6.453474506055228e-06,
      "loss": 0.1176,
      "mean_token_accuracy": 0.9615787602961063,
      "num_tokens": 7916616.0,
      "step": 120
    },
    {
      "epoch": 2.346987951807229,
      "eval_loss": 0.38193774223327637,
      "eval_mean_token_accuracy": 0.8994210568543907,
      "eval_num_tokens": 7916616.0,
      "eval_runtime": 69.6436,
      "eval_samples_per_second": 12.277,
      "eval_steps_per_second": 1.536,
      "step": 120
    },
    {
      "epoch": 2.3855421686746987,
      "grad_norm": 0.6279356138996781,
      "learning_rate": 6.3216807882047585e-06,
      "loss": 0.0974,
      "mean_token_accuracy": 0.968185156583786,
      "num_tokens": 8047688.0,
      "step": 122
    },
    {
      "epoch": 2.4240963855421684,
      "grad_norm": 0.6479503216427691,
      "learning_rate": 6.188892150485904e-06,
      "loss": 0.1087,
      "mean_token_accuracy": 0.9651853404939175,
      "num_tokens": 8178760.0,
      "step": 124
    },
    {
      "epoch": 2.4626506024096386,
      "grad_norm": 0.7228376218883897,
      "learning_rate": 6.0552085520227875e-06,
      "loss": 0.1136,
      "mean_token_accuracy": 0.9631396643817425,
      "num_tokens": 8309832.0,
      "step": 126
    },
    {
      "epoch": 2.5012048192771084,
      "grad_norm": 0.6292530226739607,
      "learning_rate": 5.920730625637934e-06,
      "loss": 0.1043,
      "mean_token_accuracy": 0.9666203670203686,
      "num_tokens": 8440904.0,
      "step": 128
    },
    {
      "epoch": 2.539759036144578,
      "grad_norm": 0.6120273359022707,
      "learning_rate": 5.785559602099019e-06,
      "loss": 0.1073,
      "mean_token_accuracy": 0.9648876488208771,
      "num_tokens": 8571976.0,
      "step": 130
    },
    {
      "epoch": 2.5783132530120483,
      "grad_norm": 0.6294342722298523,
      "learning_rate": 5.649797233915539e-06,
      "loss": 0.1092,
      "mean_token_accuracy": 0.9644067622721195,
      "num_tokens": 8703048.0,
      "step": 132
    },
    {
      "epoch": 2.616867469879518,
      "grad_norm": 0.5665304014502571,
      "learning_rate": 5.513545718742702e-06,
      "loss": 0.1086,
      "mean_token_accuracy": 0.9646815545856953,
      "num_tokens": 8834120.0,
      "step": 134
    },
    {
      "epoch": 2.6554216867469878,
      "grad_norm": 0.5673111264101424,
      "learning_rate": 5.376907622450229e-06,
      "loss": 0.1154,
      "mean_token_accuracy": 0.9624109007418156,
      "num_tokens": 8964375.0,
      "step": 136
    },
    {
      "epoch": 2.693975903614458,
      "grad_norm": 0.5636466902202368,
      "learning_rate": 5.2399858019140005e-06,
      "loss": 0.1045,
      "mean_token_accuracy": 0.9666311480104923,
      "num_tokens": 9094906.0,
      "step": 138
    },
    {
      "epoch": 2.7325301204819277,
      "grad_norm": 0.5754464602822424,
      "learning_rate": 5.102883327588608e-06,
      "loss": 0.1075,
      "mean_token_accuracy": 0.9647044539451599,
      "num_tokens": 9225978.0,
      "step": 140
    },
    {
      "epoch": 2.7325301204819277,
      "eval_loss": 0.37826669216156006,
      "eval_mean_token_accuracy": 0.8995784972315637,
      "eval_num_tokens": 9225978.0,
      "eval_runtime": 69.6803,
      "eval_samples_per_second": 12.27,
      "eval_steps_per_second": 1.536,
      "step": 140
    },
    {
      "epoch": 2.7710843373493974,
      "grad_norm": 0.5987257906687522,
      "learning_rate": 4.965703405919154e-06,
      "loss": 0.1041,
      "mean_token_accuracy": 0.9660173505544662,
      "num_tokens": 9357050.0,
      "step": 142
    },
    {
      "epoch": 2.8096385542168676,
      "grad_norm": 0.6727909756019579,
      "learning_rate": 4.828549301650673e-06,
      "loss": 0.1165,
      "mean_token_accuracy": 0.9626206122338772,
      "num_tokens": 9488122.0,
      "step": 144
    },
    {
      "epoch": 2.8481927710843373,
      "grad_norm": 0.5483728501054262,
      "learning_rate": 4.691524260093672e-06,
      "loss": 0.1101,
      "mean_token_accuracy": 0.9640556387603283,
      "num_tokens": 9619194.0,
      "step": 146
    },
    {
      "epoch": 2.886746987951807,
      "grad_norm": 0.6578615356471254,
      "learning_rate": 4.554731429404293e-06,
      "loss": 0.1167,
      "mean_token_accuracy": 0.9623610861599445,
      "num_tokens": 9750266.0,
      "step": 148
    },
    {
      "epoch": 2.9253012048192772,
      "grad_norm": 0.544341897970942,
      "learning_rate": 4.4182737829376135e-06,
      "loss": 0.1068,
      "mean_token_accuracy": 0.965429600328207,
      "num_tokens": 9881338.0,
      "step": 150
    },
    {
      "epoch": 2.963855421686747,
      "grad_norm": 0.5807218274090602,
      "learning_rate": 4.28225404173254e-06,
      "loss": 0.1058,
      "mean_token_accuracy": 0.965176422148943,
      "num_tokens": 10011972.0,
      "step": 152
    },
    {
      "epoch": 3.019277108433735,
      "grad_norm": 1.007803950038667,
      "learning_rate": 4.146774597186622e-06,
      "loss": 0.1488,
      "mean_token_accuracy": 0.9695591181516647,
      "num_tokens": 10175812.0,
      "step": 154
    },
    {
      "epoch": 3.057831325301205,
      "grad_norm": 0.6613641201206724,
      "learning_rate": 4.011937433979014e-06,
      "loss": 0.0847,
      "mean_token_accuracy": 0.9746656753122807,
      "num_tokens": 10306884.0,
      "step": 156
    },
    {
      "epoch": 3.0963855421686746,
      "grad_norm": 0.5427167115705699,
      "learning_rate": 3.87784405329962e-06,
      "loss": 0.0838,
      "mean_token_accuracy": 0.9741344675421715,
      "num_tokens": 10437883.0,
      "step": 158
    },
    {
      "epoch": 3.1349397590361447,
      "grad_norm": 0.5059704125761413,
      "learning_rate": 3.744595396442169e-06,
      "loss": 0.0814,
      "mean_token_accuracy": 0.9750473313033581,
      "num_tokens": 10568955.0,
      "step": 160
    },
    {
      "epoch": 3.1349397590361447,
      "eval_loss": 0.4201391637325287,
      "eval_mean_token_accuracy": 0.8986482670374005,
      "eval_num_tokens": 10568955.0,
      "eval_runtime": 69.8903,
      "eval_samples_per_second": 12.233,
      "eval_steps_per_second": 1.531,
      "step": 160
    },
    {
      "epoch": 3.1734939759036145,
      "grad_norm": 0.4955524619584041,
      "learning_rate": 3.612291768818772e-06,
      "loss": 0.0827,
      "mean_token_accuracy": 0.9744977466762066,
      "num_tokens": 10700027.0,
      "step": 162
    },
    {
      "epoch": 3.212048192771084,
      "grad_norm": 0.5481909266796648,
      "learning_rate": 3.4810327644531606e-06,
      "loss": 0.0804,
      "mean_token_accuracy": 0.9746122434735298,
      "num_tokens": 10831099.0,
      "step": 164
    },
    {
      "epoch": 3.2506024096385544,
      "grad_norm": 0.5869274418415635,
      "learning_rate": 3.3509171910094162e-06,
      "loss": 0.0849,
      "mean_token_accuracy": 0.9735665060579777,
      "num_tokens": 10962171.0,
      "step": 166
    },
    {
      "epoch": 3.289156626506024,
      "grad_norm": 0.5997938570160334,
      "learning_rate": 3.222042995412669e-06,
      "loss": 0.0826,
      "mean_token_accuracy": 0.9744274839758873,
      "num_tokens": 11092367.0,
      "step": 168
    },
    {
      "epoch": 3.327710843373494,
      "grad_norm": 0.5638967234440626,
      "learning_rate": 3.094507190117715e-06,
      "loss": 0.0752,
      "mean_token_accuracy": 0.9760014712810516,
      "num_tokens": 11223439.0,
      "step": 170
    },
    {
      "epoch": 3.3662650602409636,
      "grad_norm": 0.5677450107311146,
      "learning_rate": 2.9684057800810844e-06,
      "loss": 0.0849,
      "mean_token_accuracy": 0.9734520092606544,
      "num_tokens": 11354511.0,
      "step": 172
    },
    {
      "epoch": 3.404819277108434,
      "grad_norm": 0.5694190125459168,
      "learning_rate": 2.8438336904915186e-06,
      "loss": 0.0907,
      "mean_token_accuracy": 0.9719940833747387,
      "num_tokens": 11485583.0,
      "step": 174
    },
    {
      "epoch": 3.4433734939759035,
      "grad_norm": 0.5008764813796651,
      "learning_rate": 2.7208846953132685e-06,
      "loss": 0.0782,
      "mean_token_accuracy": 0.9755356945097446,
      "num_tokens": 11616217.0,
      "step": 176
    },
    {
      "epoch": 3.4819277108433733,
      "grad_norm": 0.5027767263738213,
      "learning_rate": 2.599651346695979e-06,
      "loss": 0.0773,
      "mean_token_accuracy": 0.9762609973549843,
      "num_tokens": 11747289.0,
      "step": 178
    },
    {
      "epoch": 3.5204819277108435,
      "grad_norm": 0.5747857741850161,
      "learning_rate": 2.4802249053043525e-06,
      "loss": 0.0777,
      "mean_token_accuracy": 0.976215198636055,
      "num_tokens": 11878361.0,
      "step": 180
    },
    {
      "epoch": 3.5204819277108435,
      "eval_loss": 0.43149346113204956,
      "eval_mean_token_accuracy": 0.898219308563482,
      "eval_num_tokens": 11878361.0,
      "eval_runtime": 69.6743,
      "eval_samples_per_second": 12.271,
      "eval_steps_per_second": 1.536,
      "step": 180
    },
    {
      "epoch": 3.559036144578313,
      "grad_norm": 0.5115273312879999,
      "learning_rate": 2.3626952716199647e-06,
      "loss": 0.0792,
      "mean_token_accuracy": 0.9750167988240719,
      "num_tokens": 12009433.0,
      "step": 182
    },
    {
      "epoch": 3.597590361445783,
      "grad_norm": 0.5172911491980401,
      "learning_rate": 2.247150918267008e-06,
      "loss": 0.0851,
      "mean_token_accuracy": 0.9730398207902908,
      "num_tokens": 12140505.0,
      "step": 184
    },
    {
      "epoch": 3.636144578313253,
      "grad_norm": 0.5260093719963543,
      "learning_rate": 2.133678823412873e-06,
      "loss": 0.0797,
      "mean_token_accuracy": 0.9751236625015736,
      "num_tokens": 12271577.0,
      "step": 186
    },
    {
      "epoch": 3.674698795180723,
      "grad_norm": 0.5267292864138245,
      "learning_rate": 2.022364405293703e-06,
      "loss": 0.0832,
      "mean_token_accuracy": 0.9738947302103043,
      "num_tokens": 12402649.0,
      "step": 188
    },
    {
      "epoch": 3.7132530120481926,
      "grad_norm": 0.5065512725199254,
      "learning_rate": 1.913291457914234e-06,
      "loss": 0.0856,
      "mean_token_accuracy": 0.9732001163065434,
      "num_tokens": 12533721.0,
      "step": 190
    },
    {
      "epoch": 3.7518072289156628,
      "grad_norm": 0.5465242770321679,
      "learning_rate": 1.8065420879702888e-06,
      "loss": 0.0838,
      "mean_token_accuracy": 0.9731762520968914,
      "num_tokens": 12663435.0,
      "step": 192
    },
    {
      "epoch": 3.7903614457831325,
      "grad_norm": 0.7823063875533764,
      "learning_rate": 1.7021966530414303e-06,
      "loss": 0.0762,
      "mean_token_accuracy": 0.9758411757647991,
      "num_tokens": 12794507.0,
      "step": 194
    },
    {
      "epoch": 3.8289156626506022,
      "grad_norm": 0.571380544699335,
      "learning_rate": 1.6003337011002928e-06,
      "loss": 0.084,
      "mean_token_accuracy": 0.9734901748597622,
      "num_tokens": 12925579.0,
      "step": 196
    },
    {
      "epoch": 3.8674698795180724,
      "grad_norm": 0.5400258981871386,
      "learning_rate": 1.5010299113841397e-06,
      "loss": 0.0807,
      "mean_token_accuracy": 0.9752305261790752,
      "num_tokens": 13056651.0,
      "step": 198
    },
    {
      "epoch": 3.906024096385542,
      "grad_norm": 0.5204832843446408,
      "learning_rate": 1.4043600366731213e-06,
      "loss": 0.0821,
      "mean_token_accuracy": 0.9745206460356712,
      "num_tokens": 13187723.0,
      "step": 200
    },
    {
      "epoch": 3.906024096385542,
      "eval_loss": 0.43459072709083557,
      "eval_mean_token_accuracy": 0.8980461002510285,
      "eval_num_tokens": 13187723.0,
      "eval_runtime": 69.6812,
      "eval_samples_per_second": 12.27,
      "eval_steps_per_second": 1.536,
      "step": 200
    },
    {
      "epoch": 3.944578313253012,
      "grad_norm": 0.5732935867678565,
      "learning_rate": 1.3103968470187384e-06,
      "loss": 0.0841,
      "mean_token_accuracy": 0.973306454718113,
      "num_tokens": 13317686.0,
      "step": 202
    },
    {
      "epoch": 3.983132530120482,
      "grad_norm": 0.5049593156468802,
      "learning_rate": 1.2192110749648233e-06,
      "loss": 0.0783,
      "mean_token_accuracy": 0.9752342775464058,
      "num_tokens": 13447600.0,
      "step": 204
    },
    {
      "epoch": 4.03855421686747,
      "grad_norm": 0.4900616503984239,
      "learning_rate": 1.1308713623022988e-06,
      "loss": 0.1075,
      "mean_token_accuracy": 0.9786272644996643,
      "num_tokens": 13611440.0,
      "step": 206
    },
    {
      "epoch": 4.0771084337349395,
      "grad_norm": 0.4917129834327916,
      "learning_rate": 1.045444208397791e-06,
      "loss": 0.0676,
      "mean_token_accuracy": 0.9801687188446522,
      "num_tokens": 13740537.0,
      "step": 208
    },
    {
      "epoch": 4.11566265060241,
      "grad_norm": 0.47200516762524886,
      "learning_rate": 9.629939201349852e-07,
      "loss": 0.0723,
      "mean_token_accuracy": 0.9782837741076946,
      "num_tokens": 13871609.0,
      "step": 210
    },
    {
      "epoch": 4.15421686746988,
      "grad_norm": 0.44277012092487705,
      "learning_rate": 8.835825635064266e-07,
      "loss": 0.0729,
      "mean_token_accuracy": 0.9780853129923344,
      "num_tokens": 14002681.0,
      "step": 212
    },
    {
      "epoch": 4.192771084337349,
      "grad_norm": 0.4753962832603972,
      "learning_rate": 8.072699168921827e-07,
      "loss": 0.0749,
      "mean_token_accuracy": 0.9778944849967957,
      "num_tokens": 14133753.0,
      "step": 214
    },
    {
      "epoch": 4.231325301204819,
      "grad_norm": 0.48346978347475456,
      "learning_rate": 7.341134260605537e-07,
      "loss": 0.0692,
      "mean_token_accuracy": 0.9793745614588261,
      "num_tokens": 14264314.0,
      "step": 216
    },
    {
      "epoch": 4.2698795180722895,
      "grad_norm": 0.4328206037632282,
      "learning_rate": 6.641681609246981e-07,
      "loss": 0.066,
      "mean_token_accuracy": 0.9801309891045094,
      "num_tokens": 14395386.0,
      "step": 218
    },
    {
      "epoch": 4.308433734939759,
      "grad_norm": 0.46221534542018206,
      "learning_rate": 5.974867740877282e-07,
      "loss": 0.0696,
      "mean_token_accuracy": 0.9789478555321693,
      "num_tokens": 14526458.0,
      "step": 220
    },
    {
      "epoch": 4.308433734939759,
      "eval_loss": 0.4595886468887329,
      "eval_mean_token_accuracy": 0.897223442514366,
      "eval_num_tokens": 14526458.0,
      "eval_runtime": 69.6441,
      "eval_samples_per_second": 12.277,
      "eval_steps_per_second": 1.536,
      "step": 220
    },
    {
      "epoch": 4.346987951807229,
      "grad_norm": 0.4739286679144528,
      "learning_rate": 5.341194612074824e-07,
      "loss": 0.068,
      "mean_token_accuracy": 0.9796868488192558,
      "num_tokens": 14656421.0,
      "step": 222
    },
    {
      "epoch": 4.385542168674699,
      "grad_norm": 0.43096986690967987,
      "learning_rate": 4.7411392321080606e-07,
      "loss": 0.0663,
      "mean_token_accuracy": 0.9802683852612972,
      "num_tokens": 14787493.0,
      "step": 224
    },
    {
      "epoch": 4.424096385542168,
      "grad_norm": 0.46557922408208563,
      "learning_rate": 4.175153303857887e-07,
      "loss": 0.0654,
      "mean_token_accuracy": 0.9804821126163006,
      "num_tokens": 14918565.0,
      "step": 226
    },
    {
      "epoch": 4.462650602409639,
      "grad_norm": 0.5546707256189516,
      "learning_rate": 3.643662883789878e-07,
      "loss": 0.0673,
      "mean_token_accuracy": 0.979527972638607,
      "num_tokens": 15049637.0,
      "step": 228
    },
    {
      "epoch": 4.501204819277109,
      "grad_norm": 0.49021519394663,
      "learning_rate": 3.1470680612323503e-07,
      "loss": 0.07,
      "mean_token_accuracy": 0.9785585664212704,
      "num_tokens": 15180709.0,
      "step": 230
    },
    {
      "epoch": 4.539759036144578,
      "grad_norm": 0.45571708386475684,
      "learning_rate": 2.685742657201601e-07,
      "loss": 0.0697,
      "mean_token_accuracy": 0.9785204008221626,
      "num_tokens": 15311781.0,
      "step": 232
    },
    {
      "epoch": 4.578313253012048,
      "grad_norm": 0.5641008416839415,
      "learning_rate": 2.260033943001244e-07,
      "loss": 0.0663,
      "mean_token_accuracy": 0.9797416999936104,
      "num_tokens": 15442853.0,
      "step": 234
    },
    {
      "epoch": 4.6168674698795185,
      "grad_norm": 0.5607141029792978,
      "learning_rate": 1.8702623788072028e-07,
      "loss": 0.0793,
      "mean_token_accuracy": 0.9755663834512234,
      "num_tokens": 15573925.0,
      "step": 236
    },
    {
      "epoch": 4.655421686746988,
      "grad_norm": 0.46095439859311127,
      "learning_rate": 1.5167213724353426e-07,
      "loss": 0.0714,
      "mean_token_accuracy": 0.9779479168355465,
      "num_tokens": 15704997.0,
      "step": 238
    },
    {
      "epoch": 4.693975903614458,
      "grad_norm": 0.464368810663561,
      "learning_rate": 1.199677058473292e-07,
      "loss": 0.066,
      "mean_token_accuracy": 0.980153888463974,
      "num_tokens": 15836069.0,
      "step": 240
    },
    {
      "epoch": 4.693975903614458,
      "eval_loss": 0.46903374791145325,
      "eval_mean_token_accuracy": 0.8968599628065234,
      "eval_num_tokens": 15836069.0,
      "eval_runtime": 69.6558,
      "eval_samples_per_second": 12.275,
      "eval_steps_per_second": 1.536,
      "step": 240
    },
    {
      "epoch": 4.732530120481927,
      "grad_norm": 0.5162077757262011,
      "learning_rate": 9.193680979426189e-08,
      "loss": 0.0775,
      "mean_token_accuracy": 0.9764594584703445,
      "num_tokens": 15967141.0,
      "step": 242
    },
    {
      "epoch": 4.771084337349397,
      "grad_norm": 0.4482450270539155,
      "learning_rate": 6.760054986423459e-08,
      "loss": 0.0632,
      "mean_token_accuracy": 0.9808179698884487,
      "num_tokens": 16098213.0,
      "step": 244
    },
    {
      "epoch": 4.809638554216868,
      "grad_norm": 0.4698597407866022,
      "learning_rate": 4.697724563088646e-08,
      "loss": 0.0681,
      "mean_token_accuracy": 0.9797111675143242,
      "num_tokens": 16229285.0,
      "step": 246
    },
    {
      "epoch": 4.848192771084337,
      "grad_norm": 0.4662674319978425,
      "learning_rate": 3.0082421671192576e-08,
      "loss": 0.0688,
      "mean_token_accuracy": 0.97944400832057,
      "num_tokens": 16360357.0,
      "step": 248
    },
    {
      "epoch": 4.886746987951807,
      "grad_norm": 0.46327536754981147,
      "learning_rate": 1.692879587904983e-08,
      "loss": 0.0662,
      "mean_token_accuracy": 0.9799401611089706,
      "num_tokens": 16491429.0,
      "step": 250
    },
    {
      "epoch": 4.925301204819277,
      "grad_norm": 0.4688691090714117,
      "learning_rate": 7.526269891646176e-09,
      "loss": 0.0642,
      "mean_token_accuracy": 0.9807046689093113,
      "num_tokens": 16621960.0,
      "step": 252
    },
    {
      "epoch": 4.9638554216867465,
      "grad_norm": 0.4516057398304381,
      "learning_rate": 1.8819216358156865e-09,
      "loss": 0.0688,
      "mean_token_accuracy": 0.9792744368314743,
      "num_tokens": 16752156.0,
      "step": 254
    },
    {
      "epoch": 4.983132530120482,
      "mean_token_accuracy": 0.976367861032486,
      "num_tokens": 16817692.0,
      "step": 255,
      "total_flos": 24409842647040.0,
      "train_loss": 0.12274208276295194,
      "train_runtime": 3782.9235,
      "train_samples_per_second": 2.194,
      "train_steps_per_second": 0.067
    }
  ],
  "logging_steps": 2,
  "max_steps": 255,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 1.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 24409842647040.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}