{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.98159509202454,
  "eval_steps": 500,
  "global_step": 366,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0081799591002045,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 1.978,
      "step": 1
    },
    {
      "epoch": 0.016359918200409,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 2.0417,
      "step": 2
    },
    {
      "epoch": 0.024539877300613498,
      "grad_norm": 3.960280656814575,
      "learning_rate": 0.0,
      "loss": 2.4526,
      "step": 3
    },
    {
      "epoch": 0.032719836400818,
      "grad_norm": 4.871670722961426,
      "learning_rate": 2.702702702702703e-06,
      "loss": 2.3708,
      "step": 4
    },
    {
      "epoch": 0.0408997955010225,
      "grad_norm": NaN,
      "learning_rate": 5.405405405405406e-06,
      "loss": 2.7402,
      "step": 5
    },
    {
      "epoch": 0.049079754601226995,
      "grad_norm": 2.961730718612671,
      "learning_rate": 5.405405405405406e-06,
      "loss": 2.6255,
      "step": 6
    },
    {
      "epoch": 0.05725971370143149,
      "grad_norm": 2.4267706871032715,
      "learning_rate": 8.108108108108109e-06,
      "loss": 2.1672,
      "step": 7
    },
    {
      "epoch": 0.065439672801636,
      "grad_norm": 4.815489768981934,
      "learning_rate": 1.0810810810810812e-05,
      "loss": 2.6853,
      "step": 8
    },
    {
      "epoch": 0.0736196319018405,
      "grad_norm": 5.672784805297852,
      "learning_rate": 1.3513513513513515e-05,
      "loss": 2.5256,
      "step": 9
    },
    {
      "epoch": 0.081799591002045,
      "grad_norm": 2.97552490234375,
      "learning_rate": 1.6216216216216218e-05,
      "loss": 2.1108,
      "step": 10
    },
    {
      "epoch": 0.08997955010224949,
      "grad_norm": 2.305542469024658,
      "learning_rate": 1.891891891891892e-05,
      "loss": 2.2621,
      "step": 11
    },
    {
      "epoch": 0.09815950920245399,
      "grad_norm": 2.330063581466675,
      "learning_rate": 2.1621621621621624e-05,
      "loss": 2.2973,
      "step": 12
    },
    {
      "epoch": 0.10633946830265849,
      "grad_norm": 2.395848274230957,
      "learning_rate": 2.4324324324324327e-05,
      "loss": 2.2853,
      "step": 13
    },
    {
      "epoch": 0.11451942740286299,
      "grad_norm": 3.5902745723724365,
      "learning_rate": 2.702702702702703e-05,
      "loss": 2.3628,
      "step": 14
    },
    {
      "epoch": 0.12269938650306748,
      "grad_norm": 3.785466194152832,
      "learning_rate": 2.9729729729729733e-05,
      "loss": 1.6333,
      "step": 15
    },
    {
      "epoch": 0.130879345603272,
      "grad_norm": 2.845073699951172,
      "learning_rate": 3.2432432432432436e-05,
      "loss": 1.6592,
      "step": 16
    },
    {
      "epoch": 0.1390593047034765,
      "grad_norm": 2.9714362621307373,
      "learning_rate": 3.513513513513514e-05,
      "loss": 2.4303,
      "step": 17
    },
    {
      "epoch": 0.147239263803681,
      "grad_norm": 3.2374515533447266,
      "learning_rate": 3.783783783783784e-05,
      "loss": 1.6276,
      "step": 18
    },
    {
      "epoch": 0.1554192229038855,
      "grad_norm": 2.4501020908355713,
      "learning_rate": 4.0540540540540545e-05,
      "loss": 2.1786,
      "step": 19
    },
    {
      "epoch": 0.16359918200409,
      "grad_norm": 1.689795970916748,
      "learning_rate": 4.324324324324325e-05,
      "loss": 1.7335,
      "step": 20
    },
    {
      "epoch": 0.17177914110429449,
      "grad_norm": 1.5767645835876465,
      "learning_rate": 4.594594594594595e-05,
      "loss": 1.9214,
      "step": 21
    },
    {
      "epoch": 0.17995910020449898,
      "grad_norm": 2.6853578090667725,
      "learning_rate": 4.8648648648648654e-05,
      "loss": 1.9089,
      "step": 22
    },
    {
      "epoch": 0.18813905930470348,
      "grad_norm": 3.5681397914886475,
      "learning_rate": 5.135135135135135e-05,
      "loss": 2.092,
      "step": 23
    },
    {
      "epoch": 0.19631901840490798,
      "grad_norm": 3.208242416381836,
      "learning_rate": 5.405405405405406e-05,
      "loss": 1.9184,
      "step": 24
    },
    {
      "epoch": 0.20449897750511248,
      "grad_norm": 3.677274227142334,
      "learning_rate": 5.6756756756756757e-05,
      "loss": 1.6762,
      "step": 25
    },
    {
      "epoch": 0.21267893660531698,
      "grad_norm": 1.9500216245651245,
      "learning_rate": 5.9459459459459466e-05,
      "loss": 1.8447,
      "step": 26
    },
    {
      "epoch": 0.22085889570552147,
      "grad_norm": 2.72743821144104,
      "learning_rate": 6.216216216216216e-05,
      "loss": 1.659,
      "step": 27
    },
    {
      "epoch": 0.22903885480572597,
      "grad_norm": 1.4266787767410278,
      "learning_rate": 6.486486486486487e-05,
      "loss": 1.5518,
      "step": 28
    },
    {
      "epoch": 0.23721881390593047,
      "grad_norm": 1.8338373899459839,
      "learning_rate": 6.756756756756757e-05,
      "loss": 1.7725,
      "step": 29
    },
    {
      "epoch": 0.24539877300613497,
      "grad_norm": 2.702836751937866,
      "learning_rate": 7.027027027027028e-05,
      "loss": 1.3214,
      "step": 30
    },
    {
      "epoch": 0.25357873210633947,
      "grad_norm": 3.3664143085479736,
      "learning_rate": 7.297297297297297e-05,
      "loss": 1.5599,
      "step": 31
    },
    {
      "epoch": 0.261758691206544,
      "grad_norm": 1.7983371019363403,
      "learning_rate": 7.567567567567568e-05,
      "loss": 1.4007,
      "step": 32
    },
    {
      "epoch": 0.26993865030674846,
      "grad_norm": 1.4321403503417969,
      "learning_rate": 7.837837837837838e-05,
      "loss": 1.4209,
      "step": 33
    },
    {
      "epoch": 0.278118609406953,
      "grad_norm": 1.7886905670166016,
      "learning_rate": 8.108108108108109e-05,
      "loss": 1.1963,
      "step": 34
    },
    {
      "epoch": 0.28629856850715746,
      "grad_norm": 2.0502827167510986,
      "learning_rate": 8.378378378378379e-05,
      "loss": 1.6071,
      "step": 35
    },
    {
      "epoch": 0.294478527607362,
      "grad_norm": 2.351100206375122,
      "learning_rate": 8.64864864864865e-05,
      "loss": 1.1902,
      "step": 36
    },
    {
      "epoch": 0.30265848670756645,
      "grad_norm": 3.3446481227874756,
      "learning_rate": 8.918918918918919e-05,
      "loss": 1.1838,
      "step": 37
    },
    {
      "epoch": 0.310838445807771,
      "grad_norm": 1.3906322717666626,
      "learning_rate": 9.18918918918919e-05,
      "loss": 0.9948,
      "step": 38
    },
    {
      "epoch": 0.31901840490797545,
      "grad_norm": 1.9603602886199951,
      "learning_rate": 9.45945945945946e-05,
      "loss": 1.0997,
      "step": 39
    },
    {
      "epoch": 0.32719836400818,
      "grad_norm": 1.3630380630493164,
      "learning_rate": 9.729729729729731e-05,
      "loss": 0.6781,
      "step": 40
    },
    {
      "epoch": 0.33537832310838445,
      "grad_norm": 2.0062906742095947,
      "learning_rate": 0.0001,
      "loss": 1.4761,
      "step": 41
    },
    {
      "epoch": 0.34355828220858897,
      "grad_norm": 1.2718311548233032,
      "learning_rate": 9.99977204734326e-05,
      "loss": 1.0233,
      "step": 42
    },
    {
      "epoch": 0.35173824130879344,
      "grad_norm": 1.5002365112304688,
      "learning_rate": 9.999088210158001e-05,
      "loss": 0.8199,
      "step": 43
    },
    {
      "epoch": 0.35991820040899797,
      "grad_norm": 1.430582880973816,
      "learning_rate": 9.997948550797227e-05,
      "loss": 1.1087,
      "step": 44
    },
    {
      "epoch": 0.36809815950920244,
      "grad_norm": 2.0703279972076416,
      "learning_rate": 9.996353173176289e-05,
      "loss": 0.8149,
      "step": 45
    },
    {
      "epoch": 0.37627811860940696,
      "grad_norm": 1.5086464881896973,
      "learning_rate": 9.994302222763414e-05,
      "loss": 0.9549,
      "step": 46
    },
    {
      "epoch": 0.38445807770961143,
      "grad_norm": 1.5020016431808472,
      "learning_rate": 9.991795886566441e-05,
      "loss": 0.9542,
      "step": 47
    },
    {
      "epoch": 0.39263803680981596,
      "grad_norm": 1.6791132688522339,
      "learning_rate": 9.988834393115767e-05,
      "loss": 0.8864,
      "step": 48
    },
    {
      "epoch": 0.40081799591002043,
      "grad_norm": 2.7517454624176025,
      "learning_rate": 9.98541801244351e-05,
      "loss": 1.0826,
      "step": 49
    },
    {
      "epoch": 0.40899795501022496,
      "grad_norm": 1.6971582174301147,
      "learning_rate": 9.981547056058893e-05,
      "loss": 0.9114,
      "step": 50
    },
    {
      "epoch": 0.4171779141104294,
      "grad_norm": 1.4928799867630005,
      "learning_rate": 9.977221876919833e-05,
      "loss": 0.9755,
      "step": 51
    },
    {
      "epoch": 0.42535787321063395,
      "grad_norm": 1.1075421571731567,
      "learning_rate": 9.972442869400759e-05,
      "loss": 0.741,
      "step": 52
    },
    {
      "epoch": 0.4335378323108384,
      "grad_norm": 1.3488271236419678,
      "learning_rate": 9.967210469256656e-05,
      "loss": 1.0441,
      "step": 53
    },
    {
      "epoch": 0.44171779141104295,
      "grad_norm": 3.3010079860687256,
      "learning_rate": 9.961525153583327e-05,
      "loss": 1.2885,
      "step": 54
    },
    {
      "epoch": 0.4498977505112474,
      "grad_norm": 1.24274742603302,
      "learning_rate": 9.9553874407739e-05,
      "loss": 0.8107,
      "step": 55
    },
    {
      "epoch": 0.45807770961145194,
      "grad_norm": 1.1659082174301147,
      "learning_rate": 9.948797890471551e-05,
      "loss": 0.6129,
      "step": 56
    },
    {
      "epoch": 0.4662576687116564,
      "grad_norm": 1.5525306463241577,
      "learning_rate": 9.941757103518478e-05,
      "loss": 0.9262,
      "step": 57
    },
    {
      "epoch": 0.47443762781186094,
      "grad_norm": 1.3923064470291138,
      "learning_rate": 9.93426572190112e-05,
      "loss": 0.7552,
      "step": 58
    },
    {
      "epoch": 0.48261758691206547,
      "grad_norm": 1.166669487953186,
      "learning_rate": 9.926324428691611e-05,
      "loss": 0.6346,
      "step": 59
    },
    {
      "epoch": 0.49079754601226994,
      "grad_norm": 2.103994131088257,
      "learning_rate": 9.917933947985507e-05,
      "loss": 0.8199,
      "step": 60
    },
    {
      "epoch": 0.49897750511247446,
      "grad_norm": 1.633812665939331,
      "learning_rate": 9.909095044835754e-05,
      "loss": 0.7485,
      "step": 61
    },
    {
      "epoch": 0.5071574642126789,
      "grad_norm": 1.4533647298812866,
      "learning_rate": 9.899808525182935e-05,
      "loss": 1.1649,
      "step": 62
    },
    {
      "epoch": 0.5153374233128835,
      "grad_norm": 1.6267237663269043,
      "learning_rate": 9.890075235781779e-05,
      "loss": 1.1159,
      "step": 63
    },
    {
      "epoch": 0.523517382413088,
      "grad_norm": 1.2796165943145752,
      "learning_rate": 9.879896064123961e-05,
      "loss": 0.9613,
      "step": 64
    },
    {
      "epoch": 0.5316973415132924,
      "grad_norm": 1.3240866661071777,
      "learning_rate": 9.869271938357167e-05,
      "loss": 1.047,
      "step": 65
    },
    {
      "epoch": 0.5398773006134969,
      "grad_norm": 1.190612554550171,
      "learning_rate": 9.858203827200476e-05,
      "loss": 1.1846,
      "step": 66
    },
    {
      "epoch": 0.5480572597137015,
      "grad_norm": 1.1655223369598389,
      "learning_rate": 9.846692739856024e-05,
      "loss": 0.9566,
      "step": 67
    },
    {
      "epoch": 0.556237218813906,
      "grad_norm": 1.2617253065109253,
      "learning_rate": 9.834739725916988e-05,
      "loss": 1.1108,
      "step": 68
    },
    {
      "epoch": 0.5644171779141104,
      "grad_norm": 1.3576512336730957,
      "learning_rate": 9.822345875271883e-05,
      "loss": 1.1265,
      "step": 69
    },
    {
      "epoch": 0.5725971370143149,
      "grad_norm": 1.4342156648635864,
      "learning_rate": 9.809512318005181e-05,
      "loss": 0.7757,
      "step": 70
    },
    {
      "epoch": 0.5807770961145194,
      "grad_norm": 1.0733706951141357,
      "learning_rate": 9.796240224294271e-05,
      "loss": 0.9006,
      "step": 71
    },
    {
      "epoch": 0.588957055214724,
      "grad_norm": 1.323440432548523,
      "learning_rate": 9.782530804302763e-05,
      "loss": 0.9322,
      "step": 72
    },
    {
      "epoch": 0.5971370143149284,
      "grad_norm": 1.2899342775344849,
      "learning_rate": 9.768385308070138e-05,
      "loss": 0.8403,
      "step": 73
    },
    {
      "epoch": 0.6053169734151329,
      "grad_norm": 1.2755167484283447,
      "learning_rate": 9.753805025397779e-05,
      "loss": 0.8397,
      "step": 74
    },
    {
      "epoch": 0.6134969325153374,
      "grad_norm": 1.265972375869751,
      "learning_rate": 9.738791285731352e-05,
      "loss": 0.8143,
      "step": 75
    },
    {
      "epoch": 0.621676891615542,
      "grad_norm": 1.1493557691574097,
      "learning_rate": 9.723345458039594e-05,
      "loss": 1.059,
      "step": 76
    },
    {
      "epoch": 0.6298568507157464,
      "grad_norm": 1.1361910104751587,
      "learning_rate": 9.707468950689491e-05,
      "loss": 0.9112,
      "step": 77
    },
    {
      "epoch": 0.6380368098159509,
      "grad_norm": 1.4090393781661987,
      "learning_rate": 9.691163211317853e-05,
      "loss": 0.7847,
      "step": 78
    },
    {
      "epoch": 0.6462167689161554,
      "grad_norm": 1.300688624382019,
      "learning_rate": 9.674429726699323e-05,
      "loss": 0.9806,
      "step": 79
    },
    {
      "epoch": 0.65439672801636,
      "grad_norm": 1.0143762826919556,
      "learning_rate": 9.657270022610813e-05,
      "loss": 0.6648,
      "step": 80
    },
    {
      "epoch": 0.6625766871165644,
      "grad_norm": 1.2058460712432861,
      "learning_rate": 9.63968566369238e-05,
      "loss": 0.9702,
      "step": 81
    },
    {
      "epoch": 0.6707566462167689,
      "grad_norm": 1.0876555442810059,
      "learning_rate": 9.62167825330455e-05,
      "loss": 0.7861,
      "step": 82
    },
    {
      "epoch": 0.6789366053169734,
      "grad_norm": 1.502429723739624,
      "learning_rate": 9.603249433382144e-05,
      "loss": 1.1252,
      "step": 83
    },
    {
      "epoch": 0.6871165644171779,
      "grad_norm": 4.1136860847473145,
      "learning_rate": 9.584400884284545e-05,
      "loss": 0.7109,
      "step": 84
    },
    {
      "epoch": 0.6952965235173824,
      "grad_norm": 0.9980061650276184,
      "learning_rate": 9.56513432464249e-05,
      "loss": 0.6421,
      "step": 85
    },
    {
      "epoch": 0.7034764826175869,
      "grad_norm": 1.1087136268615723,
      "learning_rate": 9.545451511201364e-05,
      "loss": 0.6337,
      "step": 86
    },
    {
      "epoch": 0.7116564417177914,
      "grad_norm": 1.4353466033935547,
      "learning_rate": 9.525354238661009e-05,
      "loss": 1.0757,
      "step": 87
    },
    {
      "epoch": 0.7198364008179959,
      "grad_norm": 1.1413462162017822,
      "learning_rate": 9.504844339512095e-05,
      "loss": 0.7056,
      "step": 88
    },
    {
      "epoch": 0.7280163599182005,
      "grad_norm": 1.5157971382141113,
      "learning_rate": 9.483923683869024e-05,
      "loss": 0.8767,
      "step": 89
    },
    {
      "epoch": 0.7361963190184049,
      "grad_norm": 0.999251663684845,
      "learning_rate": 9.462594179299406e-05,
      "loss": 0.922,
      "step": 90
    },
    {
      "epoch": 0.7443762781186094,
      "grad_norm": 1.2393922805786133,
      "learning_rate": 9.440857770650138e-05,
      "loss": 0.8301,
      "step": 91
    },
    {
      "epoch": 0.7525562372188139,
      "grad_norm": 1.1513807773590088,
      "learning_rate": 9.418716439870057e-05,
      "loss": 0.5308,
      "step": 92
    },
    {
      "epoch": 0.7607361963190185,
      "grad_norm": 1.4229981899261475,
      "learning_rate": 9.396172205829234e-05,
      "loss": 1.1116,
      "step": 93
    },
    {
      "epoch": 0.7689161554192229,
      "grad_norm": 1.4916852712631226,
      "learning_rate": 9.373227124134888e-05,
      "loss": 0.8806,
      "step": 94
    },
    {
      "epoch": 0.7770961145194274,
      "grad_norm": 1.693434715270996,
      "learning_rate": 9.34988328694395e-05,
      "loss": 0.7924,
      "step": 95
    },
    {
      "epoch": 0.7852760736196319,
      "grad_norm": 1.1455564498901367,
      "learning_rate": 9.326142822772302e-05,
      "loss": 0.7091,
      "step": 96
    },
    {
      "epoch": 0.7934560327198364,
      "grad_norm": 1.031115174293518,
      "learning_rate": 9.302007896300698e-05,
      "loss": 0.8828,
      "step": 97
    },
    {
      "epoch": 0.8016359918200409,
      "grad_norm": 1.5678527355194092,
      "learning_rate": 9.27748070817738e-05,
      "loss": 1.0531,
      "step": 98
    },
    {
      "epoch": 0.8098159509202454,
      "grad_norm": 1.2558964490890503,
      "learning_rate": 9.252563494817425e-05,
      "loss": 0.9222,
      "step": 99
    },
    {
      "epoch": 0.8179959100204499,
      "grad_norm": 1.2573111057281494,
      "learning_rate": 9.227258528198831e-05,
      "loss": 0.8988,
      "step": 100
    },
    {
      "epoch": 0.8261758691206544,
      "grad_norm": 1.3229575157165527,
      "learning_rate": 9.201568115655342e-05,
      "loss": 1.0139,
      "step": 101
    },
    {
      "epoch": 0.8343558282208589,
      "grad_norm": 0.913388729095459,
      "learning_rate": 9.175494599666077e-05,
      "loss": 0.6802,
      "step": 102
    },
    {
      "epoch": 0.8425357873210634,
      "grad_norm": 3.0073134899139404,
      "learning_rate": 9.149040357641929e-05,
      "loss": 0.8834,
      "step": 103
    },
    {
      "epoch": 0.8507157464212679,
      "grad_norm": 0.9436314105987549,
      "learning_rate": 9.122207801708802e-05,
      "loss": 0.6559,
      "step": 104
    },
    {
      "epoch": 0.8588957055214724,
      "grad_norm": 1.1913410425186157,
      "learning_rate": 9.094999378487659e-05,
      "loss": 0.7427,
      "step": 105
    },
    {
      "epoch": 0.8670756646216768,
      "grad_norm": 1.03123140335083,
      "learning_rate": 9.067417568871445e-05,
      "loss": 0.6253,
      "step": 106
    },
    {
      "epoch": 0.8752556237218814,
      "grad_norm": 0.9424878358840942,
      "learning_rate": 9.03946488779887e-05,
      "loss": 0.7601,
      "step": 107
    },
    {
      "epoch": 0.8834355828220859,
      "grad_norm": 1.2202138900756836,
      "learning_rate": 9.011143884025101e-05,
      "loss": 1.024,
      "step": 108
    },
    {
      "epoch": 0.8916155419222904,
      "grad_norm": 1.3849170207977295,
      "learning_rate": 8.982457139889357e-05,
      "loss": 0.8283,
      "step": 109
    },
    {
      "epoch": 0.8997955010224948,
      "grad_norm": 1.2288554906845093,
      "learning_rate": 8.953407271079455e-05,
      "loss": 0.8297,
      "step": 110
    },
    {
      "epoch": 0.9079754601226994,
      "grad_norm": 0.9206739664077759,
      "learning_rate": 8.923996926393305e-05,
      "loss": 0.5966,
      "step": 111
    },
    {
      "epoch": 0.9161554192229039,
      "grad_norm": 0.9282044172286987,
      "learning_rate": 8.894228787497389e-05,
      "loss": 0.7775,
      "step": 112
    },
    {
      "epoch": 0.9243353783231084,
      "grad_norm": 1.2421815395355225,
      "learning_rate": 8.864105568682244e-05,
      "loss": 0.7838,
      "step": 113
    },
    {
      "epoch": 0.9325153374233128,
      "grad_norm": 1.1172124147415161,
      "learning_rate": 8.833630016614976e-05,
      "loss": 0.5921,
      "step": 114
    },
    {
      "epoch": 0.9406952965235174,
      "grad_norm": 1.310473918914795,
      "learning_rate": 8.802804910088809e-05,
      "loss": 1.0578,
      "step": 115
    },
    {
      "epoch": 0.9488752556237219,
      "grad_norm": 1.1656848192214966,
      "learning_rate": 8.771633059769711e-05,
      "loss": 0.8205,
      "step": 116
    },
    {
      "epoch": 0.9570552147239264,
      "grad_norm": 1.0159672498703003,
      "learning_rate": 8.740117307940123e-05,
      "loss": 0.8237,
      "step": 117
    },
    {
      "epoch": 0.9652351738241309,
      "grad_norm": 1.2568827867507935,
      "learning_rate": 8.708260528239788e-05,
      "loss": 1.0473,
      "step": 118
    },
    {
      "epoch": 0.9734151329243353,
      "grad_norm": 1.2711869478225708,
      "learning_rate": 8.676065625403733e-05,
      "loss": 1.0789,
      "step": 119
    },
    {
      "epoch": 0.9815950920245399,
      "grad_norm": 1.2562803030014038,
      "learning_rate": 8.64353553499741e-05,
      "loss": 0.5315,
      "step": 120
    },
    {
      "epoch": 0.9897750511247444,
      "grad_norm": 1.4107680320739746,
      "learning_rate": 8.610673223149034e-05,
      "loss": 0.9738,
      "step": 121
    },
    {
      "epoch": 0.9979550102249489,
      "grad_norm": 1.0771377086639404,
      "learning_rate": 8.577481686279123e-05,
      "loss": 0.6114,
      "step": 122
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6168379187583923,
      "learning_rate": 8.543963950827279e-05,
      "loss": 0.1857,
      "step": 123
    },
    {
      "epoch": 1.0081799591002045,
      "grad_norm": 1.0099263191223145,
      "learning_rate": 8.510123072976239e-05,
      "loss": 0.77,
      "step": 124
    },
    {
      "epoch": 1.016359918200409,
      "grad_norm": 1.0608845949172974,
      "learning_rate": 8.475962138373213e-05,
      "loss": 0.588,
      "step": 125
    },
    {
      "epoch": 1.0245398773006136,
      "grad_norm": 1.2696729898452759,
      "learning_rate": 8.441484261848514e-05,
      "loss": 0.8879,
      "step": 126
    },
    {
      "epoch": 1.032719836400818,
      "grad_norm": 1.556289792060852,
      "learning_rate": 8.406692587131568e-05,
      "loss": 1.1292,
      "step": 127
    },
    {
      "epoch": 1.0408997955010224,
      "grad_norm": 1.027779459953308,
      "learning_rate": 8.371590286564247e-05,
      "loss": 0.6589,
      "step": 128
    },
    {
      "epoch": 1.049079754601227,
      "grad_norm": 1.1132937669754028,
      "learning_rate": 8.336180560811619e-05,
      "loss": 0.6267,
      "step": 129
    },
    {
      "epoch": 1.0572597137014315,
      "grad_norm": 1.7684708833694458,
      "learning_rate": 8.30046663857011e-05,
      "loss": 0.7399,
      "step": 130
    },
    {
      "epoch": 1.065439672801636,
      "grad_norm": 1.372917890548706,
      "learning_rate": 8.264451776273104e-05,
      "loss": 0.8849,
      "step": 131
    },
    {
      "epoch": 1.0736196319018405,
      "grad_norm": 1.1678389310836792,
      "learning_rate": 8.228139257794012e-05,
      "loss": 0.901,
      "step": 132
    },
    {
      "epoch": 1.081799591002045,
      "grad_norm": 1.0002321004867554,
      "learning_rate": 8.191532394146865e-05,
      "loss": 0.3923,
      "step": 133
    },
    {
      "epoch": 1.0899795501022496,
      "grad_norm": 1.0493892431259155,
      "learning_rate": 8.154634523184388e-05,
      "loss": 0.77,
      "step": 134
    },
    {
      "epoch": 1.098159509202454,
      "grad_norm": 1.4020309448242188,
      "learning_rate": 8.117449009293668e-05,
      "loss": 0.7849,
      "step": 135
    },
    {
      "epoch": 1.1063394683026584,
      "grad_norm": 1.3133962154388428,
      "learning_rate": 8.07997924308938e-05,
      "loss": 0.7912,
      "step": 136
    },
    {
      "epoch": 1.114519427402863,
      "grad_norm": 1.3940467834472656,
      "learning_rate": 8.042228641104622e-05,
      "loss": 0.7142,
      "step": 137
    },
    {
      "epoch": 1.1226993865030674,
      "grad_norm": 1.3877304792404175,
      "learning_rate": 8.004200645479403e-05,
      "loss": 0.5454,
      "step": 138
    },
    {
      "epoch": 1.130879345603272,
      "grad_norm": 1.1132571697235107,
      "learning_rate": 7.965898723646776e-05,
      "loss": 0.7387,
      "step": 139
    },
    {
      "epoch": 1.1390593047034765,
      "grad_norm": 1.206382155418396,
      "learning_rate": 7.927326368016677e-05,
      "loss": 0.7271,
      "step": 140
    },
    {
      "epoch": 1.147239263803681,
      "grad_norm": 1.2813421487808228,
      "learning_rate": 7.888487095657484e-05,
      "loss": 0.8452,
      "step": 141
    },
    {
      "epoch": 1.1554192229038855,
      "grad_norm": 1.1103274822235107,
      "learning_rate": 7.849384447975321e-05,
      "loss": 0.5735,
      "step": 142
    },
    {
      "epoch": 1.16359918200409,
      "grad_norm": 1.1904572248458862,
      "learning_rate": 7.810021990391164e-05,
      "loss": 0.486,
      "step": 143
    },
    {
      "epoch": 1.1717791411042944,
      "grad_norm": 1.361222743988037,
      "learning_rate": 7.770403312015721e-05,
      "loss": 0.9265,
      "step": 144
    },
    {
      "epoch": 1.179959100204499,
      "grad_norm": 1.1453652381896973,
      "learning_rate": 7.73053202532219e-05,
      "loss": 0.6186,
      "step": 145
    },
    {
      "epoch": 1.1881390593047034,
      "grad_norm": 1.2070741653442383,
      "learning_rate": 7.690411765816864e-05,
      "loss": 0.7012,
      "step": 146
    },
    {
      "epoch": 1.196319018404908,
      "grad_norm": 1.4246371984481812,
      "learning_rate": 7.650046191707641e-05,
      "loss": 0.7644,
      "step": 147
    },
    {
      "epoch": 1.2044989775051125,
      "grad_norm": 1.2275187969207764,
      "learning_rate": 7.60943898357046e-05,
      "loss": 0.614,
      "step": 148
    },
    {
      "epoch": 1.212678936605317,
      "grad_norm": 1.292330265045166,
      "learning_rate": 7.568593844013718e-05,
      "loss": 0.6722,
      "step": 149
    },
    {
      "epoch": 1.2208588957055215,
      "grad_norm": 1.54197359085083,
      "learning_rate": 7.527514497340642e-05,
      "loss": 0.6981,
      "step": 150
    },
    {
      "epoch": 1.229038854805726,
      "grad_norm": 1.605914831161499,
      "learning_rate": 7.48620468920972e-05,
      "loss": 0.7524,
      "step": 151
    },
    {
      "epoch": 1.2372188139059306,
      "grad_norm": 1.2442176342010498,
      "learning_rate": 7.444668186293153e-05,
      "loss": 0.6238,
      "step": 152
    },
    {
      "epoch": 1.2453987730061349,
      "grad_norm": 1.4838721752166748,
      "learning_rate": 7.402908775933419e-05,
      "loss": 0.7599,
      "step": 153
    },
    {
      "epoch": 1.2535787321063394,
      "grad_norm": 1.8454984426498413,
      "learning_rate": 7.360930265797935e-05,
      "loss": 1.1331,
      "step": 154
    },
    {
      "epoch": 1.261758691206544,
      "grad_norm": 1.3571646213531494,
      "learning_rate": 7.31873648353186e-05,
      "loss": 0.6468,
      "step": 155
    },
    {
      "epoch": 1.2699386503067485,
      "grad_norm": 1.3795866966247559,
      "learning_rate": 7.276331276409106e-05,
      "loss": 0.7253,
      "step": 156
    },
    {
      "epoch": 1.278118609406953,
      "grad_norm": 1.4821308851242065,
      "learning_rate": 7.23371851098152e-05,
      "loss": 0.842,
      "step": 157
    },
    {
      "epoch": 1.2862985685071575,
      "grad_norm": 1.0921138525009155,
      "learning_rate": 7.190902072726335e-05,
      "loss": 0.5379,
      "step": 158
    },
    {
      "epoch": 1.294478527607362,
      "grad_norm": 1.5662935972213745,
      "learning_rate": 7.147885865691899e-05,
      "loss": 0.918,
      "step": 159
    },
    {
      "epoch": 1.3026584867075663,
      "grad_norm": 1.3333555459976196,
      "learning_rate": 7.104673812141675e-05,
      "loss": 0.6727,
      "step": 160
    },
    {
      "epoch": 1.310838445807771,
      "grad_norm": 1.1487497091293335,
      "learning_rate": 7.061269852196632e-05,
      "loss": 0.4279,
      "step": 161
    },
    {
      "epoch": 1.3190184049079754,
      "grad_norm": 1.1033565998077393,
      "learning_rate": 7.017677943475961e-05,
      "loss": 0.6372,
      "step": 162
    },
    {
      "epoch": 1.32719836400818,
      "grad_norm": 1.2100588083267212,
      "learning_rate": 6.973902060736226e-05,
      "loss": 0.7071,
      "step": 163
    },
    {
      "epoch": 1.3353783231083844,
      "grad_norm": 1.421066403388977,
      "learning_rate": 6.929946195508932e-05,
      "loss": 0.767,
      "step": 164
    },
    {
      "epoch": 1.343558282208589,
      "grad_norm": 1.2306902408599854,
      "learning_rate": 6.885814355736586e-05,
      "loss": 0.5587,
      "step": 165
    },
    {
      "epoch": 1.3517382413087935,
      "grad_norm": 1.5315287113189697,
      "learning_rate": 6.841510565407235e-05,
      "loss": 0.7519,
      "step": 166
    },
    {
      "epoch": 1.359918200408998,
      "grad_norm": 1.2497670650482178,
      "learning_rate": 6.797038864187564e-05,
      "loss": 0.5612,
      "step": 167
    },
    {
      "epoch": 1.3680981595092025,
      "grad_norm": 1.6106078624725342,
      "learning_rate": 6.752403307054549e-05,
      "loss": 0.7194,
      "step": 168
    },
    {
      "epoch": 1.3762781186094069,
      "grad_norm": 1.2407530546188354,
      "learning_rate": 6.707607963925724e-05,
      "loss": 0.531,
      "step": 169
    },
    {
      "epoch": 1.3844580777096114,
      "grad_norm": 1.663898229598999,
      "learning_rate": 6.66265691928808e-05,
      "loss": 0.7906,
      "step": 170
    },
    {
      "epoch": 1.392638036809816,
      "grad_norm": 1.3650121688842773,
      "learning_rate": 6.617554271825636e-05,
      "loss": 0.7207,
      "step": 171
    },
    {
      "epoch": 1.4008179959100204,
      "grad_norm": 1.1001300811767578,
      "learning_rate": 6.572304134045717e-05,
      "loss": 0.5145,
      "step": 172
    },
    {
      "epoch": 1.408997955010225,
      "grad_norm": 1.0687707662582397,
      "learning_rate": 6.526910631903973e-05,
      "loss": 0.3521,
      "step": 173
    },
    {
      "epoch": 1.4171779141104295,
      "grad_norm": 1.2442213296890259,
      "learning_rate": 6.481377904428171e-05,
      "loss": 0.7026,
      "step": 174
    },
    {
      "epoch": 1.425357873210634,
      "grad_norm": 1.31452214717865,
      "learning_rate": 6.435710103340786e-05,
      "loss": 0.7313,
      "step": 175
    },
    {
      "epoch": 1.4335378323108383,
      "grad_norm": 1.5573769807815552,
      "learning_rate": 6.389911392680456e-05,
      "loss": 0.7659,
      "step": 176
    },
    {
      "epoch": 1.441717791411043,
      "grad_norm": 1.2089431285858154,
      "learning_rate": 6.343985948422287e-05,
      "loss": 0.6916,
      "step": 177
    },
    {
      "epoch": 1.4498977505112474,
      "grad_norm": 1.5785194635391235,
      "learning_rate": 6.297937958097094e-05,
      "loss": 0.8101,
      "step": 178
    },
    {
      "epoch": 1.4580777096114519,
      "grad_norm": 1.4134269952774048,
      "learning_rate": 6.251771620409563e-05,
      "loss": 0.7504,
      "step": 179
    },
    {
      "epoch": 1.4662576687116564,
      "grad_norm": 1.4751485586166382,
      "learning_rate": 6.205491144855432e-05,
      "loss": 0.5948,
      "step": 180
    },
    {
      "epoch": 1.474437627811861,
      "grad_norm": 1.31548273563385,
      "learning_rate": 6.159100751337642e-05,
      "loss": 0.7057,
      "step": 181
    },
    {
      "epoch": 1.4826175869120655,
      "grad_norm": 1.8151648044586182,
      "learning_rate": 6.112604669781572e-05,
      "loss": 0.9037,
      "step": 182
    },
    {
      "epoch": 1.49079754601227,
      "grad_norm": 1.3681972026824951,
      "learning_rate": 6.0660071397493514e-05,
      "loss": 0.7223,
      "step": 183
    },
    {
      "epoch": 1.4989775051124745,
      "grad_norm": 1.6292760372161865,
      "learning_rate": 6.019312410053286e-05,
      "loss": 0.6083,
      "step": 184
    },
    {
      "epoch": 1.5071574642126788,
      "grad_norm": 1.8144514560699463,
      "learning_rate": 5.972524738368452e-05,
      "loss": 0.7662,
      "step": 185
    },
    {
      "epoch": 1.5153374233128836,
      "grad_norm": 1.650654911994934,
      "learning_rate": 5.925648390844476e-05,
      "loss": 0.902,
      "step": 186
    },
    {
      "epoch": 1.5235173824130879,
      "grad_norm": 1.4780257940292358,
      "learning_rate": 5.878687641716538e-05,
      "loss": 0.6566,
      "step": 187
    },
    {
      "epoch": 1.5316973415132924,
      "grad_norm": 1.1706862449645996,
      "learning_rate": 5.831646772915651e-05,
      "loss": 0.4189,
      "step": 188
    },
    {
      "epoch": 1.539877300613497,
      "grad_norm": 1.287718653678894,
      "learning_rate": 5.7845300736782204e-05,
      "loss": 0.5549,
      "step": 189
    },
    {
      "epoch": 1.5480572597137015,
      "grad_norm": 1.3776918649673462,
      "learning_rate": 5.737341840154956e-05,
      "loss": 0.5456,
      "step": 190
    },
    {
      "epoch": 1.556237218813906,
      "grad_norm": 1.2569301128387451,
      "learning_rate": 5.6900863750191347e-05,
      "loss": 0.6808,
      "step": 191
    },
    {
      "epoch": 1.5644171779141103,
      "grad_norm": 1.7013508081436157,
      "learning_rate": 5.642767987074288e-05,
      "loss": 0.7974,
      "step": 192
    },
    {
      "epoch": 1.572597137014315,
      "grad_norm": 1.5190353393554688,
      "learning_rate": 5.5953909908613114e-05,
      "loss": 0.5416,
      "step": 193
    },
    {
      "epoch": 1.5807770961145193,
      "grad_norm": 1.4736334085464478,
      "learning_rate": 5.547959706265068e-05,
      "loss": 0.6788,
      "step": 194
    },
    {
      "epoch": 1.588957055214724,
      "grad_norm": 2.006303548812866,
      "learning_rate": 5.5004784581204927e-05,
      "loss": 0.9634,
      "step": 195
    },
    {
      "epoch": 1.5971370143149284,
      "grad_norm": 1.3578423261642456,
      "learning_rate": 5.4529515758182506e-05,
      "loss": 0.6563,
      "step": 196
    },
    {
      "epoch": 1.605316973415133,
      "grad_norm": 1.4116990566253662,
      "learning_rate": 5.405383392909973e-05,
      "loss": 0.6062,
      "step": 197
    },
    {
      "epoch": 1.6134969325153374,
      "grad_norm": 1.2362536191940308,
      "learning_rate": 5.357778246713131e-05,
      "loss": 0.4829,
      "step": 198
    },
    {
      "epoch": 1.621676891615542,
      "grad_norm": 1.1780372858047485,
      "learning_rate": 5.310140477915544e-05,
      "loss": 0.465,
      "step": 199
    },
    {
      "epoch": 1.6298568507157465,
      "grad_norm": 1.3919291496276855,
      "learning_rate": 5.262474430179597e-05,
      "loss": 0.6967,
      "step": 200
    },
    {
      "epoch": 1.6380368098159508,
      "grad_norm": 1.7452629804611206,
      "learning_rate": 5.214784449746174e-05,
      "loss": 0.9096,
      "step": 201
    },
    {
      "epoch": 1.6462167689161555,
      "grad_norm": 1.4730846881866455,
      "learning_rate": 5.167074885038373e-05,
      "loss": 0.7473,
      "step": 202
    },
    {
      "epoch": 1.6543967280163598,
      "grad_norm": 1.5404870510101318,
      "learning_rate": 5.119350086265004e-05,
      "loss": 0.6233,
      "step": 203
    },
    {
      "epoch": 1.6625766871165644,
      "grad_norm": 1.4780898094177246,
      "learning_rate": 5.0716144050239375e-05,
      "loss": 0.7599,
      "step": 204
    },
    {
      "epoch": 1.670756646216769,
      "grad_norm": 1.194542407989502,
      "learning_rate": 5.023872193905316e-05,
      "loss": 0.5638,
      "step": 205
    },
    {
      "epoch": 1.6789366053169734,
      "grad_norm": 1.3504347801208496,
      "learning_rate": 4.976127806094684e-05,
      "loss": 0.4701,
      "step": 206
    },
    {
      "epoch": 1.687116564417178,
      "grad_norm": 2.1446099281311035,
      "learning_rate": 4.928385594976063e-05,
      "loss": 0.9383,
      "step": 207
    },
    {
      "epoch": 1.6952965235173822,
      "grad_norm": 1.4745142459869385,
      "learning_rate": 4.880649913734996e-05,
      "loss": 0.5817,
      "step": 208
    },
    {
      "epoch": 1.703476482617587,
      "grad_norm": 1.3029444217681885,
      "learning_rate": 4.832925114961629e-05,
      "loss": 0.3481,
      "step": 209
    },
    {
      "epoch": 1.7116564417177913,
      "grad_norm": 1.1414580345153809,
      "learning_rate": 4.785215550253826e-05,
      "loss": 0.4348,
      "step": 210
    },
    {
      "epoch": 1.719836400817996,
      "grad_norm": 1.4996669292449951,
      "learning_rate": 4.7375255698204045e-05,
      "loss": 0.653,
      "step": 211
    },
    {
      "epoch": 1.7280163599182004,
      "grad_norm": 1.66719388961792,
      "learning_rate": 4.6898595220844574e-05,
      "loss": 0.7181,
      "step": 212
    },
    {
      "epoch": 1.7361963190184049,
      "grad_norm": 1.476560354232788,
      "learning_rate": 4.64222175328687e-05,
      "loss": 0.6183,
      "step": 213
    },
    {
      "epoch": 1.7443762781186094,
      "grad_norm": 1.7405219078063965,
      "learning_rate": 4.594616607090028e-05,
      "loss": 0.689,
      "step": 214
    },
    {
      "epoch": 1.752556237218814,
      "grad_norm": 1.1866732835769653,
      "learning_rate": 4.547048424181751e-05,
      "loss": 0.4616,
      "step": 215
    },
    {
      "epoch": 1.7607361963190185,
      "grad_norm": 1.7068077325820923,
      "learning_rate": 4.4995215418795085e-05,
      "loss": 0.6318,
      "step": 216
    },
    {
      "epoch": 1.7689161554192228,
      "grad_norm": 1.4736443758010864,
      "learning_rate": 4.452040293734934e-05,
      "loss": 0.4611,
      "step": 217
    },
    {
      "epoch": 1.7770961145194275,
      "grad_norm": 0.8084559440612793,
      "learning_rate": 4.404609009138689e-05,
      "loss": 0.1962,
      "step": 218
    },
    {
      "epoch": 1.7852760736196318,
      "grad_norm": 1.1126220226287842,
      "learning_rate": 4.357232012925714e-05,
      "loss": 0.3804,
      "step": 219
    },
    {
      "epoch": 1.7934560327198366,
      "grad_norm": 1.4977810382843018,
      "learning_rate": 4.3099136249808665e-05,
      "loss": 0.5431,
      "step": 220
    },
    {
      "epoch": 1.8016359918200409,
      "grad_norm": 1.47788405418396,
      "learning_rate": 4.262658159845046e-05,
      "loss": 0.6498,
      "step": 221
    },
    {
      "epoch": 1.8098159509202454,
      "grad_norm": 1.2339309453964233,
      "learning_rate": 4.215469926321779e-05,
      "loss": 0.4812,
      "step": 222
    },
    {
      "epoch": 1.81799591002045,
      "grad_norm": 1.4342414140701294,
      "learning_rate": 4.1683532270843504e-05,
      "loss": 0.5703,
      "step": 223
    },
    {
      "epoch": 1.8261758691206544,
      "grad_norm": 1.795954942703247,
      "learning_rate": 4.121312358283463e-05,
      "loss": 0.992,
      "step": 224
    },
    {
      "epoch": 1.834355828220859,
      "grad_norm": 1.3253310918807983,
      "learning_rate": 4.074351609155527e-05,
      "loss": 0.5907,
      "step": 225
    },
    {
      "epoch": 1.8425357873210633,
      "grad_norm": 1.4935518503189087,
      "learning_rate": 4.027475261631548e-05,
      "loss": 0.7448,
      "step": 226
    },
    {
      "epoch": 1.850715746421268,
      "grad_norm": 1.8565064668655396,
      "learning_rate": 3.980687589946715e-05,
      "loss": 0.8506,
      "step": 227
    },
    {
      "epoch": 1.8588957055214723,
      "grad_norm": 2.0860605239868164,
      "learning_rate": 3.9339928602506505e-05,
      "loss": 0.4935,
      "step": 228
    },
    {
      "epoch": 1.8670756646216768,
      "grad_norm": 1.6324408054351807,
      "learning_rate": 3.887395330218429e-05,
      "loss": 0.586,
      "step": 229
    },
    {
      "epoch": 1.8752556237218814,
      "grad_norm": 1.8466233015060425,
      "learning_rate": 3.840899248662358e-05,
      "loss": 0.7596,
      "step": 230
    },
    {
      "epoch": 1.883435582822086,
      "grad_norm": 1.867876648902893,
      "learning_rate": 3.7945088551445693e-05,
      "loss": 0.7946,
      "step": 231
    },
    {
      "epoch": 1.8916155419222904,
      "grad_norm": 1.3713316917419434,
      "learning_rate": 3.748228379590438e-05,
      "loss": 0.5414,
      "step": 232
    },
    {
      "epoch": 1.8997955010224947,
      "grad_norm": 1.6689939498901367,
      "learning_rate": 3.7020620419029094e-05,
      "loss": 0.6574,
      "step": 233
    },
    {
      "epoch": 1.9079754601226995,
      "grad_norm": 1.4076114892959595,
      "learning_rate": 3.656014051577713e-05,
      "loss": 0.5052,
      "step": 234
    },
    {
      "epoch": 1.9161554192229038,
      "grad_norm": 1.6957688331604004,
      "learning_rate": 3.610088607319544e-05,
      "loss": 0.4209,
      "step": 235
    },
    {
      "epoch": 1.9243353783231085,
      "grad_norm": 1.465134620666504,
      "learning_rate": 3.564289896659214e-05,
      "loss": 0.562,
      "step": 236
    },
    {
      "epoch": 1.9325153374233128,
      "grad_norm": 1.626769781112671,
      "learning_rate": 3.5186220955718306e-05,
      "loss": 0.6494,
      "step": 237
    },
    {
      "epoch": 1.9406952965235174,
      "grad_norm": 1.2987111806869507,
      "learning_rate": 3.473089368096026e-05,
      "loss": 0.5365,
      "step": 238
    },
    {
      "epoch": 1.9488752556237219,
      "grad_norm": 1.7133764028549194,
      "learning_rate": 3.427695865954284e-05,
      "loss": 0.7972,
      "step": 239
    },
    {
      "epoch": 1.9570552147239264,
      "grad_norm": 1.067958116531372,
      "learning_rate": 3.3824457281743646e-05,
      "loss": 0.2413,
      "step": 240
    },
    {
      "epoch": 1.965235173824131,
      "grad_norm": 1.5035715103149414,
      "learning_rate": 3.337343080711921e-05,
      "loss": 0.655,
      "step": 241
    },
    {
      "epoch": 1.9734151329243352,
      "grad_norm": 1.9790688753128052,
      "learning_rate": 3.2923920360742774e-05,
      "loss": 0.7517,
      "step": 242
    },
    {
      "epoch": 1.98159509202454,
      "grad_norm": 1.79633367061615,
      "learning_rate": 3.2475966929454504e-05,
      "loss": 0.527,
      "step": 243
    },
    {
      "epoch": 1.9897750511247443,
      "grad_norm": 1.59013032913208,
      "learning_rate": 3.202961135812437e-05,
      "loss": 0.5922,
      "step": 244
    },
    {
      "epoch": 1.997955010224949,
      "grad_norm": 1.6466726064682007,
      "learning_rate": 3.158489434592766e-05,
      "loss": 0.6738,
      "step": 245
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.8072463274002075,
      "learning_rate": 3.114185644263415e-05,
      "loss": 0.1228,
      "step": 246
    },
    {
      "epoch": 2.0081799591002043,
      "grad_norm": 1.412455439567566,
      "learning_rate": 3.070053804491068e-05,
      "loss": 0.5372,
      "step": 247
    },
    {
      "epoch": 2.016359918200409,
      "grad_norm": 1.15187406539917,
      "learning_rate": 3.026097939263775e-05,
      "loss": 0.3056,
      "step": 248
    },
    {
      "epoch": 2.0245398773006134,
      "grad_norm": 1.3967753648757935,
      "learning_rate": 2.9823220565240394e-05,
      "loss": 0.5469,
      "step": 249
    },
    {
      "epoch": 2.032719836400818,
      "grad_norm": 1.5053709745407104,
      "learning_rate": 2.938730147803369e-05,
      "loss": 0.5333,
      "step": 250
    },
    {
      "epoch": 2.0408997955010224,
      "grad_norm": 1.2719367742538452,
      "learning_rate": 2.895326187858326e-05,
      "loss": 0.4873,
      "step": 251
    },
    {
      "epoch": 2.049079754601227,
      "grad_norm": 1.3638321161270142,
      "learning_rate": 2.852114134308104e-05,
      "loss": 0.4676,
      "step": 252
    },
    {
      "epoch": 2.0572597137014315,
      "grad_norm": 1.4079426527023315,
      "learning_rate": 2.8090979272736662e-05,
      "loss": 0.5474,
      "step": 253
    },
    {
      "epoch": 2.065439672801636,
      "grad_norm": 1.3648539781570435,
      "learning_rate": 2.7662814890184818e-05,
      "loss": 0.3774,
      "step": 254
    },
    {
      "epoch": 2.0736196319018405,
      "grad_norm": 1.411365032196045,
      "learning_rate": 2.7236687235908953e-05,
      "loss": 0.5021,
      "step": 255
    },
    {
      "epoch": 2.081799591002045,
      "grad_norm": 0.8350080251693726,
      "learning_rate": 2.6812635164681386e-05,
      "loss": 0.295,
      "step": 256
    },
    {
      "epoch": 2.0899795501022496,
      "grad_norm": 1.4837121963500977,
      "learning_rate": 2.6390697342020665e-05,
      "loss": 0.4359,
      "step": 257
    },
    {
      "epoch": 2.098159509202454,
      "grad_norm": 1.447041392326355,
      "learning_rate": 2.5970912240665813e-05,
      "loss": 0.4699,
      "step": 258
    },
    {
      "epoch": 2.1063394683026586,
      "grad_norm": 1.5087660551071167,
      "learning_rate": 2.555331813706847e-05,
      "loss": 0.5016,
      "step": 259
    },
    {
      "epoch": 2.114519427402863,
      "grad_norm": 1.4970585107803345,
      "learning_rate": 2.5137953107902813e-05,
      "loss": 0.4827,
      "step": 260
    },
    {
      "epoch": 2.1226993865030677,
      "grad_norm": 1.5823018550872803,
      "learning_rate": 2.472485502659358e-05,
      "loss": 0.3951,
      "step": 261
    },
    {
      "epoch": 2.130879345603272,
      "grad_norm": 1.208630919456482,
      "learning_rate": 2.4314061559862833e-05,
      "loss": 0.3384,
      "step": 262
    },
    {
      "epoch": 2.1390593047034763,
      "grad_norm": 1.6956486701965332,
      "learning_rate": 2.3905610164295394e-05,
      "loss": 0.4982,
      "step": 263
    },
    {
      "epoch": 2.147239263803681,
      "grad_norm": 1.4397342205047607,
      "learning_rate": 2.3499538082923606e-05,
      "loss": 0.4574,
      "step": 264
    },
    {
      "epoch": 2.1554192229038853,
      "grad_norm": 1.3102678060531616,
      "learning_rate": 2.3095882341831372e-05,
      "loss": 0.3559,
      "step": 265
    },
    {
      "epoch": 2.16359918200409,
      "grad_norm": 1.2937331199645996,
      "learning_rate": 2.2694679746778115e-05,
      "loss": 0.3721,
      "step": 266
    },
    {
      "epoch": 2.1717791411042944,
      "grad_norm": 1.5506526231765747,
      "learning_rate": 2.22959668798428e-05,
      "loss": 0.4909,
      "step": 267
    },
    {
      "epoch": 2.179959100204499,
      "grad_norm": 1.8627556562423706,
      "learning_rate": 2.1899780096088375e-05,
      "loss": 0.7858,
      "step": 268
    },
    {
      "epoch": 2.1881390593047034,
      "grad_norm": 1.7848111391067505,
      "learning_rate": 2.1506155520246797e-05,
      "loss": 0.6337,
      "step": 269
    },
    {
      "epoch": 2.196319018404908,
      "grad_norm": 1.2659337520599365,
      "learning_rate": 2.1115129043425187e-05,
      "loss": 0.2693,
      "step": 270
    },
    {
      "epoch": 2.2044989775051125,
      "grad_norm": 1.6412032842636108,
      "learning_rate": 2.0726736319833228e-05,
      "loss": 0.5306,
      "step": 271
    },
    {
      "epoch": 2.212678936605317,
      "grad_norm": 1.611624002456665,
      "learning_rate": 2.0341012763532243e-05,
      "loss": 0.3388,
      "step": 272
    },
    {
      "epoch": 2.2208588957055215,
      "grad_norm": 1.1925326585769653,
      "learning_rate": 1.995799354520598e-05,
      "loss": 0.3615,
      "step": 273
    },
    {
      "epoch": 2.229038854805726,
      "grad_norm": 1.7512476444244385,
      "learning_rate": 1.9577713588953795e-05,
      "loss": 0.5129,
      "step": 274
    },
    {
      "epoch": 2.2372188139059306,
      "grad_norm": 1.5006930828094482,
      "learning_rate": 1.9200207569106216e-05,
      "loss": 0.4129,
      "step": 275
    },
    {
      "epoch": 2.245398773006135,
      "grad_norm": 1.8680585622787476,
      "learning_rate": 1.8825509907063327e-05,
      "loss": 0.5374,
      "step": 276
    },
    {
      "epoch": 2.2535787321063396,
      "grad_norm": 1.8856024742126465,
      "learning_rate": 1.8453654768156138e-05,
      "loss": 0.562,
      "step": 277
    },
    {
      "epoch": 2.261758691206544,
      "grad_norm": 1.9243358373641968,
      "learning_rate": 1.8084676058531373e-05,
      "loss": 0.6637,
      "step": 278
    },
    {
      "epoch": 2.2699386503067487,
      "grad_norm": 2.3150854110717773,
      "learning_rate": 1.771860742205988e-05,
      "loss": 0.5932,
      "step": 279
    },
    {
      "epoch": 2.278118609406953,
      "grad_norm": 1.2950345277786255,
      "learning_rate": 1.7355482237268983e-05,
      "loss": 0.341,
      "step": 280
    },
    {
      "epoch": 2.2862985685071573,
      "grad_norm": 1.5685244798660278,
      "learning_rate": 1.699533361429891e-05,
      "loss": 0.4248,
      "step": 281
    },
    {
      "epoch": 2.294478527607362,
      "grad_norm": 1.7234948873519897,
      "learning_rate": 1.663819439188382e-05,
      "loss": 0.7139,
      "step": 282
    },
    {
      "epoch": 2.3026584867075663,
      "grad_norm": 1.5493229627609253,
      "learning_rate": 1.6284097134357536e-05,
      "loss": 0.4609,
      "step": 283
    },
    {
      "epoch": 2.310838445807771,
      "grad_norm": 1.262978196144104,
      "learning_rate": 1.5933074128684332e-05,
      "loss": 0.3572,
      "step": 284
    },
    {
      "epoch": 2.3190184049079754,
      "grad_norm": 1.7874940633773804,
      "learning_rate": 1.5585157381514875e-05,
      "loss": 0.5078,
      "step": 285
    },
    {
      "epoch": 2.32719836400818,
      "grad_norm": 1.7057137489318848,
      "learning_rate": 1.5240378616267886e-05,
      "loss": 0.5262,
      "step": 286
    },
    {
      "epoch": 2.3353783231083844,
      "grad_norm": 1.5174486637115479,
      "learning_rate": 1.489876927023761e-05,
      "loss": 0.4075,
      "step": 287
    },
    {
      "epoch": 2.3435582822085887,
      "grad_norm": 1.473712682723999,
      "learning_rate": 1.4560360491727231e-05,
      "loss": 0.4237,
      "step": 288
    },
    {
      "epoch": 2.3517382413087935,
      "grad_norm": 2.0275111198425293,
      "learning_rate": 1.4225183137208776e-05,
      "loss": 0.7344,
      "step": 289
    },
    {
      "epoch": 2.359918200408998,
      "grad_norm": 1.5504990816116333,
      "learning_rate": 1.389326776850966e-05,
      "loss": 0.5226,
      "step": 290
    },
    {
      "epoch": 2.3680981595092025,
      "grad_norm": 0.9763877987861633,
      "learning_rate": 1.3564644650025893e-05,
      "loss": 0.2004,
      "step": 291
    },
    {
      "epoch": 2.376278118609407,
      "grad_norm": 1.6431723833084106,
      "learning_rate": 1.3239343745962679e-05,
      "loss": 0.5426,
      "step": 292
    },
    {
      "epoch": 2.3844580777096116,
      "grad_norm": 1.4661204814910889,
      "learning_rate": 1.2917394717602121e-05,
      "loss": 0.3689,
      "step": 293
    },
    {
      "epoch": 2.392638036809816,
      "grad_norm": 1.3995070457458496,
      "learning_rate": 1.2598826920598772e-05,
      "loss": 0.3994,
      "step": 294
    },
    {
      "epoch": 2.40081799591002,
      "grad_norm": 1.6375926733016968,
      "learning_rate": 1.2283669402302878e-05,
      "loss": 0.4635,
      "step": 295
    },
    {
      "epoch": 2.408997955010225,
      "grad_norm": 1.6579980850219727,
      "learning_rate": 1.197195089911191e-05,
      "loss": 0.44,
      "step": 296
    },
    {
      "epoch": 2.4171779141104293,
      "grad_norm": 2.057859420776367,
      "learning_rate": 1.1663699833850238e-05,
      "loss": 0.809,
      "step": 297
    },
    {
      "epoch": 2.425357873210634,
      "grad_norm": 1.9846243858337402,
      "learning_rate": 1.1358944313177567e-05,
      "loss": 0.526,
      "step": 298
    },
    {
      "epoch": 2.4335378323108383,
      "grad_norm": 1.8454967737197876,
      "learning_rate": 1.1057712125026116e-05,
      "loss": 0.4943,
      "step": 299
    },
    {
      "epoch": 2.441717791411043,
      "grad_norm": 1.3751471042633057,
      "learning_rate": 1.0760030736066951e-05,
      "loss": 0.2973,
      "step": 300
    },
    {
      "epoch": 2.4498977505112474,
      "grad_norm": 1.7352081537246704,
      "learning_rate": 1.0465927289205452e-05,
      "loss": 0.4647,
      "step": 301
    },
    {
      "epoch": 2.458077709611452,
      "grad_norm": 1.6583192348480225,
      "learning_rate": 1.017542860110644e-05,
      "loss": 0.5614,
      "step": 302
    },
    {
      "epoch": 2.4662576687116564,
      "grad_norm": 1.1086567640304565,
      "learning_rate": 9.888561159748993e-06,
      "loss": 0.2343,
      "step": 303
    },
    {
      "epoch": 2.474437627811861,
      "grad_norm": 1.2182183265686035,
      "learning_rate": 9.605351122011309e-06,
      "loss": 0.5084,
      "step": 304
    },
    {
      "epoch": 2.4826175869120655,
      "grad_norm": 1.5897687673568726,
      "learning_rate": 9.325824311285564e-06,
      "loss": 0.4916,
      "step": 305
    },
    {
      "epoch": 2.4907975460122698,
      "grad_norm": 1.7576637268066406,
      "learning_rate": 9.050006215123419e-06,
      "loss": 0.5896,
      "step": 306
    },
    {
      "epoch": 2.4989775051124745,
      "grad_norm": 1.3375118970870972,
      "learning_rate": 8.777921982911996e-06,
      "loss": 0.3472,
      "step": 307
    },
    {
      "epoch": 2.507157464212679,
      "grad_norm": 1.643762230873108,
      "learning_rate": 8.509596423580712e-06,
      "loss": 0.6561,
      "step": 308
    },
    {
      "epoch": 2.5153374233128836,
      "grad_norm": 1.8207759857177734,
      "learning_rate": 8.245054003339247e-06,
      "loss": 0.446,
      "step": 309
    },
    {
      "epoch": 2.523517382413088,
      "grad_norm": 1.7931218147277832,
      "learning_rate": 7.984318843446593e-06,
      "loss": 0.6626,
      "step": 310
    },
    {
      "epoch": 2.5316973415132926,
      "grad_norm": 1.5871256589889526,
      "learning_rate": 7.727414718011704e-06,
      "loss": 0.6779,
      "step": 311
    },
    {
      "epoch": 2.539877300613497,
      "grad_norm": 1.6045511960983276,
      "learning_rate": 7.474365051825749e-06,
      "loss": 0.4369,
      "step": 312
    },
    {
      "epoch": 2.5480572597137012,
      "grad_norm": 1.9614039659500122,
      "learning_rate": 7.225192918226214e-06,
      "loss": 0.5339,
      "step": 313
    },
    {
      "epoch": 2.556237218813906,
      "grad_norm": 1.6761356592178345,
      "learning_rate": 6.979921036993042e-06,
      "loss": 0.4714,
      "step": 314
    },
    {
      "epoch": 2.5644171779141103,
      "grad_norm": 1.268598198890686,
      "learning_rate": 6.738571772276997e-06,
      "loss": 0.3589,
      "step": 315
    },
    {
      "epoch": 2.572597137014315,
      "grad_norm": 1.9515974521636963,
      "learning_rate": 6.501167130560515e-06,
      "loss": 0.7677,
      "step": 316
    },
    {
      "epoch": 2.5807770961145193,
      "grad_norm": 1.752503514289856,
      "learning_rate": 6.267728758651132e-06,
      "loss": 0.6019,
      "step": 317
    },
    {
      "epoch": 2.588957055214724,
      "grad_norm": 1.6404023170471191,
      "learning_rate": 6.03827794170767e-06,
      "loss": 0.3813,
      "step": 318
    },
    {
      "epoch": 2.5971370143149284,
      "grad_norm": 1.6431866884231567,
      "learning_rate": 5.8128356012994375e-06,
      "loss": 0.5397,
      "step": 319
    },
    {
      "epoch": 2.6053169734151327,
      "grad_norm": 1.604200005531311,
      "learning_rate": 5.591422293498633e-06,
      "loss": 0.5326,
      "step": 320
    },
    {
      "epoch": 2.6134969325153374,
      "grad_norm": 1.955712080001831,
      "learning_rate": 5.374058207005944e-06,
      "loss": 0.6279,
      "step": 321
    },
    {
      "epoch": 2.621676891615542,
      "grad_norm": 1.9583613872528076,
      "learning_rate": 5.160763161309767e-06,
      "loss": 0.7064,
      "step": 322
    },
    {
      "epoch": 2.6298568507157465,
      "grad_norm": 1.465756893157959,
      "learning_rate": 4.951556604879048e-06,
      "loss": 0.3176,
      "step": 323
    },
    {
      "epoch": 2.638036809815951,
      "grad_norm": 1.0220084190368652,
      "learning_rate": 4.746457613389904e-06,
      "loss": 0.1989,
      "step": 324
    },
    {
      "epoch": 2.6462167689161555,
      "grad_norm": 1.9900139570236206,
      "learning_rate": 4.545484887986368e-06,
      "loss": 0.4488,
      "step": 325
    },
    {
      "epoch": 2.65439672801636,
      "grad_norm": 1.8389681577682495,
      "learning_rate": 4.348656753575092e-06,
      "loss": 0.8159,
      "step": 326
    },
    {
      "epoch": 2.662576687116564,
      "grad_norm": 1.8046656847000122,
      "learning_rate": 4.155991157154554e-06,
      "loss": 0.5941,
      "step": 327
    },
    {
      "epoch": 2.670756646216769,
      "grad_norm": 1.5946298837661743,
      "learning_rate": 3.967505666178556e-06,
      "loss": 0.6167,
      "step": 328
    },
    {
      "epoch": 2.6789366053169736,
      "grad_norm": 1.6215424537658691,
      "learning_rate": 3.783217466954503e-06,
      "loss": 0.5432,
      "step": 329
    },
    {
      "epoch": 2.687116564417178,
      "grad_norm": 1.5136370658874512,
      "learning_rate": 3.603143363076217e-06,
      "loss": 0.2688,
      "step": 330
    },
    {
      "epoch": 2.6952965235173822,
      "grad_norm": 2.0225648880004883,
      "learning_rate": 3.427299773891868e-06,
      "loss": 0.3968,
      "step": 331
    },
    {
      "epoch": 2.703476482617587,
      "grad_norm": 1.170069694519043,
      "learning_rate": 3.2557027330067658e-06,
      "loss": 0.3143,
      "step": 332
    },
    {
      "epoch": 2.7116564417177913,
      "grad_norm": 1.2336766719818115,
      "learning_rate": 3.0883678868214806e-06,
      "loss": 0.4023,
      "step": 333
    },
    {
      "epoch": 2.719836400817996,
      "grad_norm": 1.8785996437072754,
      "learning_rate": 2.925310493105099e-06,
      "loss": 0.6501,
      "step": 334
    },
    {
      "epoch": 2.7280163599182004,
      "grad_norm": 1.7136589288711548,
      "learning_rate": 2.7665454196040664e-06,
      "loss": 0.3418,
      "step": 335
    },
    {
      "epoch": 2.736196319018405,
      "grad_norm": 1.5453672409057617,
      "learning_rate": 2.612087142686487e-06,
      "loss": 0.4047,
      "step": 336
    },
    {
      "epoch": 2.7443762781186094,
      "grad_norm": 1.5091831684112549,
      "learning_rate": 2.4619497460222184e-06,
      "loss": 0.3707,
      "step": 337
    },
    {
      "epoch": 2.7525562372188137,
      "grad_norm": 1.996533751487732,
      "learning_rate": 2.316146919298623e-06,
      "loss": 0.7776,
      "step": 338
    },
    {
      "epoch": 2.7607361963190185,
      "grad_norm": 2.2293291091918945,
      "learning_rate": 2.1746919569723855e-06,
      "loss": 0.7055,
      "step": 339
    },
    {
      "epoch": 2.7689161554192228,
      "grad_norm": 1.906553864479065,
      "learning_rate": 2.0375977570572967e-06,
      "loss": 0.6423,
      "step": 340
    },
    {
      "epoch": 2.7770961145194275,
      "grad_norm": 1.684910535812378,
      "learning_rate": 1.9048768199481982e-06,
      "loss": 0.5679,
      "step": 341
    },
    {
      "epoch": 2.785276073619632,
      "grad_norm": 1.3118062019348145,
      "learning_rate": 1.7765412472811771e-06,
      "loss": 0.3036,
      "step": 342
    },
    {
      "epoch": 2.7934560327198366,
      "grad_norm": 1.9178974628448486,
      "learning_rate": 1.6526027408301226e-06,
      "loss": 0.5829,
      "step": 343
    },
    {
      "epoch": 2.801635991820041,
      "grad_norm": 1.860939860343933,
      "learning_rate": 1.5330726014397668e-06,
      "loss": 0.4617,
      "step": 344
    },
    {
      "epoch": 2.809815950920245,
      "grad_norm": 1.7959818840026855,
      "learning_rate": 1.417961727995254e-06,
      "loss": 0.4604,
      "step": 345
    },
    {
      "epoch": 2.81799591002045,
      "grad_norm": 1.414788842201233,
      "learning_rate": 1.3072806164283358e-06,
      "loss": 0.3398,
      "step": 346
    },
    {
      "epoch": 2.8261758691206547,
      "grad_norm": 1.316179633140564,
      "learning_rate": 1.2010393587603974e-06,
      "loss": 0.3707,
      "step": 347
    },
    {
      "epoch": 2.834355828220859,
      "grad_norm": 2.140214443206787,
      "learning_rate": 1.099247642182205e-06,
      "loss": 0.6991,
      "step": 348
    },
    {
      "epoch": 2.8425357873210633,
      "grad_norm": 1.6871670484542847,
      "learning_rate": 1.0019147481706625e-06,
      "loss": 0.6069,
      "step": 349
    },
    {
      "epoch": 2.850715746421268,
      "grad_norm": 1.7937754392623901,
      "learning_rate": 9.090495516424713e-07,
      "loss": 0.3841,
      "step": 350
    },
    {
      "epoch": 2.8588957055214723,
      "grad_norm": 1.3567599058151245,
      "learning_rate": 8.206605201449447e-07,
      "loss": 0.3186,
      "step": 351
    },
    {
      "epoch": 2.8670756646216766,
      "grad_norm": 1.0344539880752563,
      "learning_rate": 7.36755713083892e-07,
      "loss": 0.1676,
      "step": 352
    },
    {
      "epoch": 2.8752556237218814,
      "grad_norm": 1.908477783203125,
      "learning_rate": 6.573427809888067e-07,
      "loss": 0.7295,
      "step": 353
    },
    {
      "epoch": 2.883435582822086,
      "grad_norm": 2.14554500579834,
      "learning_rate": 5.824289648152126e-07,
      "loss": 0.8187,
      "step": 354
    },
    {
      "epoch": 2.8916155419222904,
      "grad_norm": 1.6814268827438354,
      "learning_rate": 5.120210952844872e-07,
      "loss": 0.5205,
      "step": 355
    },
    {
      "epoch": 2.8997955010224947,
      "grad_norm": 1.6498082876205444,
      "learning_rate": 4.461255922609986e-07,
      "loss": 0.4557,
      "step": 356
    },
    {
      "epoch": 2.9079754601226995,
      "grad_norm": 1.4337708950042725,
      "learning_rate": 3.8474846416672874e-07,
      "loss": 0.3251,
      "step": 357
    },
    {
      "epoch": 2.9161554192229038,
      "grad_norm": 1.875313401222229,
      "learning_rate": 3.278953074334512e-07,
      "loss": 0.5001,
      "step": 358
    },
    {
      "epoch": 2.9243353783231085,
      "grad_norm": 1.350846529006958,
      "learning_rate": 2.75571305992417e-07,
      "loss": 0.2414,
      "step": 359
    },
    {
      "epoch": 2.932515337423313,
      "grad_norm": 1.5978336334228516,
      "learning_rate": 2.2778123080167135e-07,
      "loss": 0.4585,
      "step": 360
    },
    {
      "epoch": 2.9406952965235176,
      "grad_norm": 1.672541856765747,
      "learning_rate": 1.8452943941106859e-07,
      "loss": 0.5382,
      "step": 361
    },
    {
      "epoch": 2.948875255623722,
      "grad_norm": 1.3987324237823486,
      "learning_rate": 1.4581987556490095e-07,
      "loss": 0.3326,
      "step": 362
    },
    {
      "epoch": 2.957055214723926,
      "grad_norm": 1.4565430879592896,
      "learning_rate": 1.1165606884234181e-07,
      "loss": 0.4901,
      "step": 363
    },
    {
      "epoch": 2.965235173824131,
      "grad_norm": 1.3861486911773682,
      "learning_rate": 8.204113433559201e-08,
      "loss": 0.2756,
      "step": 364
    },
    {
      "epoch": 2.9734151329243352,
      "grad_norm": 1.4839295148849487,
      "learning_rate": 5.697777236585711e-08,
      "loss": 0.3303,
      "step": 365
    },
    {
      "epoch": 2.98159509202454,
      "grad_norm": 1.6138904094696045,
      "learning_rate": 3.6468268237105366e-08,
      "loss": 0.558,
      "step": 366
    },
    {
      "epoch": 2.98159509202454,
      "step": 366,
      "total_flos": 3.142935032247091e+16,
      "train_loss": 0.7803121163341843,
      "train_runtime": 701.3998,
      "train_samples_per_second": 4.183,
      "train_steps_per_second": 0.522
    }
  ],
  "logging_steps": 1,
  "max_steps": 366,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.142935032247091e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}