{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.7036059806508356,
  "eval_steps": 500,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003518029903254178,
      "grad_norm": 1.4669007062911987,
      "learning_rate": 0.0001,
      "loss": 2.9718,
      "step": 1
    },
    {
      "epoch": 0.007036059806508356,
      "grad_norm": 1.5240416526794434,
      "learning_rate": 9.949748743718594e-05,
      "loss": 3.0249,
      "step": 2
    },
    {
      "epoch": 0.010554089709762533,
      "grad_norm": 1.3310328722000122,
      "learning_rate": 9.899497487437186e-05,
      "loss": 2.7545,
      "step": 3
    },
    {
      "epoch": 0.014072119613016711,
      "grad_norm": 1.4892698526382446,
      "learning_rate": 9.84924623115578e-05,
      "loss": 2.6703,
      "step": 4
    },
    {
      "epoch": 0.01759014951627089,
      "grad_norm": 1.4727792739868164,
      "learning_rate": 9.798994974874372e-05,
      "loss": 2.4731,
      "step": 5
    },
    {
      "epoch": 0.021108179419525065,
      "grad_norm": 1.4451979398727417,
      "learning_rate": 9.748743718592965e-05,
      "loss": 2.2243,
      "step": 6
    },
    {
      "epoch": 0.024626209322779244,
      "grad_norm": 1.3103245496749878,
      "learning_rate": 9.698492462311559e-05,
      "loss": 2.0194,
      "step": 7
    },
    {
      "epoch": 0.028144239226033423,
      "grad_norm": 1.4852089881896973,
      "learning_rate": 9.64824120603015e-05,
      "loss": 1.9349,
      "step": 8
    },
    {
      "epoch": 0.0316622691292876,
      "grad_norm": 1.5170249938964844,
      "learning_rate": 9.597989949748745e-05,
      "loss": 1.7582,
      "step": 9
    },
    {
      "epoch": 0.03518029903254178,
      "grad_norm": 1.3428442478179932,
      "learning_rate": 9.547738693467337e-05,
      "loss": 1.6313,
      "step": 10
    },
    {
      "epoch": 0.03869832893579595,
      "grad_norm": 1.0400348901748657,
      "learning_rate": 9.49748743718593e-05,
      "loss": 1.4358,
      "step": 11
    },
    {
      "epoch": 0.04221635883905013,
      "grad_norm": 0.9891974329948425,
      "learning_rate": 9.447236180904523e-05,
      "loss": 1.3738,
      "step": 12
    },
    {
      "epoch": 0.04573438874230431,
      "grad_norm": 0.6980912685394287,
      "learning_rate": 9.396984924623115e-05,
      "loss": 1.425,
      "step": 13
    },
    {
      "epoch": 0.04925241864555849,
      "grad_norm": 0.6836680769920349,
      "learning_rate": 9.34673366834171e-05,
      "loss": 1.4575,
      "step": 14
    },
    {
      "epoch": 0.052770448548812667,
      "grad_norm": 0.9314870238304138,
      "learning_rate": 9.296482412060302e-05,
      "loss": 1.3206,
      "step": 15
    },
    {
      "epoch": 0.056288478452066845,
      "grad_norm": 0.6797922253608704,
      "learning_rate": 9.246231155778895e-05,
      "loss": 1.3724,
      "step": 16
    },
    {
      "epoch": 0.05980650835532102,
      "grad_norm": 0.6958814263343811,
      "learning_rate": 9.195979899497488e-05,
      "loss": 1.3661,
      "step": 17
    },
    {
      "epoch": 0.0633245382585752,
      "grad_norm": 0.7188398241996765,
      "learning_rate": 9.14572864321608e-05,
      "loss": 1.3242,
      "step": 18
    },
    {
      "epoch": 0.06684256816182937,
      "grad_norm": 0.8997742533683777,
      "learning_rate": 9.095477386934675e-05,
      "loss": 1.4049,
      "step": 19
    },
    {
      "epoch": 0.07036059806508356,
      "grad_norm": 0.8283623456954956,
      "learning_rate": 9.045226130653267e-05,
      "loss": 1.3121,
      "step": 20
    },
    {
      "epoch": 0.07387862796833773,
      "grad_norm": 0.8064684867858887,
      "learning_rate": 8.99497487437186e-05,
      "loss": 1.3451,
      "step": 21
    },
    {
      "epoch": 0.0773966578715919,
      "grad_norm": 0.8180544972419739,
      "learning_rate": 8.944723618090453e-05,
      "loss": 1.2111,
      "step": 22
    },
    {
      "epoch": 0.08091468777484609,
      "grad_norm": 0.8000004887580872,
      "learning_rate": 8.894472361809045e-05,
      "loss": 1.2933,
      "step": 23
    },
    {
      "epoch": 0.08443271767810026,
      "grad_norm": 0.8804137706756592,
      "learning_rate": 8.84422110552764e-05,
      "loss": 1.3173,
      "step": 24
    },
    {
      "epoch": 0.08795074758135445,
      "grad_norm": 0.8556327819824219,
      "learning_rate": 8.793969849246232e-05,
      "loss": 1.321,
      "step": 25
    },
    {
      "epoch": 0.09146877748460862,
      "grad_norm": 0.827410876750946,
      "learning_rate": 8.743718592964825e-05,
      "loss": 1.2195,
      "step": 26
    },
    {
      "epoch": 0.09498680738786279,
      "grad_norm": 0.9081262946128845,
      "learning_rate": 8.693467336683418e-05,
      "loss": 1.2451,
      "step": 27
    },
    {
      "epoch": 0.09850483729111698,
      "grad_norm": 0.9331269860267639,
      "learning_rate": 8.64321608040201e-05,
      "loss": 1.2204,
      "step": 28
    },
    {
      "epoch": 0.10202286719437115,
      "grad_norm": 1.0290558338165283,
      "learning_rate": 8.592964824120603e-05,
      "loss": 1.2379,
      "step": 29
    },
    {
      "epoch": 0.10554089709762533,
      "grad_norm": 1.1296031475067139,
      "learning_rate": 8.542713567839196e-05,
      "loss": 1.2412,
      "step": 30
    },
    {
      "epoch": 0.1090589270008795,
      "grad_norm": 1.1690081357955933,
      "learning_rate": 8.49246231155779e-05,
      "loss": 1.1888,
      "step": 31
    },
    {
      "epoch": 0.11257695690413369,
      "grad_norm": 1.1313647031784058,
      "learning_rate": 8.442211055276383e-05,
      "loss": 1.2961,
      "step": 32
    },
    {
      "epoch": 0.11609498680738786,
      "grad_norm": 1.1976656913757324,
      "learning_rate": 8.391959798994975e-05,
      "loss": 1.2387,
      "step": 33
    },
    {
      "epoch": 0.11961301671064203,
      "grad_norm": 1.20232355594635,
      "learning_rate": 8.341708542713568e-05,
      "loss": 1.3125,
      "step": 34
    },
    {
      "epoch": 0.12313104661389622,
      "grad_norm": 1.2482579946517944,
      "learning_rate": 8.291457286432161e-05,
      "loss": 1.322,
      "step": 35
    },
    {
      "epoch": 0.1266490765171504,
      "grad_norm": 1.0197736024856567,
      "learning_rate": 8.241206030150754e-05,
      "loss": 1.1192,
      "step": 36
    },
    {
      "epoch": 0.13016710642040458,
      "grad_norm": 0.9190375208854675,
      "learning_rate": 8.190954773869348e-05,
      "loss": 1.2522,
      "step": 37
    },
    {
      "epoch": 0.13368513632365875,
      "grad_norm": 0.7511453032493591,
      "learning_rate": 8.14070351758794e-05,
      "loss": 1.0525,
      "step": 38
    },
    {
      "epoch": 0.13720316622691292,
      "grad_norm": 0.7151877880096436,
      "learning_rate": 8.090452261306533e-05,
      "loss": 1.1839,
      "step": 39
    },
    {
      "epoch": 0.14072119613016712,
      "grad_norm": 0.6375951766967773,
      "learning_rate": 8.040201005025126e-05,
      "loss": 1.2203,
      "step": 40
    },
    {
      "epoch": 0.1442392260334213,
      "grad_norm": 0.6267354488372803,
      "learning_rate": 7.989949748743719e-05,
      "loss": 1.1996,
      "step": 41
    },
    {
      "epoch": 0.14775725593667546,
      "grad_norm": 0.5620112419128418,
      "learning_rate": 7.939698492462313e-05,
      "loss": 1.1745,
      "step": 42
    },
    {
      "epoch": 0.15127528583992964,
      "grad_norm": 0.6898969411849976,
      "learning_rate": 7.889447236180904e-05,
      "loss": 1.2377,
      "step": 43
    },
    {
      "epoch": 0.1547933157431838,
      "grad_norm": 0.5548388957977295,
      "learning_rate": 7.839195979899498e-05,
      "loss": 1.1654,
      "step": 44
    },
    {
      "epoch": 0.158311345646438,
      "grad_norm": 0.5869529843330383,
      "learning_rate": 7.788944723618091e-05,
      "loss": 1.1669,
      "step": 45
    },
    {
      "epoch": 0.16182937554969218,
      "grad_norm": 0.6272417902946472,
      "learning_rate": 7.738693467336684e-05,
      "loss": 1.132,
      "step": 46
    },
    {
      "epoch": 0.16534740545294635,
      "grad_norm": 0.6158267855644226,
      "learning_rate": 7.688442211055277e-05,
      "loss": 1.0767,
      "step": 47
    },
    {
      "epoch": 0.16886543535620052,
      "grad_norm": 0.661561906337738,
      "learning_rate": 7.638190954773869e-05,
      "loss": 1.1867,
      "step": 48
    },
    {
      "epoch": 0.1723834652594547,
      "grad_norm": 0.5605206489562988,
      "learning_rate": 7.587939698492463e-05,
      "loss": 1.1243,
      "step": 49
    },
    {
      "epoch": 0.1759014951627089,
      "grad_norm": 0.6338799595832825,
      "learning_rate": 7.537688442211056e-05,
      "loss": 1.1635,
      "step": 50
    },
    {
      "epoch": 0.17941952506596306,
      "grad_norm": 0.7251884937286377,
      "learning_rate": 7.487437185929649e-05,
      "loss": 1.1462,
      "step": 51
    },
    {
      "epoch": 0.18293755496921724,
      "grad_norm": 0.5688169598579407,
      "learning_rate": 7.437185929648241e-05,
      "loss": 1.1351,
      "step": 52
    },
    {
      "epoch": 0.1864555848724714,
      "grad_norm": 0.6056070923805237,
      "learning_rate": 7.386934673366834e-05,
      "loss": 1.1352,
      "step": 53
    },
    {
      "epoch": 0.18997361477572558,
      "grad_norm": 0.8283679485321045,
      "learning_rate": 7.336683417085427e-05,
      "loss": 1.2222,
      "step": 54
    },
    {
      "epoch": 0.19349164467897978,
      "grad_norm": 0.6316900253295898,
      "learning_rate": 7.28643216080402e-05,
      "loss": 1.2023,
      "step": 55
    },
    {
      "epoch": 0.19700967458223395,
      "grad_norm": 0.6092143058776855,
      "learning_rate": 7.236180904522614e-05,
      "loss": 1.0762,
      "step": 56
    },
    {
      "epoch": 0.20052770448548812,
      "grad_norm": 0.5600019097328186,
      "learning_rate": 7.185929648241206e-05,
      "loss": 1.0127,
      "step": 57
    },
    {
      "epoch": 0.2040457343887423,
      "grad_norm": 0.6157863736152649,
      "learning_rate": 7.135678391959799e-05,
      "loss": 1.1016,
      "step": 58
    },
    {
      "epoch": 0.2075637642919965,
      "grad_norm": 0.6391822099685669,
      "learning_rate": 7.085427135678392e-05,
      "loss": 1.2009,
      "step": 59
    },
    {
      "epoch": 0.21108179419525067,
      "grad_norm": 0.5637600421905518,
      "learning_rate": 7.035175879396985e-05,
      "loss": 1.1419,
      "step": 60
    },
    {
      "epoch": 0.21459982409850484,
      "grad_norm": 0.6826542019844055,
      "learning_rate": 6.984924623115579e-05,
      "loss": 1.1084,
      "step": 61
    },
    {
      "epoch": 0.218117854001759,
      "grad_norm": 0.6475107073783875,
      "learning_rate": 6.93467336683417e-05,
      "loss": 1.2033,
      "step": 62
    },
    {
      "epoch": 0.22163588390501318,
      "grad_norm": 0.5701493620872498,
      "learning_rate": 6.884422110552764e-05,
      "loss": 1.1425,
      "step": 63
    },
    {
      "epoch": 0.22515391380826738,
      "grad_norm": 0.5416231155395508,
      "learning_rate": 6.834170854271357e-05,
      "loss": 1.0869,
      "step": 64
    },
    {
      "epoch": 0.22867194371152155,
      "grad_norm": 0.611254870891571,
      "learning_rate": 6.78391959798995e-05,
      "loss": 1.1344,
      "step": 65
    },
    {
      "epoch": 0.23218997361477572,
      "grad_norm": 0.5644116401672363,
      "learning_rate": 6.733668341708544e-05,
      "loss": 1.0655,
      "step": 66
    },
    {
      "epoch": 0.2357080035180299,
      "grad_norm": 0.5953249931335449,
      "learning_rate": 6.683417085427135e-05,
      "loss": 1.1267,
      "step": 67
    },
    {
      "epoch": 0.23922603342128407,
      "grad_norm": 0.5902895331382751,
      "learning_rate": 6.633165829145729e-05,
      "loss": 1.1207,
      "step": 68
    },
    {
      "epoch": 0.24274406332453827,
      "grad_norm": 0.571882426738739,
      "learning_rate": 6.582914572864322e-05,
      "loss": 1.0945,
      "step": 69
    },
    {
      "epoch": 0.24626209322779244,
      "grad_norm": 0.6372458934783936,
      "learning_rate": 6.532663316582915e-05,
      "loss": 1.1933,
      "step": 70
    },
    {
      "epoch": 0.2497801231310466,
      "grad_norm": 0.6739147901535034,
      "learning_rate": 6.482412060301508e-05,
      "loss": 1.1202,
      "step": 71
    },
    {
      "epoch": 0.2532981530343008,
      "grad_norm": 0.6515147686004639,
      "learning_rate": 6.4321608040201e-05,
      "loss": 1.1685,
      "step": 72
    },
    {
      "epoch": 0.256816182937555,
      "grad_norm": 0.5706716775894165,
      "learning_rate": 6.381909547738694e-05,
      "loss": 1.1084,
      "step": 73
    },
    {
      "epoch": 0.26033421284080915,
      "grad_norm": 0.595585286617279,
      "learning_rate": 6.331658291457287e-05,
      "loss": 1.1218,
      "step": 74
    },
    {
      "epoch": 0.2638522427440633,
      "grad_norm": 0.6020475625991821,
      "learning_rate": 6.28140703517588e-05,
      "loss": 1.1282,
      "step": 75
    },
    {
      "epoch": 0.2673702726473175,
      "grad_norm": 0.628376305103302,
      "learning_rate": 6.231155778894473e-05,
      "loss": 1.1067,
      "step": 76
    },
    {
      "epoch": 0.27088830255057167,
      "grad_norm": 0.6371076107025146,
      "learning_rate": 6.180904522613065e-05,
      "loss": 1.1466,
      "step": 77
    },
    {
      "epoch": 0.27440633245382584,
      "grad_norm": 0.6206318140029907,
      "learning_rate": 6.130653266331658e-05,
      "loss": 1.0801,
      "step": 78
    },
    {
      "epoch": 0.27792436235708,
      "grad_norm": 0.6293841600418091,
      "learning_rate": 6.080402010050251e-05,
      "loss": 1.1644,
      "step": 79
    },
    {
      "epoch": 0.28144239226033424,
      "grad_norm": 0.6434080600738525,
      "learning_rate": 6.030150753768844e-05,
      "loss": 1.0589,
      "step": 80
    },
    {
      "epoch": 0.2849604221635884,
      "grad_norm": 0.5857638120651245,
      "learning_rate": 5.979899497487438e-05,
      "loss": 1.1711,
      "step": 81
    },
    {
      "epoch": 0.2884784520668426,
      "grad_norm": 0.6163449883460999,
      "learning_rate": 5.929648241206031e-05,
      "loss": 1.1627,
      "step": 82
    },
    {
      "epoch": 0.29199648197009676,
      "grad_norm": 0.6543634533882141,
      "learning_rate": 5.879396984924623e-05,
      "loss": 1.0909,
      "step": 83
    },
    {
      "epoch": 0.2955145118733509,
      "grad_norm": 0.6609559059143066,
      "learning_rate": 5.829145728643216e-05,
      "loss": 1.1505,
      "step": 84
    },
    {
      "epoch": 0.2990325417766051,
      "grad_norm": 0.5798302292823792,
      "learning_rate": 5.778894472361809e-05,
      "loss": 1.0834,
      "step": 85
    },
    {
      "epoch": 0.30255057167985927,
      "grad_norm": 0.6974066495895386,
      "learning_rate": 5.728643216080403e-05,
      "loss": 1.0965,
      "step": 86
    },
    {
      "epoch": 0.30606860158311344,
      "grad_norm": 0.67149817943573,
      "learning_rate": 5.6783919597989955e-05,
      "loss": 1.09,
      "step": 87
    },
    {
      "epoch": 0.3095866314863676,
      "grad_norm": 0.5761735439300537,
      "learning_rate": 5.628140703517588e-05,
      "loss": 1.1436,
      "step": 88
    },
    {
      "epoch": 0.3131046613896218,
      "grad_norm": 0.6142584681510925,
      "learning_rate": 5.577889447236181e-05,
      "loss": 1.0489,
      "step": 89
    },
    {
      "epoch": 0.316622691292876,
      "grad_norm": 0.6407614946365356,
      "learning_rate": 5.527638190954774e-05,
      "loss": 1.1449,
      "step": 90
    },
    {
      "epoch": 0.3201407211961302,
      "grad_norm": 0.6835021376609802,
      "learning_rate": 5.477386934673368e-05,
      "loss": 1.1332,
      "step": 91
    },
    {
      "epoch": 0.32365875109938436,
      "grad_norm": 0.5755856037139893,
      "learning_rate": 5.4271356783919604e-05,
      "loss": 1.1195,
      "step": 92
    },
    {
      "epoch": 0.32717678100263853,
      "grad_norm": 0.6232398748397827,
      "learning_rate": 5.376884422110553e-05,
      "loss": 1.1696,
      "step": 93
    },
    {
      "epoch": 0.3306948109058927,
      "grad_norm": 0.6193405389785767,
      "learning_rate": 5.3266331658291455e-05,
      "loss": 1.1106,
      "step": 94
    },
    {
      "epoch": 0.33421284080914687,
      "grad_norm": 0.6834057569503784,
      "learning_rate": 5.276381909547739e-05,
      "loss": 1.1349,
      "step": 95
    },
    {
      "epoch": 0.33773087071240104,
      "grad_norm": 0.7168384790420532,
      "learning_rate": 5.226130653266332e-05,
      "loss": 1.2054,
      "step": 96
    },
    {
      "epoch": 0.3412489006156552,
      "grad_norm": 0.6553971767425537,
      "learning_rate": 5.175879396984925e-05,
      "loss": 1.0975,
      "step": 97
    },
    {
      "epoch": 0.3447669305189094,
      "grad_norm": 0.6329600811004639,
      "learning_rate": 5.125628140703518e-05,
      "loss": 1.1212,
      "step": 98
    },
    {
      "epoch": 0.3482849604221636,
      "grad_norm": 0.6656339764595032,
      "learning_rate": 5.0753768844221104e-05,
      "loss": 1.1451,
      "step": 99
    },
    {
      "epoch": 0.3518029903254178,
      "grad_norm": 0.6817747950553894,
      "learning_rate": 5.0251256281407036e-05,
      "loss": 1.084,
      "step": 100
    },
    {
      "epoch": 0.35532102022867196,
      "grad_norm": 0.6384849548339844,
      "learning_rate": 4.974874371859297e-05,
      "loss": 1.047,
      "step": 101
    },
    {
      "epoch": 0.35883905013192613,
      "grad_norm": 0.6342082023620605,
      "learning_rate": 4.92462311557789e-05,
      "loss": 1.1122,
      "step": 102
    },
    {
      "epoch": 0.3623570800351803,
      "grad_norm": 0.6114000082015991,
      "learning_rate": 4.874371859296483e-05,
      "loss": 1.1094,
      "step": 103
    },
    {
      "epoch": 0.3658751099384345,
      "grad_norm": 0.6310352683067322,
      "learning_rate": 4.824120603015075e-05,
      "loss": 1.1508,
      "step": 104
    },
    {
      "epoch": 0.36939313984168864,
      "grad_norm": 0.6773234605789185,
      "learning_rate": 4.7738693467336685e-05,
      "loss": 1.0511,
      "step": 105
    },
    {
      "epoch": 0.3729111697449428,
      "grad_norm": 0.6625077724456787,
      "learning_rate": 4.723618090452262e-05,
      "loss": 1.1422,
      "step": 106
    },
    {
      "epoch": 0.376429199648197,
      "grad_norm": 0.6125949025154114,
      "learning_rate": 4.673366834170855e-05,
      "loss": 1.1189,
      "step": 107
    },
    {
      "epoch": 0.37994722955145116,
      "grad_norm": 0.684280514717102,
      "learning_rate": 4.6231155778894475e-05,
      "loss": 1.2249,
      "step": 108
    },
    {
      "epoch": 0.3834652594547054,
      "grad_norm": 0.8305927515029907,
      "learning_rate": 4.57286432160804e-05,
      "loss": 1.1758,
      "step": 109
    },
    {
      "epoch": 0.38698328935795956,
      "grad_norm": 0.6081312894821167,
      "learning_rate": 4.522613065326633e-05,
      "loss": 1.0853,
      "step": 110
    },
    {
      "epoch": 0.39050131926121373,
      "grad_norm": 0.716929018497467,
      "learning_rate": 4.4723618090452266e-05,
      "loss": 1.1903,
      "step": 111
    },
    {
      "epoch": 0.3940193491644679,
      "grad_norm": 0.5968315005302429,
      "learning_rate": 4.42211055276382e-05,
      "loss": 1.0717,
      "step": 112
    },
    {
      "epoch": 0.3975373790677221,
      "grad_norm": 0.6502510905265808,
      "learning_rate": 4.3718592964824124e-05,
      "loss": 1.0629,
      "step": 113
    },
    {
      "epoch": 0.40105540897097625,
      "grad_norm": 0.6408775448799133,
      "learning_rate": 4.321608040201005e-05,
      "loss": 1.0937,
      "step": 114
    },
    {
      "epoch": 0.4045734388742304,
      "grad_norm": 0.6137213110923767,
      "learning_rate": 4.271356783919598e-05,
      "loss": 1.0853,
      "step": 115
    },
    {
      "epoch": 0.4080914687774846,
      "grad_norm": 0.6401947736740112,
      "learning_rate": 4.2211055276381914e-05,
      "loss": 1.1542,
      "step": 116
    },
    {
      "epoch": 0.41160949868073876,
      "grad_norm": 0.6332412362098694,
      "learning_rate": 4.170854271356784e-05,
      "loss": 1.0731,
      "step": 117
    },
    {
      "epoch": 0.415127528583993,
      "grad_norm": 0.6274076700210571,
      "learning_rate": 4.120603015075377e-05,
      "loss": 1.0707,
      "step": 118
    },
    {
      "epoch": 0.41864555848724716,
      "grad_norm": 0.632633626461029,
      "learning_rate": 4.07035175879397e-05,
      "loss": 1.108,
      "step": 119
    },
    {
      "epoch": 0.42216358839050133,
      "grad_norm": 0.6979479193687439,
      "learning_rate": 4.020100502512563e-05,
      "loss": 1.1483,
      "step": 120
    },
    {
      "epoch": 0.4256816182937555,
      "grad_norm": 0.7355033755302429,
      "learning_rate": 3.969849246231156e-05,
      "loss": 1.1358,
      "step": 121
    },
    {
      "epoch": 0.4291996481970097,
      "grad_norm": 0.6254828572273254,
      "learning_rate": 3.919597989949749e-05,
      "loss": 1.1753,
      "step": 122
    },
    {
      "epoch": 0.43271767810026385,
      "grad_norm": 0.6851824522018433,
      "learning_rate": 3.869346733668342e-05,
      "loss": 1.0128,
      "step": 123
    },
    {
      "epoch": 0.436235708003518,
      "grad_norm": 0.6097928285598755,
      "learning_rate": 3.8190954773869346e-05,
      "loss": 1.1235,
      "step": 124
    },
    {
      "epoch": 0.4397537379067722,
      "grad_norm": 0.6748325824737549,
      "learning_rate": 3.768844221105528e-05,
      "loss": 1.0452,
      "step": 125
    },
    {
      "epoch": 0.44327176781002636,
      "grad_norm": 0.6666128039360046,
      "learning_rate": 3.7185929648241204e-05,
      "loss": 1.1075,
      "step": 126
    },
    {
      "epoch": 0.4467897977132806,
      "grad_norm": 0.7474984526634216,
      "learning_rate": 3.668341708542714e-05,
      "loss": 1.0695,
      "step": 127
    },
    {
      "epoch": 0.45030782761653476,
      "grad_norm": 0.6925339698791504,
      "learning_rate": 3.618090452261307e-05,
      "loss": 1.1024,
      "step": 128
    },
    {
      "epoch": 0.45382585751978893,
      "grad_norm": 0.6140123009681702,
      "learning_rate": 3.5678391959798995e-05,
      "loss": 1.0788,
      "step": 129
    },
    {
      "epoch": 0.4573438874230431,
      "grad_norm": 0.6771907806396484,
      "learning_rate": 3.517587939698493e-05,
      "loss": 1.0913,
      "step": 130
    },
    {
      "epoch": 0.4608619173262973,
      "grad_norm": 0.6700430512428284,
      "learning_rate": 3.467336683417085e-05,
      "loss": 1.0566,
      "step": 131
    },
    {
      "epoch": 0.46437994722955145,
      "grad_norm": 0.6931480169296265,
      "learning_rate": 3.4170854271356785e-05,
      "loss": 1.059,
      "step": 132
    },
    {
      "epoch": 0.4678979771328056,
      "grad_norm": 0.6608771085739136,
      "learning_rate": 3.366834170854272e-05,
      "loss": 1.119,
      "step": 133
    },
    {
      "epoch": 0.4714160070360598,
      "grad_norm": 0.6470663547515869,
      "learning_rate": 3.3165829145728643e-05,
      "loss": 1.0662,
      "step": 134
    },
    {
      "epoch": 0.47493403693931396,
      "grad_norm": 0.5729122757911682,
      "learning_rate": 3.2663316582914576e-05,
      "loss": 0.9999,
      "step": 135
    },
    {
      "epoch": 0.47845206684256814,
      "grad_norm": 0.6993862390518188,
      "learning_rate": 3.21608040201005e-05,
      "loss": 1.1819,
      "step": 136
    },
    {
      "epoch": 0.48197009674582236,
      "grad_norm": 0.6929494738578796,
      "learning_rate": 3.1658291457286434e-05,
      "loss": 1.1719,
      "step": 137
    },
    {
      "epoch": 0.48548812664907653,
      "grad_norm": 0.6951282620429993,
      "learning_rate": 3.1155778894472366e-05,
      "loss": 1.0716,
      "step": 138
    },
    {
      "epoch": 0.4890061565523307,
      "grad_norm": 0.6766693592071533,
      "learning_rate": 3.065326633165829e-05,
      "loss": 1.1589,
      "step": 139
    },
    {
      "epoch": 0.4925241864555849,
      "grad_norm": 0.6500269174575806,
      "learning_rate": 3.015075376884422e-05,
      "loss": 1.1122,
      "step": 140
    },
    {
      "epoch": 0.49604221635883905,
      "grad_norm": 0.7741857171058655,
      "learning_rate": 2.9648241206030153e-05,
      "loss": 1.1594,
      "step": 141
    },
    {
      "epoch": 0.4995602462620932,
      "grad_norm": 0.6630749106407166,
      "learning_rate": 2.914572864321608e-05,
      "loss": 1.0615,
      "step": 142
    },
    {
      "epoch": 0.5030782761653474,
      "grad_norm": 0.7230671048164368,
      "learning_rate": 2.8643216080402015e-05,
      "loss": 1.1521,
      "step": 143
    },
    {
      "epoch": 0.5065963060686016,
      "grad_norm": 0.6624138355255127,
      "learning_rate": 2.814070351758794e-05,
      "loss": 1.0347,
      "step": 144
    },
    {
      "epoch": 0.5101143359718557,
      "grad_norm": 0.6560067534446716,
      "learning_rate": 2.763819095477387e-05,
      "loss": 1.1214,
      "step": 145
    },
    {
      "epoch": 0.51363236587511,
      "grad_norm": 0.6742956638336182,
      "learning_rate": 2.7135678391959802e-05,
      "loss": 1.0956,
      "step": 146
    },
    {
      "epoch": 0.5171503957783641,
      "grad_norm": 0.706284761428833,
      "learning_rate": 2.6633165829145728e-05,
      "loss": 1.1058,
      "step": 147
    },
    {
      "epoch": 0.5206684256816183,
      "grad_norm": 0.6924006938934326,
      "learning_rate": 2.613065326633166e-05,
      "loss": 1.186,
      "step": 148
    },
    {
      "epoch": 0.5241864555848724,
      "grad_norm": 0.6287305951118469,
      "learning_rate": 2.562814070351759e-05,
      "loss": 1.0422,
      "step": 149
    },
    {
      "epoch": 0.5277044854881267,
      "grad_norm": 0.6957104206085205,
      "learning_rate": 2.5125628140703518e-05,
      "loss": 1.0896,
      "step": 150
    },
    {
      "epoch": 0.5312225153913809,
      "grad_norm": 0.7039506435394287,
      "learning_rate": 2.462311557788945e-05,
      "loss": 1.0818,
      "step": 151
    },
    {
      "epoch": 0.534740545294635,
      "grad_norm": 0.6502148509025574,
      "learning_rate": 2.4120603015075376e-05,
      "loss": 1.112,
      "step": 152
    },
    {
      "epoch": 0.5382585751978892,
      "grad_norm": 0.6823992133140564,
      "learning_rate": 2.361809045226131e-05,
      "loss": 1.0298,
      "step": 153
    },
    {
      "epoch": 0.5417766051011433,
      "grad_norm": 0.7539629936218262,
      "learning_rate": 2.3115577889447238e-05,
      "loss": 1.0618,
      "step": 154
    },
    {
      "epoch": 0.5452946350043976,
      "grad_norm": 0.6974697113037109,
      "learning_rate": 2.2613065326633167e-05,
      "loss": 1.1702,
      "step": 155
    },
    {
      "epoch": 0.5488126649076517,
      "grad_norm": 0.7035180330276489,
      "learning_rate": 2.21105527638191e-05,
      "loss": 1.0714,
      "step": 156
    },
    {
      "epoch": 0.5523306948109059,
      "grad_norm": 0.9007865786552429,
      "learning_rate": 2.1608040201005025e-05,
      "loss": 1.0565,
      "step": 157
    },
    {
      "epoch": 0.55584872471416,
      "grad_norm": 0.7083996534347534,
      "learning_rate": 2.1105527638190957e-05,
      "loss": 1.1425,
      "step": 158
    },
    {
      "epoch": 0.5593667546174143,
      "grad_norm": 0.7241733074188232,
      "learning_rate": 2.0603015075376886e-05,
      "loss": 1.1211,
      "step": 159
    },
    {
      "epoch": 0.5628847845206685,
      "grad_norm": 0.7474963068962097,
      "learning_rate": 2.0100502512562815e-05,
      "loss": 1.0546,
      "step": 160
    },
    {
      "epoch": 0.5664028144239226,
      "grad_norm": 0.7051181793212891,
      "learning_rate": 1.9597989949748744e-05,
      "loss": 0.9878,
      "step": 161
    },
    {
      "epoch": 0.5699208443271768,
      "grad_norm": 0.7359694242477417,
      "learning_rate": 1.9095477386934673e-05,
      "loss": 1.1283,
      "step": 162
    },
    {
      "epoch": 0.5734388742304309,
      "grad_norm": 0.6908060908317566,
      "learning_rate": 1.8592964824120602e-05,
      "loss": 1.1287,
      "step": 163
    },
    {
      "epoch": 0.5769569041336852,
      "grad_norm": 0.7220682501792908,
      "learning_rate": 1.8090452261306535e-05,
      "loss": 1.0424,
      "step": 164
    },
    {
      "epoch": 0.5804749340369393,
      "grad_norm": 0.7415404319763184,
      "learning_rate": 1.7587939698492464e-05,
      "loss": 1.0749,
      "step": 165
    },
    {
      "epoch": 0.5839929639401935,
      "grad_norm": 0.7168678641319275,
      "learning_rate": 1.7085427135678393e-05,
      "loss": 1.1308,
      "step": 166
    },
    {
      "epoch": 0.5875109938434476,
      "grad_norm": 0.653301477432251,
      "learning_rate": 1.6582914572864322e-05,
      "loss": 1.0777,
      "step": 167
    },
    {
      "epoch": 0.5910290237467019,
      "grad_norm": 0.7567819952964783,
      "learning_rate": 1.608040201005025e-05,
      "loss": 1.1476,
      "step": 168
    },
    {
      "epoch": 0.594547053649956,
      "grad_norm": 0.7353144288063049,
      "learning_rate": 1.5577889447236183e-05,
      "loss": 1.0961,
      "step": 169
    },
    {
      "epoch": 0.5980650835532102,
      "grad_norm": 0.6990388035774231,
      "learning_rate": 1.507537688442211e-05,
      "loss": 1.1619,
      "step": 170
    },
    {
      "epoch": 0.6015831134564644,
      "grad_norm": 0.7032533288002014,
      "learning_rate": 1.457286432160804e-05,
      "loss": 1.0619,
      "step": 171
    },
    {
      "epoch": 0.6051011433597185,
      "grad_norm": 0.6197975873947144,
      "learning_rate": 1.407035175879397e-05,
      "loss": 1.0953,
      "step": 172
    },
    {
      "epoch": 0.6086191732629728,
      "grad_norm": 0.746258556842804,
      "learning_rate": 1.3567839195979901e-05,
      "loss": 1.1201,
      "step": 173
    },
    {
      "epoch": 0.6121372031662269,
      "grad_norm": 0.6444905996322632,
      "learning_rate": 1.306532663316583e-05,
      "loss": 1.0241,
      "step": 174
    },
    {
      "epoch": 0.6156552330694811,
      "grad_norm": 0.7037890553474426,
      "learning_rate": 1.2562814070351759e-05,
      "loss": 1.0739,
      "step": 175
    },
    {
      "epoch": 0.6191732629727352,
      "grad_norm": 0.7138697504997253,
      "learning_rate": 1.2060301507537688e-05,
      "loss": 1.1102,
      "step": 176
    },
    {
      "epoch": 0.6226912928759895,
      "grad_norm": 0.7358911037445068,
      "learning_rate": 1.1557788944723619e-05,
      "loss": 1.1945,
      "step": 177
    },
    {
      "epoch": 0.6262093227792436,
      "grad_norm": 0.7306352853775024,
      "learning_rate": 1.105527638190955e-05,
      "loss": 1.0887,
      "step": 178
    },
    {
      "epoch": 0.6297273526824978,
      "grad_norm": 0.7626399993896484,
      "learning_rate": 1.0552763819095479e-05,
      "loss": 1.0918,
      "step": 179
    },
    {
      "epoch": 0.633245382585752,
      "grad_norm": 0.7157562375068665,
      "learning_rate": 1.0050251256281408e-05,
      "loss": 1.0794,
      "step": 180
    },
    {
      "epoch": 0.6367634124890061,
      "grad_norm": 0.674655556678772,
      "learning_rate": 9.547738693467337e-06,
      "loss": 1.1632,
      "step": 181
    },
    {
      "epoch": 0.6402814423922604,
      "grad_norm": 0.7276845574378967,
      "learning_rate": 9.045226130653267e-06,
      "loss": 1.0664,
      "step": 182
    },
    {
      "epoch": 0.6437994722955145,
      "grad_norm": 0.7614260315895081,
      "learning_rate": 8.542713567839196e-06,
      "loss": 1.1185,
      "step": 183
    },
    {
      "epoch": 0.6473175021987687,
      "grad_norm": 0.691209614276886,
      "learning_rate": 8.040201005025125e-06,
      "loss": 1.0648,
      "step": 184
    },
    {
      "epoch": 0.6508355321020228,
      "grad_norm": 0.6736161708831787,
      "learning_rate": 7.537688442211055e-06,
      "loss": 1.11,
      "step": 185
    },
    {
      "epoch": 0.6543535620052771,
      "grad_norm": 0.6875973343849182,
      "learning_rate": 7.035175879396985e-06,
      "loss": 1.1085,
      "step": 186
    },
    {
      "epoch": 0.6578715919085312,
      "grad_norm": 0.6715053915977478,
      "learning_rate": 6.532663316582915e-06,
      "loss": 1.1391,
      "step": 187
    },
    {
      "epoch": 0.6613896218117854,
      "grad_norm": 0.7241913080215454,
      "learning_rate": 6.030150753768844e-06,
      "loss": 1.193,
      "step": 188
    },
    {
      "epoch": 0.6649076517150396,
      "grad_norm": 0.722939133644104,
      "learning_rate": 5.527638190954775e-06,
      "loss": 1.1218,
      "step": 189
    },
    {
      "epoch": 0.6684256816182937,
      "grad_norm": 0.7348630428314209,
      "learning_rate": 5.025125628140704e-06,
      "loss": 1.0771,
      "step": 190
    },
    {
      "epoch": 0.671943711521548,
      "grad_norm": 0.72852623462677,
      "learning_rate": 4.522613065326634e-06,
      "loss": 1.1196,
      "step": 191
    },
    {
      "epoch": 0.6754617414248021,
      "grad_norm": 0.7617117762565613,
      "learning_rate": 4.020100502512563e-06,
      "loss": 1.1313,
      "step": 192
    },
    {
      "epoch": 0.6789797713280563,
      "grad_norm": 0.8029654622077942,
      "learning_rate": 3.5175879396984926e-06,
      "loss": 1.1405,
      "step": 193
    },
    {
      "epoch": 0.6824978012313104,
      "grad_norm": 0.6885625123977661,
      "learning_rate": 3.015075376884422e-06,
      "loss": 1.0565,
      "step": 194
    },
    {
      "epoch": 0.6860158311345647,
      "grad_norm": 0.7057883143424988,
      "learning_rate": 2.512562814070352e-06,
      "loss": 1.1625,
      "step": 195
    },
    {
      "epoch": 0.6895338610378188,
      "grad_norm": 0.7429342269897461,
      "learning_rate": 2.0100502512562813e-06,
      "loss": 1.044,
      "step": 196
    },
    {
      "epoch": 0.693051890941073,
      "grad_norm": 0.7036694884300232,
      "learning_rate": 1.507537688442211e-06,
      "loss": 1.0991,
      "step": 197
    },
    {
      "epoch": 0.6965699208443272,
      "grad_norm": 0.6950182318687439,
      "learning_rate": 1.0050251256281407e-06,
      "loss": 1.1014,
      "step": 198
    },
    {
      "epoch": 0.7000879507475813,
      "grad_norm": 0.7009806632995605,
      "learning_rate": 5.025125628140703e-07,
      "loss": 1.1108,
      "step": 199
    },
    {
      "epoch": 0.7036059806508356,
      "grad_norm": 0.6382765769958496,
      "learning_rate": 0.0,
      "loss": 1.0479,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5191482454605824e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}