{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9921259842519685,
  "eval_steps": 500,
  "global_step": 380,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005249343832020997,
      "grad_norm": 4.262586140207107,
      "learning_rate": 1.2500000000000002e-07,
      "loss": 1.2143,
      "step": 1
    },
    {
      "epoch": 0.010498687664041995,
      "grad_norm": 4.1559742669756154,
      "learning_rate": 2.5000000000000004e-07,
      "loss": 1.2307,
      "step": 2
    },
    {
      "epoch": 0.015748031496062992,
      "grad_norm": 4.2196647284049895,
      "learning_rate": 3.75e-07,
      "loss": 1.2286,
      "step": 3
    },
    {
      "epoch": 0.02099737532808399,
      "grad_norm": 4.13634077943981,
      "learning_rate": 5.000000000000001e-07,
      "loss": 1.2002,
      "step": 4
    },
    {
      "epoch": 0.026246719160104987,
      "grad_norm": 4.015668455829927,
      "learning_rate": 6.25e-07,
      "loss": 1.1672,
      "step": 5
    },
    {
      "epoch": 0.031496062992125984,
      "grad_norm": 3.832855314884781,
      "learning_rate": 7.5e-07,
      "loss": 1.1993,
      "step": 6
    },
    {
      "epoch": 0.03674540682414698,
      "grad_norm": 3.8323407788221733,
      "learning_rate": 8.75e-07,
      "loss": 1.1554,
      "step": 7
    },
    {
      "epoch": 0.04199475065616798,
      "grad_norm": 3.7465244180174917,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 1.1672,
      "step": 8
    },
    {
      "epoch": 0.047244094488188976,
      "grad_norm": 3.7827251172961986,
      "learning_rate": 1.125e-06,
      "loss": 1.1755,
      "step": 9
    },
    {
      "epoch": 0.05249343832020997,
      "grad_norm": 3.470602675526565,
      "learning_rate": 1.25e-06,
      "loss": 1.1419,
      "step": 10
    },
    {
      "epoch": 0.05774278215223097,
      "grad_norm": 3.556221853917274,
      "learning_rate": 1.3750000000000002e-06,
      "loss": 1.194,
      "step": 11
    },
    {
      "epoch": 0.06299212598425197,
      "grad_norm": 3.324934060085957,
      "learning_rate": 1.5e-06,
      "loss": 1.1336,
      "step": 12
    },
    {
      "epoch": 0.06824146981627296,
      "grad_norm": 2.965981688480075,
      "learning_rate": 1.6250000000000001e-06,
      "loss": 1.1349,
      "step": 13
    },
    {
      "epoch": 0.07349081364829396,
      "grad_norm": 2.8658973663115046,
      "learning_rate": 1.75e-06,
      "loss": 1.1776,
      "step": 14
    },
    {
      "epoch": 0.07874015748031496,
      "grad_norm": 2.720689909744523,
      "learning_rate": 1.8750000000000003e-06,
      "loss": 1.1549,
      "step": 15
    },
    {
      "epoch": 0.08398950131233596,
      "grad_norm": 2.439062154183451,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.141,
      "step": 16
    },
    {
      "epoch": 0.08923884514435695,
      "grad_norm": 2.1353279033918002,
      "learning_rate": 2.125e-06,
      "loss": 1.139,
      "step": 17
    },
    {
      "epoch": 0.09448818897637795,
      "grad_norm": 1.2092875477650313,
      "learning_rate": 2.25e-06,
      "loss": 1.0516,
      "step": 18
    },
    {
      "epoch": 0.09973753280839895,
      "grad_norm": 1.0763847439987342,
      "learning_rate": 2.375e-06,
      "loss": 1.0802,
      "step": 19
    },
    {
      "epoch": 0.10498687664041995,
      "grad_norm": 1.0340250902529846,
      "learning_rate": 2.5e-06,
      "loss": 1.0607,
      "step": 20
    },
    {
      "epoch": 0.11023622047244094,
      "grad_norm": 0.8630354040462489,
      "learning_rate": 2.6250000000000003e-06,
      "loss": 1.0496,
      "step": 21
    },
    {
      "epoch": 0.11548556430446194,
      "grad_norm": 0.8072735722523627,
      "learning_rate": 2.7500000000000004e-06,
      "loss": 1.08,
      "step": 22
    },
    {
      "epoch": 0.12073490813648294,
      "grad_norm": 0.7305262800316248,
      "learning_rate": 2.875e-06,
      "loss": 1.0539,
      "step": 23
    },
    {
      "epoch": 0.12598425196850394,
      "grad_norm": 0.7406394208995156,
      "learning_rate": 3e-06,
      "loss": 1.0529,
      "step": 24
    },
    {
      "epoch": 0.13123359580052493,
      "grad_norm": 0.7903255346265977,
      "learning_rate": 3.125e-06,
      "loss": 0.9914,
      "step": 25
    },
    {
      "epoch": 0.13648293963254593,
      "grad_norm": 0.8017049075586423,
      "learning_rate": 3.2500000000000002e-06,
      "loss": 1.0313,
      "step": 26
    },
    {
      "epoch": 0.14173228346456693,
      "grad_norm": 0.7764417012146556,
      "learning_rate": 3.3750000000000003e-06,
      "loss": 1.0422,
      "step": 27
    },
    {
      "epoch": 0.14698162729658792,
      "grad_norm": 0.7112571206699242,
      "learning_rate": 3.5e-06,
      "loss": 1.0187,
      "step": 28
    },
    {
      "epoch": 0.15223097112860892,
      "grad_norm": 0.6069574236656299,
      "learning_rate": 3.625e-06,
      "loss": 0.9958,
      "step": 29
    },
    {
      "epoch": 0.15748031496062992,
      "grad_norm": 0.5747553586770598,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 0.9858,
      "step": 30
    },
    {
      "epoch": 0.16272965879265092,
      "grad_norm": 0.590510044443011,
      "learning_rate": 3.875e-06,
      "loss": 0.9841,
      "step": 31
    },
    {
      "epoch": 0.1679790026246719,
      "grad_norm": 0.5240510507345066,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.0171,
      "step": 32
    },
    {
      "epoch": 0.1732283464566929,
      "grad_norm": 0.4913378134702597,
      "learning_rate": 4.125e-06,
      "loss": 1.0218,
      "step": 33
    },
    {
      "epoch": 0.1784776902887139,
      "grad_norm": 0.47909247638813307,
      "learning_rate": 4.25e-06,
      "loss": 1.02,
      "step": 34
    },
    {
      "epoch": 0.1837270341207349,
      "grad_norm": 0.4949722185401137,
      "learning_rate": 4.3750000000000005e-06,
      "loss": 1.0206,
      "step": 35
    },
    {
      "epoch": 0.1889763779527559,
      "grad_norm": 0.48456911030733396,
      "learning_rate": 4.5e-06,
      "loss": 1.0321,
      "step": 36
    },
    {
      "epoch": 0.1942257217847769,
      "grad_norm": 0.49965866704889284,
      "learning_rate": 4.625000000000001e-06,
      "loss": 1.0184,
      "step": 37
    },
    {
      "epoch": 0.1994750656167979,
      "grad_norm": 0.4898360279427832,
      "learning_rate": 4.75e-06,
      "loss": 1.0165,
      "step": 38
    },
    {
      "epoch": 0.2047244094488189,
      "grad_norm": 0.5039246597121783,
      "learning_rate": 4.875e-06,
      "loss": 0.9811,
      "step": 39
    },
    {
      "epoch": 0.2099737532808399,
      "grad_norm": 0.462371012430454,
      "learning_rate": 5e-06,
      "loss": 0.9999,
      "step": 40
    },
    {
      "epoch": 0.2152230971128609,
      "grad_norm": 0.4564370676360458,
      "learning_rate": 4.99989327925842e-06,
      "loss": 1.0056,
      "step": 41
    },
    {
      "epoch": 0.2204724409448819,
      "grad_norm": 0.4838548423542603,
      "learning_rate": 4.999573126145132e-06,
      "loss": 1.0099,
      "step": 42
    },
    {
      "epoch": 0.22572178477690288,
      "grad_norm": 0.47657399375831033,
      "learning_rate": 4.999039567993719e-06,
      "loss": 1.0059,
      "step": 43
    },
    {
      "epoch": 0.23097112860892388,
      "grad_norm": 0.4609228968128241,
      "learning_rate": 4.998292650357558e-06,
      "loss": 0.9613,
      "step": 44
    },
    {
      "epoch": 0.23622047244094488,
      "grad_norm": 0.5379441335347738,
      "learning_rate": 4.997332437005932e-06,
      "loss": 0.9912,
      "step": 45
    },
    {
      "epoch": 0.24146981627296588,
      "grad_norm": 0.4488276134846175,
      "learning_rate": 4.996159009918586e-06,
      "loss": 0.9623,
      "step": 46
    },
    {
      "epoch": 0.24671916010498687,
      "grad_norm": 0.7899879742350473,
      "learning_rate": 4.994772469278726e-06,
      "loss": 0.9373,
      "step": 47
    },
    {
      "epoch": 0.25196850393700787,
      "grad_norm": 0.45351107525432893,
      "learning_rate": 4.99317293346447e-06,
      "loss": 0.9312,
      "step": 48
    },
    {
      "epoch": 0.2572178477690289,
      "grad_norm": 0.4145057356223518,
      "learning_rate": 4.991360539038737e-06,
      "loss": 0.9133,
      "step": 49
    },
    {
      "epoch": 0.26246719160104987,
      "grad_norm": 0.4371226648356658,
      "learning_rate": 4.989335440737587e-06,
      "loss": 0.9763,
      "step": 50
    },
    {
      "epoch": 0.2677165354330709,
      "grad_norm": 0.49987252416920314,
      "learning_rate": 4.987097811457015e-06,
      "loss": 0.9753,
      "step": 51
    },
    {
      "epoch": 0.27296587926509186,
      "grad_norm": 0.4737378597917066,
      "learning_rate": 4.984647842238185e-06,
      "loss": 0.9509,
      "step": 52
    },
    {
      "epoch": 0.2782152230971129,
      "grad_norm": 0.4803218242006868,
      "learning_rate": 4.981985742251123e-06,
      "loss": 1.0008,
      "step": 53
    },
    {
      "epoch": 0.28346456692913385,
      "grad_norm": 0.4238793960297473,
      "learning_rate": 4.9791117387768575e-06,
      "loss": 1.0024,
      "step": 54
    },
    {
      "epoch": 0.2887139107611549,
      "grad_norm": 0.4135698693902407,
      "learning_rate": 4.976026077188013e-06,
      "loss": 0.9208,
      "step": 55
    },
    {
      "epoch": 0.29396325459317585,
      "grad_norm": 0.49893312330659967,
      "learning_rate": 4.972729020927866e-06,
      "loss": 0.9771,
      "step": 56
    },
    {
      "epoch": 0.2992125984251969,
      "grad_norm": 0.43878390791709027,
      "learning_rate": 4.9692208514878445e-06,
      "loss": 0.937,
      "step": 57
    },
    {
      "epoch": 0.30446194225721784,
      "grad_norm": 0.42250251333050837,
      "learning_rate": 4.965501868383507e-06,
      "loss": 0.9287,
      "step": 58
    },
    {
      "epoch": 0.30971128608923887,
      "grad_norm": 0.42426620742455357,
      "learning_rate": 4.961572389128959e-06,
      "loss": 0.9374,
      "step": 59
    },
    {
      "epoch": 0.31496062992125984,
      "grad_norm": 0.4622588583575654,
      "learning_rate": 4.957432749209755e-06,
      "loss": 0.99,
      "step": 60
    },
    {
      "epoch": 0.32020997375328086,
      "grad_norm": 0.4324798534582787,
      "learning_rate": 4.953083302054247e-06,
      "loss": 1.0035,
      "step": 61
    },
    {
      "epoch": 0.32545931758530183,
      "grad_norm": 0.4303590460079348,
      "learning_rate": 4.948524419003415e-06,
      "loss": 0.9585,
      "step": 62
    },
    {
      "epoch": 0.33070866141732286,
      "grad_norm": 0.42861048906851473,
      "learning_rate": 4.943756489279164e-06,
      "loss": 0.9772,
      "step": 63
    },
    {
      "epoch": 0.3359580052493438,
      "grad_norm": 0.4115697149677722,
      "learning_rate": 4.938779919951092e-06,
      "loss": 0.9426,
      "step": 64
    },
    {
      "epoch": 0.34120734908136485,
      "grad_norm": 0.417300147661056,
      "learning_rate": 4.933595135901733e-06,
      "loss": 0.9447,
      "step": 65
    },
    {
      "epoch": 0.3464566929133858,
      "grad_norm": 0.4040601468423496,
      "learning_rate": 4.928202579790285e-06,
      "loss": 0.966,
      "step": 66
    },
    {
      "epoch": 0.35170603674540685,
      "grad_norm": 0.3677161548087925,
      "learning_rate": 4.9226027120148195e-06,
      "loss": 0.941,
      "step": 67
    },
    {
      "epoch": 0.3569553805774278,
      "grad_norm": 0.3832286188469758,
      "learning_rate": 4.916796010672969e-06,
      "loss": 0.9822,
      "step": 68
    },
    {
      "epoch": 0.36220472440944884,
      "grad_norm": 0.4345291089971557,
      "learning_rate": 4.910782971521112e-06,
      "loss": 0.9687,
      "step": 69
    },
    {
      "epoch": 0.3674540682414698,
      "grad_norm": 0.4133843702108161,
      "learning_rate": 4.904564107932048e-06,
      "loss": 0.9283,
      "step": 70
    },
    {
      "epoch": 0.37270341207349084,
      "grad_norm": 0.38465081625519515,
      "learning_rate": 4.898139950851163e-06,
      "loss": 0.9479,
      "step": 71
    },
    {
      "epoch": 0.3779527559055118,
      "grad_norm": 0.424340283488392,
      "learning_rate": 4.891511048751102e-06,
      "loss": 0.9593,
      "step": 72
    },
    {
      "epoch": 0.38320209973753283,
      "grad_norm": 0.40638719244646565,
      "learning_rate": 4.884677967584945e-06,
      "loss": 0.9264,
      "step": 73
    },
    {
      "epoch": 0.3884514435695538,
      "grad_norm": 0.4168684939745582,
      "learning_rate": 4.8776412907378845e-06,
      "loss": 0.9399,
      "step": 74
    },
    {
      "epoch": 0.3937007874015748,
      "grad_norm": 0.3928820462579945,
      "learning_rate": 4.870401618977415e-06,
      "loss": 0.9736,
      "step": 75
    },
    {
      "epoch": 0.3989501312335958,
      "grad_norm": 0.48005159652101537,
      "learning_rate": 4.86295957040205e-06,
      "loss": 0.9935,
      "step": 76
    },
    {
      "epoch": 0.4041994750656168,
      "grad_norm": 0.4229896582271501,
      "learning_rate": 4.855315780388541e-06,
      "loss": 0.9358,
      "step": 77
    },
    {
      "epoch": 0.4094488188976378,
      "grad_norm": 0.4258651800976577,
      "learning_rate": 4.847470901537642e-06,
      "loss": 0.9583,
      "step": 78
    },
    {
      "epoch": 0.4146981627296588,
      "grad_norm": 0.4069975102427097,
      "learning_rate": 4.839425603618382e-06,
      "loss": 0.9237,
      "step": 79
    },
    {
      "epoch": 0.4199475065616798,
      "grad_norm": 0.3853018091795304,
      "learning_rate": 4.83118057351089e-06,
      "loss": 0.9528,
      "step": 80
    },
    {
      "epoch": 0.4251968503937008,
      "grad_norm": 0.41640976933906576,
      "learning_rate": 4.822736515147748e-06,
      "loss": 0.9281,
      "step": 81
    },
    {
      "epoch": 0.4304461942257218,
      "grad_norm": 0.4341414623727107,
      "learning_rate": 4.814094149453891e-06,
      "loss": 0.983,
      "step": 82
    },
    {
      "epoch": 0.4356955380577428,
      "grad_norm": 0.41893835966431175,
      "learning_rate": 4.805254214285061e-06,
      "loss": 0.9691,
      "step": 83
    },
    {
      "epoch": 0.4409448818897638,
      "grad_norm": 0.3778203088676148,
      "learning_rate": 4.796217464364808e-06,
      "loss": 0.9386,
      "step": 84
    },
    {
      "epoch": 0.4461942257217848,
      "grad_norm": 0.4049971835755209,
      "learning_rate": 4.786984671220053e-06,
      "loss": 0.9604,
      "step": 85
    },
    {
      "epoch": 0.45144356955380577,
      "grad_norm": 0.39430021496671025,
      "learning_rate": 4.7775566231152216e-06,
      "loss": 0.9625,
      "step": 86
    },
    {
      "epoch": 0.4566929133858268,
      "grad_norm": 0.4303135030837173,
      "learning_rate": 4.767934124984941e-06,
      "loss": 0.9421,
      "step": 87
    },
    {
      "epoch": 0.46194225721784776,
      "grad_norm": 0.4037289734626591,
      "learning_rate": 4.7581179983653224e-06,
      "loss": 0.9395,
      "step": 88
    },
    {
      "epoch": 0.4671916010498688,
      "grad_norm": 0.389977925556389,
      "learning_rate": 4.7481090813238145e-06,
      "loss": 0.9494,
      "step": 89
    },
    {
      "epoch": 0.47244094488188976,
      "grad_norm": 0.4221791671439025,
      "learning_rate": 4.737908228387656e-06,
      "loss": 0.9236,
      "step": 90
    },
    {
      "epoch": 0.4776902887139108,
      "grad_norm": 0.38571752654505004,
      "learning_rate": 4.72751631047092e-06,
      "loss": 0.9836,
      "step": 91
    },
    {
      "epoch": 0.48293963254593175,
      "grad_norm": 0.3756683416227555,
      "learning_rate": 4.716934214800155e-06,
      "loss": 0.9847,
      "step": 92
    },
    {
      "epoch": 0.4881889763779528,
      "grad_norm": 0.43805821160946656,
      "learning_rate": 4.70616284483864e-06,
      "loss": 0.9759,
      "step": 93
    },
    {
      "epoch": 0.49343832020997375,
      "grad_norm": 0.42186430904629324,
      "learning_rate": 4.695203120209245e-06,
      "loss": 0.9381,
      "step": 94
    },
    {
      "epoch": 0.49868766404199477,
      "grad_norm": 0.3816672833085737,
      "learning_rate": 4.684055976615924e-06,
      "loss": 0.9381,
      "step": 95
    },
    {
      "epoch": 0.5039370078740157,
      "grad_norm": 0.4151475033902527,
      "learning_rate": 4.672722365763821e-06,
      "loss": 0.9449,
      "step": 96
    },
    {
      "epoch": 0.5091863517060368,
      "grad_norm": 0.39782263887391656,
      "learning_rate": 4.66120325527802e-06,
      "loss": 0.9617,
      "step": 97
    },
    {
      "epoch": 0.5144356955380578,
      "grad_norm": 0.40910931809868095,
      "learning_rate": 4.649499628620931e-06,
      "loss": 0.9334,
      "step": 98
    },
    {
      "epoch": 0.5196850393700787,
      "grad_norm": 0.3910070221772484,
      "learning_rate": 4.637612485008328e-06,
      "loss": 0.9344,
      "step": 99
    },
    {
      "epoch": 0.5249343832020997,
      "grad_norm": 0.3983780342477285,
      "learning_rate": 4.625542839324036e-06,
      "loss": 0.9201,
      "step": 100
    },
    {
      "epoch": 0.5301837270341208,
      "grad_norm": 0.41440216503056093,
      "learning_rate": 4.613291722033285e-06,
      "loss": 0.9854,
      "step": 101
    },
    {
      "epoch": 0.5354330708661418,
      "grad_norm": 0.399617487921351,
      "learning_rate": 4.600860179094732e-06,
      "loss": 0.9317,
      "step": 102
    },
    {
      "epoch": 0.5406824146981627,
      "grad_norm": 0.38269422826680943,
      "learning_rate": 4.588249271871164e-06,
      "loss": 0.9026,
      "step": 103
    },
    {
      "epoch": 0.5459317585301837,
      "grad_norm": 0.4161308186315819,
      "learning_rate": 4.575460077038877e-06,
      "loss": 0.9402,
      "step": 104
    },
    {
      "epoch": 0.5511811023622047,
      "grad_norm": 0.38768080702286994,
      "learning_rate": 4.562493686495756e-06,
      "loss": 0.9276,
      "step": 105
    },
    {
      "epoch": 0.5564304461942258,
      "grad_norm": 0.4454064598197059,
      "learning_rate": 4.5493512072680535e-06,
      "loss": 0.9452,
      "step": 106
    },
    {
      "epoch": 0.5616797900262467,
      "grad_norm": 0.3695333796660741,
      "learning_rate": 4.536033761415871e-06,
      "loss": 0.9493,
      "step": 107
    },
    {
      "epoch": 0.5669291338582677,
      "grad_norm": 0.4111826761670116,
      "learning_rate": 4.522542485937369e-06,
      "loss": 0.9109,
      "step": 108
    },
    {
      "epoch": 0.5721784776902887,
      "grad_norm": 0.384299356893817,
      "learning_rate": 4.508878532671684e-06,
      "loss": 0.938,
      "step": 109
    },
    {
      "epoch": 0.5774278215223098,
      "grad_norm": 0.39579785919606036,
      "learning_rate": 4.4950430682005995e-06,
      "loss": 0.924,
      "step": 110
    },
    {
      "epoch": 0.5826771653543307,
      "grad_norm": 0.40856237862457445,
      "learning_rate": 4.481037273748935e-06,
      "loss": 0.9092,
      "step": 111
    },
    {
      "epoch": 0.5879265091863517,
      "grad_norm": 0.38651275760437465,
      "learning_rate": 4.4668623450837085e-06,
      "loss": 0.9311,
      "step": 112
    },
    {
      "epoch": 0.5931758530183727,
      "grad_norm": 0.378464413540759,
      "learning_rate": 4.452519492412039e-06,
      "loss": 0.9255,
      "step": 113
    },
    {
      "epoch": 0.5984251968503937,
      "grad_norm": 0.3779607392785478,
      "learning_rate": 4.438009940277825e-06,
      "loss": 0.9024,
      "step": 114
    },
    {
      "epoch": 0.6036745406824147,
      "grad_norm": 0.410919812420786,
      "learning_rate": 4.423334927457198e-06,
      "loss": 0.9105,
      "step": 115
    },
    {
      "epoch": 0.6089238845144357,
      "grad_norm": 0.41911457133998964,
      "learning_rate": 4.408495706852758e-06,
      "loss": 0.9483,
      "step": 116
    },
    {
      "epoch": 0.6141732283464567,
      "grad_norm": 0.39458100856937656,
      "learning_rate": 4.393493545386607e-06,
      "loss": 0.9388,
      "step": 117
    },
    {
      "epoch": 0.6194225721784777,
      "grad_norm": 0.40200990450921853,
      "learning_rate": 4.378329723892184e-06,
      "loss": 0.927,
      "step": 118
    },
    {
      "epoch": 0.6246719160104987,
      "grad_norm": 0.42346347209583185,
      "learning_rate": 4.3630055370049065e-06,
      "loss": 0.9439,
      "step": 119
    },
    {
      "epoch": 0.6299212598425197,
      "grad_norm": 0.40678132773256936,
      "learning_rate": 4.3475222930516484e-06,
      "loss": 0.994,
      "step": 120
    },
    {
      "epoch": 0.6351706036745407,
      "grad_norm": 0.4215857320252809,
      "learning_rate": 4.3318813139390295e-06,
      "loss": 0.8946,
      "step": 121
    },
    {
      "epoch": 0.6404199475065617,
      "grad_norm": 0.39311078218513845,
      "learning_rate": 4.316083935040561e-06,
      "loss": 0.9129,
      "step": 122
    },
    {
      "epoch": 0.6456692913385826,
      "grad_norm": 0.38855202294392815,
      "learning_rate": 4.300131505082637e-06,
      "loss": 0.9229,
      "step": 123
    },
    {
      "epoch": 0.6509186351706037,
      "grad_norm": 0.437029643792513,
      "learning_rate": 4.284025386029381e-06,
      "loss": 0.9151,
      "step": 124
    },
    {
      "epoch": 0.6561679790026247,
      "grad_norm": 0.41975844377898647,
      "learning_rate": 4.267766952966369e-06,
      "loss": 0.9224,
      "step": 125
    },
    {
      "epoch": 0.6614173228346457,
      "grad_norm": 0.39675424131353054,
      "learning_rate": 4.251357593983228e-06,
      "loss": 0.9371,
      "step": 126
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.3980469727389334,
      "learning_rate": 4.234798710055124e-06,
      "loss": 0.928,
      "step": 127
    },
    {
      "epoch": 0.6719160104986877,
      "grad_norm": 0.3868709015712275,
      "learning_rate": 4.218091714923157e-06,
      "loss": 0.925,
      "step": 128
    },
    {
      "epoch": 0.6771653543307087,
      "grad_norm": 0.4150283358784954,
      "learning_rate": 4.2012380349736544e-06,
      "loss": 0.9632,
      "step": 129
    },
    {
      "epoch": 0.6824146981627297,
      "grad_norm": 0.3965769285465639,
      "learning_rate": 4.184239109116393e-06,
      "loss": 0.916,
      "step": 130
    },
    {
      "epoch": 0.6876640419947506,
      "grad_norm": 0.4040770175389451,
      "learning_rate": 4.167096388661754e-06,
      "loss": 0.9013,
      "step": 131
    },
    {
      "epoch": 0.6929133858267716,
      "grad_norm": 0.4065859256340288,
      "learning_rate": 4.149811337196808e-06,
      "loss": 0.9115,
      "step": 132
    },
    {
      "epoch": 0.6981627296587927,
      "grad_norm": 0.39095752489168806,
      "learning_rate": 4.132385430460361e-06,
      "loss": 0.9401,
      "step": 133
    },
    {
      "epoch": 0.7034120734908137,
      "grad_norm": 0.37457240781741025,
      "learning_rate": 4.114820156216969e-06,
      "loss": 0.9178,
      "step": 134
    },
    {
      "epoch": 0.7086614173228346,
      "grad_norm": 0.399797934048477,
      "learning_rate": 4.097117014129903e-06,
      "loss": 0.9579,
      "step": 135
    },
    {
      "epoch": 0.7139107611548556,
      "grad_norm": 0.4477976289426918,
      "learning_rate": 4.079277515633127e-06,
      "loss": 0.9448,
      "step": 136
    },
    {
      "epoch": 0.7191601049868767,
      "grad_norm": 0.38322925064614577,
      "learning_rate": 4.061303183802248e-06,
      "loss": 0.9192,
      "step": 137
    },
    {
      "epoch": 0.7244094488188977,
      "grad_norm": 0.40594305556063015,
      "learning_rate": 4.043195553224482e-06,
      "loss": 0.9254,
      "step": 138
    },
    {
      "epoch": 0.7296587926509186,
      "grad_norm": 0.36120175115175723,
      "learning_rate": 4.024956169867642e-06,
      "loss": 0.9591,
      "step": 139
    },
    {
      "epoch": 0.7349081364829396,
      "grad_norm": 0.38003421628995726,
      "learning_rate": 4.006586590948141e-06,
      "loss": 0.9154,
      "step": 140
    },
    {
      "epoch": 0.7401574803149606,
      "grad_norm": 0.3779196146369032,
      "learning_rate": 3.9880883847980475e-06,
      "loss": 0.9412,
      "step": 141
    },
    {
      "epoch": 0.7454068241469817,
      "grad_norm": 0.3908051818324559,
      "learning_rate": 3.969463130731183e-06,
      "loss": 0.9037,
      "step": 142
    },
    {
      "epoch": 0.7506561679790026,
      "grad_norm": 0.4043989800878751,
      "learning_rate": 3.95071241890829e-06,
      "loss": 0.9032,
      "step": 143
    },
    {
      "epoch": 0.7559055118110236,
      "grad_norm": 0.396255171092691,
      "learning_rate": 3.9318378502012636e-06,
      "loss": 0.9288,
      "step": 144
    },
    {
      "epoch": 0.7611548556430446,
      "grad_norm": 0.40757200005039956,
      "learning_rate": 3.91284103605648e-06,
      "loss": 0.9179,
      "step": 145
    },
    {
      "epoch": 0.7664041994750657,
      "grad_norm": 0.3862826523020415,
      "learning_rate": 3.893723598357214e-06,
      "loss": 0.8894,
      "step": 146
    },
    {
      "epoch": 0.7716535433070866,
      "grad_norm": 0.3770664118848218,
      "learning_rate": 3.874487169285168e-06,
      "loss": 0.8898,
      "step": 147
    },
    {
      "epoch": 0.7769028871391076,
      "grad_norm": 0.3854873052422692,
      "learning_rate": 3.855133391181124e-06,
      "loss": 0.9135,
      "step": 148
    },
    {
      "epoch": 0.7821522309711286,
      "grad_norm": 0.38997928953459443,
      "learning_rate": 3.835663916404721e-06,
      "loss": 0.8843,
      "step": 149
    },
    {
      "epoch": 0.7874015748031497,
      "grad_norm": 0.45712052623884775,
      "learning_rate": 3.81608040719339e-06,
      "loss": 0.9694,
      "step": 150
    },
    {
      "epoch": 0.7926509186351706,
      "grad_norm": 0.41182630339038373,
      "learning_rate": 3.7963845355204303e-06,
      "loss": 0.9194,
      "step": 151
    },
    {
      "epoch": 0.7979002624671916,
      "grad_norm": 0.4065794661619882,
      "learning_rate": 3.7765779829522674e-06,
      "loss": 0.9278,
      "step": 152
    },
    {
      "epoch": 0.8031496062992126,
      "grad_norm": 0.38122636394786497,
      "learning_rate": 3.7566624405048847e-06,
      "loss": 0.892,
      "step": 153
    },
    {
      "epoch": 0.8083989501312336,
      "grad_norm": 0.4026809828765533,
      "learning_rate": 3.736639608499448e-06,
      "loss": 0.9246,
      "step": 154
    },
    {
      "epoch": 0.8136482939632546,
      "grad_norm": 0.3884561226623423,
      "learning_rate": 3.7165111964171407e-06,
      "loss": 0.9438,
      "step": 155
    },
    {
      "epoch": 0.8188976377952756,
      "grad_norm": 0.3844815855908215,
      "learning_rate": 3.6962789227532165e-06,
      "loss": 0.9316,
      "step": 156
    },
    {
      "epoch": 0.8241469816272966,
      "grad_norm": 0.3715029261772477,
      "learning_rate": 3.675944514870274e-06,
      "loss": 0.924,
      "step": 157
    },
    {
      "epoch": 0.8293963254593176,
      "grad_norm": 0.4062567635907239,
      "learning_rate": 3.6555097088507837e-06,
      "loss": 0.9616,
      "step": 158
    },
    {
      "epoch": 0.8346456692913385,
      "grad_norm": 0.40370287012056855,
      "learning_rate": 3.634976249348867e-06,
      "loss": 0.9526,
      "step": 159
    },
    {
      "epoch": 0.8398950131233596,
      "grad_norm": 0.3899308479039462,
      "learning_rate": 3.6143458894413463e-06,
      "loss": 0.9215,
      "step": 160
    },
    {
      "epoch": 0.8451443569553806,
      "grad_norm": 0.3813874729696962,
      "learning_rate": 3.5936203904780665e-06,
      "loss": 0.953,
      "step": 161
    },
    {
      "epoch": 0.8503937007874016,
      "grad_norm": 0.38224710953621555,
      "learning_rate": 3.5728015219315226e-06,
      "loss": 0.894,
      "step": 162
    },
    {
      "epoch": 0.8556430446194225,
      "grad_norm": 0.4038493099805114,
      "learning_rate": 3.5518910612457885e-06,
      "loss": 0.9614,
      "step": 163
    },
    {
      "epoch": 0.8608923884514436,
      "grad_norm": 0.3976228258032158,
      "learning_rate": 3.530890793684759e-06,
      "loss": 0.9364,
      "step": 164
    },
    {
      "epoch": 0.8661417322834646,
      "grad_norm": 0.4141980981190029,
      "learning_rate": 3.5098025121797375e-06,
      "loss": 0.9316,
      "step": 165
    },
    {
      "epoch": 0.8713910761154856,
      "grad_norm": 0.4156903411116242,
      "learning_rate": 3.4886280171763563e-06,
      "loss": 0.923,
      "step": 166
    },
    {
      "epoch": 0.8766404199475065,
      "grad_norm": 0.38250613966133334,
      "learning_rate": 3.467369116480864e-06,
      "loss": 0.9153,
      "step": 167
    },
    {
      "epoch": 0.8818897637795275,
      "grad_norm": 0.4070344049084728,
      "learning_rate": 3.446027625105776e-06,
      "loss": 0.9347,
      "step": 168
    },
    {
      "epoch": 0.8871391076115486,
      "grad_norm": 0.3844877252304378,
      "learning_rate": 3.424605365114923e-06,
      "loss": 0.9214,
      "step": 169
    },
    {
      "epoch": 0.8923884514435696,
      "grad_norm": 0.37585915847896717,
      "learning_rate": 3.403104165467883e-06,
      "loss": 0.9133,
      "step": 170
    },
    {
      "epoch": 0.8976377952755905,
      "grad_norm": 0.6300998021233689,
      "learning_rate": 3.3815258618638316e-06,
      "loss": 0.9395,
      "step": 171
    },
    {
      "epoch": 0.9028871391076115,
      "grad_norm": 0.3994171061317929,
      "learning_rate": 3.359872296584821e-06,
      "loss": 0.917,
      "step": 172
    },
    {
      "epoch": 0.9081364829396326,
      "grad_norm": 0.3806190962949758,
      "learning_rate": 3.338145318338485e-06,
      "loss": 0.9408,
      "step": 173
    },
    {
      "epoch": 0.9133858267716536,
      "grad_norm": 0.36777162273585867,
      "learning_rate": 3.3163467821002082e-06,
      "loss": 0.9346,
      "step": 174
    },
    {
      "epoch": 0.9186351706036745,
      "grad_norm": 0.3927948155295108,
      "learning_rate": 3.2944785489547544e-06,
      "loss": 0.9121,
      "step": 175
    },
    {
      "epoch": 0.9238845144356955,
      "grad_norm": 0.3958182964876464,
      "learning_rate": 3.272542485937369e-06,
      "loss": 0.9318,
      "step": 176
    },
    {
      "epoch": 0.9291338582677166,
      "grad_norm": 0.39754399123912254,
      "learning_rate": 3.250540465874382e-06,
      "loss": 0.9244,
      "step": 177
    },
    {
      "epoch": 0.9343832020997376,
      "grad_norm": 0.38861358420887904,
      "learning_rate": 3.228474367223312e-06,
      "loss": 0.9051,
      "step": 178
    },
    {
      "epoch": 0.9396325459317585,
      "grad_norm": 0.3926071787199394,
      "learning_rate": 3.206346073912488e-06,
      "loss": 0.9409,
      "step": 179
    },
    {
      "epoch": 0.9448818897637795,
      "grad_norm": 0.4008739814562732,
      "learning_rate": 3.184157475180208e-06,
      "loss": 0.9222,
      "step": 180
    },
    {
      "epoch": 0.9501312335958005,
      "grad_norm": 0.3665607732753151,
      "learning_rate": 3.1619104654134397e-06,
      "loss": 0.913,
      "step": 181
    },
    {
      "epoch": 0.9553805774278216,
      "grad_norm": 0.38983081632202093,
      "learning_rate": 3.1396069439860894e-06,
      "loss": 0.9297,
      "step": 182
    },
    {
      "epoch": 0.9606299212598425,
      "grad_norm": 0.3645800135143814,
      "learning_rate": 3.117248815096833e-06,
      "loss": 0.8883,
      "step": 183
    },
    {
      "epoch": 0.9658792650918635,
      "grad_norm": 0.3720108758786826,
      "learning_rate": 3.094837987606547e-06,
      "loss": 0.9204,
      "step": 184
    },
    {
      "epoch": 0.9711286089238845,
      "grad_norm": 0.3818234182095755,
      "learning_rate": 3.0723763748753354e-06,
      "loss": 0.8814,
      "step": 185
    },
    {
      "epoch": 0.9763779527559056,
      "grad_norm": 0.3847151463563777,
      "learning_rate": 3.049865894599172e-06,
      "loss": 0.9133,
      "step": 186
    },
    {
      "epoch": 0.9816272965879265,
      "grad_norm": 0.37971775342950864,
      "learning_rate": 3.027308468646175e-06,
      "loss": 0.8906,
      "step": 187
    },
    {
      "epoch": 0.9868766404199475,
      "grad_norm": 0.41572124992250203,
      "learning_rate": 3.0047060228925256e-06,
      "loss": 0.9672,
      "step": 188
    },
    {
      "epoch": 0.9921259842519685,
      "grad_norm": 0.40219608509658256,
      "learning_rate": 2.9820604870580426e-06,
      "loss": 0.9011,
      "step": 189
    },
    {
      "epoch": 0.9973753280839895,
      "grad_norm": 0.397234257384178,
      "learning_rate": 2.9593737945414264e-06,
      "loss": 0.9174,
      "step": 190
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.397234257384178,
      "learning_rate": 2.9366478822551973e-06,
      "loss": 0.9204,
      "step": 191
    },
    {
      "epoch": 1.005249343832021,
      "grad_norm": 0.6279719871788059,
      "learning_rate": 2.913884690460325e-06,
      "loss": 0.8376,
      "step": 192
    },
    {
      "epoch": 1.010498687664042,
      "grad_norm": 0.41242697308859033,
      "learning_rate": 2.8910861626005774e-06,
      "loss": 0.8369,
      "step": 193
    },
    {
      "epoch": 1.015748031496063,
      "grad_norm": 0.38981163388237194,
      "learning_rate": 2.8682542451365943e-06,
      "loss": 0.8493,
      "step": 194
    },
    {
      "epoch": 1.020997375328084,
      "grad_norm": 0.42318354204075453,
      "learning_rate": 2.845390887379706e-06,
      "loss": 0.8618,
      "step": 195
    },
    {
      "epoch": 1.026246719160105,
      "grad_norm": 0.5052809667467608,
      "learning_rate": 2.822498041325509e-06,
      "loss": 0.8644,
      "step": 196
    },
    {
      "epoch": 1.031496062992126,
      "grad_norm": 0.36960238923766053,
      "learning_rate": 2.7995776614872083e-06,
      "loss": 0.8484,
      "step": 197
    },
    {
      "epoch": 1.036745406824147,
      "grad_norm": 0.3606472920225704,
      "learning_rate": 2.776631704728752e-06,
      "loss": 0.8413,
      "step": 198
    },
    {
      "epoch": 1.041994750656168,
      "grad_norm": 0.38778609923815943,
      "learning_rate": 2.753662130097758e-06,
      "loss": 0.8266,
      "step": 199
    },
    {
      "epoch": 1.047244094488189,
      "grad_norm": 0.3636856280047818,
      "learning_rate": 2.730670898658255e-06,
      "loss": 0.8285,
      "step": 200
    },
    {
      "epoch": 1.05249343832021,
      "grad_norm": 0.3886565787437705,
      "learning_rate": 2.70765997332326e-06,
      "loss": 0.8628,
      "step": 201
    },
    {
      "epoch": 1.057742782152231,
      "grad_norm": 0.41378173196429036,
      "learning_rate": 2.684631318687185e-06,
      "loss": 0.8549,
      "step": 202
    },
    {
      "epoch": 1.0629921259842519,
      "grad_norm": 0.3657527566283362,
      "learning_rate": 2.661586900858111e-06,
      "loss": 0.8472,
      "step": 203
    },
    {
      "epoch": 1.068241469816273,
      "grad_norm": 0.3666340150026852,
      "learning_rate": 2.638528687289925e-06,
      "loss": 0.8331,
      "step": 204
    },
    {
      "epoch": 1.073490813648294,
      "grad_norm": 0.3661321106045701,
      "learning_rate": 2.6154586466143495e-06,
      "loss": 0.8706,
      "step": 205
    },
    {
      "epoch": 1.078740157480315,
      "grad_norm": 0.3796204270047528,
      "learning_rate": 2.592378748472863e-06,
      "loss": 0.8329,
      "step": 206
    },
    {
      "epoch": 1.083989501312336,
      "grad_norm": 0.4003268539729557,
      "learning_rate": 2.5692909633485414e-06,
      "loss": 0.8762,
      "step": 207
    },
    {
      "epoch": 1.0892388451443569,
      "grad_norm": 0.3816091507612548,
      "learning_rate": 2.546197262397825e-06,
      "loss": 0.8499,
      "step": 208
    },
    {
      "epoch": 1.094488188976378,
      "grad_norm": 0.4135433735229758,
      "learning_rate": 2.5230996172822274e-06,
      "loss": 0.8191,
      "step": 209
    },
    {
      "epoch": 1.099737532808399,
      "grad_norm": 0.38519176727175336,
      "learning_rate": 2.5e-06,
      "loss": 0.8164,
      "step": 210
    },
    {
      "epoch": 1.10498687664042,
      "grad_norm": 0.397224934471037,
      "learning_rate": 2.4769003827177735e-06,
      "loss": 0.8373,
      "step": 211
    },
    {
      "epoch": 1.110236220472441,
      "grad_norm": 0.37696141546345585,
      "learning_rate": 2.453802737602176e-06,
      "loss": 0.8575,
      "step": 212
    },
    {
      "epoch": 1.1154855643044619,
      "grad_norm": 0.38562550508165394,
      "learning_rate": 2.4307090366514594e-06,
      "loss": 0.8372,
      "step": 213
    },
    {
      "epoch": 1.120734908136483,
      "grad_norm": 0.392610655726213,
      "learning_rate": 2.4076212515271384e-06,
      "loss": 0.8561,
      "step": 214
    },
    {
      "epoch": 1.125984251968504,
      "grad_norm": 0.3752434088251031,
      "learning_rate": 2.3845413533856517e-06,
      "loss": 0.8539,
      "step": 215
    },
    {
      "epoch": 1.1312335958005248,
      "grad_norm": 0.3769283394800778,
      "learning_rate": 2.3614713127100752e-06,
      "loss": 0.8134,
      "step": 216
    },
    {
      "epoch": 1.136482939632546,
      "grad_norm": 0.39533971296250825,
      "learning_rate": 2.3384130991418896e-06,
      "loss": 0.8608,
      "step": 217
    },
    {
      "epoch": 1.141732283464567,
      "grad_norm": 0.5791866799791944,
      "learning_rate": 2.3153686813128153e-06,
      "loss": 0.8334,
      "step": 218
    },
    {
      "epoch": 1.1469816272965878,
      "grad_norm": 0.3810153033409976,
      "learning_rate": 2.2923400266767406e-06,
      "loss": 0.8472,
      "step": 219
    },
    {
      "epoch": 1.152230971128609,
      "grad_norm": 0.3728143509479016,
      "learning_rate": 2.269329101341745e-06,
      "loss": 0.8376,
      "step": 220
    },
    {
      "epoch": 1.1574803149606299,
      "grad_norm": 0.40305096887095054,
      "learning_rate": 2.246337869902243e-06,
      "loss": 0.8275,
      "step": 221
    },
    {
      "epoch": 1.162729658792651,
      "grad_norm": 0.3692851271916895,
      "learning_rate": 2.2233682952712484e-06,
      "loss": 0.8413,
      "step": 222
    },
    {
      "epoch": 1.167979002624672,
      "grad_norm": 0.3963527736664121,
      "learning_rate": 2.2004223385127925e-06,
      "loss": 0.8295,
      "step": 223
    },
    {
      "epoch": 1.1732283464566928,
      "grad_norm": 0.3587695306587395,
      "learning_rate": 2.1775019586744924e-06,
      "loss": 0.8547,
      "step": 224
    },
    {
      "epoch": 1.178477690288714,
      "grad_norm": 0.3614709935886563,
      "learning_rate": 2.1546091126202955e-06,
      "loss": 0.813,
      "step": 225
    },
    {
      "epoch": 1.1837270341207349,
      "grad_norm": 0.4140010983968987,
      "learning_rate": 2.131745754863406e-06,
      "loss": 0.8398,
      "step": 226
    },
    {
      "epoch": 1.188976377952756,
      "grad_norm": 0.45996885685295197,
      "learning_rate": 2.1089138373994226e-06,
      "loss": 0.8518,
      "step": 227
    },
    {
      "epoch": 1.194225721784777,
      "grad_norm": 0.36254259181474985,
      "learning_rate": 2.086115309539675e-06,
      "loss": 0.8647,
      "step": 228
    },
    {
      "epoch": 1.1994750656167978,
      "grad_norm": 0.4122269000782737,
      "learning_rate": 2.063352117744803e-06,
      "loss": 0.8881,
      "step": 229
    },
    {
      "epoch": 1.204724409448819,
      "grad_norm": 0.40615776242804974,
      "learning_rate": 2.040626205458574e-06,
      "loss": 0.8328,
      "step": 230
    },
    {
      "epoch": 1.20997375328084,
      "grad_norm": 0.41826600558691523,
      "learning_rate": 2.017939512941958e-06,
      "loss": 0.8281,
      "step": 231
    },
    {
      "epoch": 1.2152230971128608,
      "grad_norm": 0.4153271729906844,
      "learning_rate": 1.995293977107475e-06,
      "loss": 0.8693,
      "step": 232
    },
    {
      "epoch": 1.220472440944882,
      "grad_norm": 0.3654074693662248,
      "learning_rate": 1.972691531353826e-06,
      "loss": 0.821,
      "step": 233
    },
    {
      "epoch": 1.2257217847769029,
      "grad_norm": 0.3981178374801672,
      "learning_rate": 1.9501341054008292e-06,
      "loss": 0.8962,
      "step": 234
    },
    {
      "epoch": 1.2309711286089238,
      "grad_norm": 0.4049324135862524,
      "learning_rate": 1.9276236251246655e-06,
      "loss": 0.7905,
      "step": 235
    },
    {
      "epoch": 1.236220472440945,
      "grad_norm": 0.33631867862267323,
      "learning_rate": 1.9051620123934538e-06,
      "loss": 0.8284,
      "step": 236
    },
    {
      "epoch": 1.2414698162729658,
      "grad_norm": 0.37393386640045784,
      "learning_rate": 1.882751184903167e-06,
      "loss": 0.8405,
      "step": 237
    },
    {
      "epoch": 1.246719160104987,
      "grad_norm": 0.3462880519364805,
      "learning_rate": 1.860393056013911e-06,
      "loss": 0.7939,
      "step": 238
    },
    {
      "epoch": 1.2519685039370079,
      "grad_norm": 0.3848360075044728,
      "learning_rate": 1.8380895345865603e-06,
      "loss": 0.8375,
      "step": 239
    },
    {
      "epoch": 1.257217847769029,
      "grad_norm": 0.3617106402936481,
      "learning_rate": 1.8158425248197931e-06,
      "loss": 0.8162,
      "step": 240
    },
    {
      "epoch": 1.26246719160105,
      "grad_norm": 0.34772753646733273,
      "learning_rate": 1.7936539260875125e-06,
      "loss": 0.8408,
      "step": 241
    },
    {
      "epoch": 1.2677165354330708,
      "grad_norm": 0.36406532287683085,
      "learning_rate": 1.7715256327766887e-06,
      "loss": 0.8103,
      "step": 242
    },
    {
      "epoch": 1.272965879265092,
      "grad_norm": 0.3765574533307364,
      "learning_rate": 1.7494595341256185e-06,
      "loss": 0.8461,
      "step": 243
    },
    {
      "epoch": 1.2782152230971129,
      "grad_norm": 0.3859435308304487,
      "learning_rate": 1.7274575140626318e-06,
      "loss": 0.8761,
      "step": 244
    },
    {
      "epoch": 1.2834645669291338,
      "grad_norm": 0.3936691957558663,
      "learning_rate": 1.7055214510452462e-06,
      "loss": 0.9159,
      "step": 245
    },
    {
      "epoch": 1.288713910761155,
      "grad_norm": 0.5107365379023212,
      "learning_rate": 1.6836532178997922e-06,
      "loss": 0.8649,
      "step": 246
    },
    {
      "epoch": 1.2939632545931758,
      "grad_norm": 0.388972979502565,
      "learning_rate": 1.6618546816615162e-06,
      "loss": 0.8734,
      "step": 247
    },
    {
      "epoch": 1.2992125984251968,
      "grad_norm": 0.4410810635653612,
      "learning_rate": 1.6401277034151798e-06,
      "loss": 0.8405,
      "step": 248
    },
    {
      "epoch": 1.304461942257218,
      "grad_norm": 0.38502463729196623,
      "learning_rate": 1.6184741381361684e-06,
      "loss": 0.8546,
      "step": 249
    },
    {
      "epoch": 1.3097112860892388,
      "grad_norm": 0.38032181472927906,
      "learning_rate": 1.5968958345321178e-06,
      "loss": 0.8253,
      "step": 250
    },
    {
      "epoch": 1.3149606299212597,
      "grad_norm": 0.36970392450888717,
      "learning_rate": 1.5753946348850774e-06,
      "loss": 0.8558,
      "step": 251
    },
    {
      "epoch": 1.3202099737532809,
      "grad_norm": 0.3934484470589474,
      "learning_rate": 1.5539723748942246e-06,
      "loss": 0.8299,
      "step": 252
    },
    {
      "epoch": 1.3254593175853018,
      "grad_norm": 0.3602834073019444,
      "learning_rate": 1.5326308835191372e-06,
      "loss": 0.8476,
      "step": 253
    },
    {
      "epoch": 1.330708661417323,
      "grad_norm": 0.3482676328694225,
      "learning_rate": 1.5113719828236439e-06,
      "loss": 0.858,
      "step": 254
    },
    {
      "epoch": 1.3359580052493438,
      "grad_norm": 0.44035367856347457,
      "learning_rate": 1.490197487820263e-06,
      "loss": 0.8351,
      "step": 255
    },
    {
      "epoch": 1.341207349081365,
      "grad_norm": 0.371715281121202,
      "learning_rate": 1.4691092063152417e-06,
      "loss": 0.827,
      "step": 256
    },
    {
      "epoch": 1.3464566929133859,
      "grad_norm": 0.35070038567136974,
      "learning_rate": 1.4481089387542134e-06,
      "loss": 0.8492,
      "step": 257
    },
    {
      "epoch": 1.3517060367454068,
      "grad_norm": 0.3499117772233927,
      "learning_rate": 1.4271984780684778e-06,
      "loss": 0.8399,
      "step": 258
    },
    {
      "epoch": 1.356955380577428,
      "grad_norm": 0.3811483044855955,
      "learning_rate": 1.4063796095219345e-06,
      "loss": 0.8688,
      "step": 259
    },
    {
      "epoch": 1.3622047244094488,
      "grad_norm": 0.3714007196954483,
      "learning_rate": 1.3856541105586545e-06,
      "loss": 0.813,
      "step": 260
    },
    {
      "epoch": 1.3674540682414698,
      "grad_norm": 0.3577252388966486,
      "learning_rate": 1.3650237506511333e-06,
      "loss": 0.8506,
      "step": 261
    },
    {
      "epoch": 1.372703412073491,
      "grad_norm": 0.3670679328461459,
      "learning_rate": 1.3444902911492174e-06,
      "loss": 0.8267,
      "step": 262
    },
    {
      "epoch": 1.3779527559055118,
      "grad_norm": 0.3521888751612076,
      "learning_rate": 1.324055485129727e-06,
      "loss": 0.8079,
      "step": 263
    },
    {
      "epoch": 1.3832020997375327,
      "grad_norm": 0.3751986141403746,
      "learning_rate": 1.303721077246784e-06,
      "loss": 0.8491,
      "step": 264
    },
    {
      "epoch": 1.3884514435695539,
      "grad_norm": 0.3589588384505892,
      "learning_rate": 1.2834888035828597e-06,
      "loss": 0.8768,
      "step": 265
    },
    {
      "epoch": 1.3937007874015748,
      "grad_norm": 0.372280310354174,
      "learning_rate": 1.2633603915005535e-06,
      "loss": 0.8335,
      "step": 266
    },
    {
      "epoch": 1.3989501312335957,
      "grad_norm": 0.40534475247811924,
      "learning_rate": 1.2433375594951166e-06,
      "loss": 0.8719,
      "step": 267
    },
    {
      "epoch": 1.4041994750656168,
      "grad_norm": 0.40997625659212245,
      "learning_rate": 1.2234220170477332e-06,
      "loss": 0.8269,
      "step": 268
    },
    {
      "epoch": 1.4094488188976377,
      "grad_norm": 0.3668404917652971,
      "learning_rate": 1.2036154644795697e-06,
      "loss": 0.7913,
      "step": 269
    },
    {
      "epoch": 1.4146981627296589,
      "grad_norm": 0.3641040286199539,
      "learning_rate": 1.1839195928066101e-06,
      "loss": 0.8469,
      "step": 270
    },
    {
      "epoch": 1.4199475065616798,
      "grad_norm": 0.36110674154533795,
      "learning_rate": 1.164336083595279e-06,
      "loss": 0.8698,
      "step": 271
    },
    {
      "epoch": 1.425196850393701,
      "grad_norm": 0.376323216718325,
      "learning_rate": 1.1448666088188766e-06,
      "loss": 0.8355,
      "step": 272
    },
    {
      "epoch": 1.4304461942257218,
      "grad_norm": 0.37039873117700245,
      "learning_rate": 1.1255128307148319e-06,
      "loss": 0.8219,
      "step": 273
    },
    {
      "epoch": 1.4356955380577427,
      "grad_norm": 0.3612230977145218,
      "learning_rate": 1.1062764016427864e-06,
      "loss": 0.8568,
      "step": 274
    },
    {
      "epoch": 1.4409448818897639,
      "grad_norm": 0.3962177187198973,
      "learning_rate": 1.0871589639435204e-06,
      "loss": 0.8115,
      "step": 275
    },
    {
      "epoch": 1.4461942257217848,
      "grad_norm": 0.38303094180829605,
      "learning_rate": 1.068162149798737e-06,
      "loss": 0.818,
      "step": 276
    },
    {
      "epoch": 1.4514435695538057,
      "grad_norm": 0.364448052838668,
      "learning_rate": 1.049287581091711e-06,
      "loss": 0.803,
      "step": 277
    },
    {
      "epoch": 1.4566929133858268,
      "grad_norm": 0.37746023670056045,
      "learning_rate": 1.0305368692688175e-06,
      "loss": 0.8495,
      "step": 278
    },
    {
      "epoch": 1.4619422572178478,
      "grad_norm": 0.40984945067844814,
      "learning_rate": 1.0119116152019535e-06,
      "loss": 0.8631,
      "step": 279
    },
    {
      "epoch": 1.4671916010498687,
      "grad_norm": 0.3840327770579671,
      "learning_rate": 9.934134090518593e-07,
      "loss": 0.8318,
      "step": 280
    },
    {
      "epoch": 1.4724409448818898,
      "grad_norm": 0.3575557636540703,
      "learning_rate": 9.750438301323584e-07,
      "loss": 0.8244,
      "step": 281
    },
    {
      "epoch": 1.4776902887139107,
      "grad_norm": 0.363642443404998,
      "learning_rate": 9.56804446775518e-07,
      "loss": 0.8109,
      "step": 282
    },
    {
      "epoch": 1.4829396325459316,
      "grad_norm": 0.3410295671236108,
      "learning_rate": 9.386968161977528e-07,
      "loss": 0.8227,
      "step": 283
    },
    {
      "epoch": 1.4881889763779528,
      "grad_norm": 0.3693264048471325,
      "learning_rate": 9.207224843668733e-07,
      "loss": 0.8349,
      "step": 284
    },
    {
      "epoch": 1.4934383202099737,
      "grad_norm": 0.3912247837861982,
      "learning_rate": 9.028829858700974e-07,
      "loss": 0.8218,
      "step": 285
    },
    {
      "epoch": 1.4986876640419948,
      "grad_norm": 0.3771536484006796,
      "learning_rate": 8.851798437830323e-07,
      "loss": 0.8328,
      "step": 286
    },
    {
      "epoch": 1.5039370078740157,
      "grad_norm": 0.3956914054034924,
      "learning_rate": 8.676145695396399e-07,
      "loss": 0.8779,
      "step": 287
    },
    {
      "epoch": 1.5091863517060369,
      "grad_norm": 0.34503047792761804,
      "learning_rate": 8.501886628031941e-07,
      "loss": 0.8265,
      "step": 288
    },
    {
      "epoch": 1.5144356955380578,
      "grad_norm": 0.3888965654379534,
      "learning_rate": 8.329036113382474e-07,
      "loss": 0.8354,
      "step": 289
    },
    {
      "epoch": 1.5196850393700787,
      "grad_norm": 0.38477861699293,
      "learning_rate": 8.157608908836071e-07,
      "loss": 0.8109,
      "step": 290
    },
    {
      "epoch": 1.5249343832020998,
      "grad_norm": 0.378643274506092,
      "learning_rate": 7.987619650263462e-07,
      "loss": 0.8507,
      "step": 291
    },
    {
      "epoch": 1.5301837270341208,
      "grad_norm": 0.3619947185774947,
      "learning_rate": 7.819082850768433e-07,
      "loss": 0.8321,
      "step": 292
    },
    {
      "epoch": 1.5354330708661417,
      "grad_norm": 0.3793890733316615,
      "learning_rate": 7.652012899448761e-07,
      "loss": 0.846,
      "step": 293
    },
    {
      "epoch": 1.5406824146981628,
      "grad_norm": 0.37104232865461917,
      "learning_rate": 7.486424060167726e-07,
      "loss": 0.8113,
      "step": 294
    },
    {
      "epoch": 1.5459317585301837,
      "grad_norm": 2.1051715634012864,
      "learning_rate": 7.322330470336314e-07,
      "loss": 0.8174,
      "step": 295
    },
    {
      "epoch": 1.5511811023622046,
      "grad_norm": 0.45390059444688674,
      "learning_rate": 7.159746139706194e-07,
      "loss": 0.8414,
      "step": 296
    },
    {
      "epoch": 1.5564304461942258,
      "grad_norm": 0.39115421496994207,
      "learning_rate": 6.99868494917364e-07,
      "loss": 0.8085,
      "step": 297
    },
    {
      "epoch": 1.5616797900262467,
      "grad_norm": 0.37250458373292433,
      "learning_rate": 6.839160649594401e-07,
      "loss": 0.7906,
      "step": 298
    },
    {
      "epoch": 1.5669291338582676,
      "grad_norm": 0.3746838213451273,
      "learning_rate": 6.68118686060972e-07,
      "loss": 0.8314,
      "step": 299
    },
    {
      "epoch": 1.5721784776902887,
      "grad_norm": 0.5365749531577879,
      "learning_rate": 6.524777069483526e-07,
      "loss": 0.8332,
      "step": 300
    },
    {
      "epoch": 1.5774278215223099,
      "grad_norm": 0.3788491507367419,
      "learning_rate": 6.369944629950933e-07,
      "loss": 0.8611,
      "step": 301
    },
    {
      "epoch": 1.5826771653543306,
      "grad_norm": 0.3690009715495826,
      "learning_rate": 6.216702761078167e-07,
      "loss": 0.8099,
      "step": 302
    },
    {
      "epoch": 1.5879265091863517,
      "grad_norm": 0.34643553497540036,
      "learning_rate": 6.06506454613393e-07,
      "loss": 0.8255,
      "step": 303
    },
    {
      "epoch": 1.5931758530183728,
      "grad_norm": 0.37384009617772274,
      "learning_rate": 5.915042931472426e-07,
      "loss": 0.8024,
      "step": 304
    },
    {
      "epoch": 1.5984251968503937,
      "grad_norm": 0.34112911330910745,
      "learning_rate": 5.766650725428027e-07,
      "loss": 0.8172,
      "step": 305
    },
    {
      "epoch": 1.6036745406824147,
      "grad_norm": 0.3675924179740712,
      "learning_rate": 5.619900597221753e-07,
      "loss": 0.8195,
      "step": 306
    },
    {
      "epoch": 1.6089238845144358,
      "grad_norm": 0.36296097997746496,
      "learning_rate": 5.474805075879616e-07,
      "loss": 0.808,
      "step": 307
    },
    {
      "epoch": 1.6141732283464567,
      "grad_norm": 0.37901033900237063,
      "learning_rate": 5.33137654916292e-07,
      "loss": 0.8068,
      "step": 308
    },
    {
      "epoch": 1.6194225721784776,
      "grad_norm": 0.3662350700773784,
      "learning_rate": 5.189627262510655e-07,
      "loss": 0.8695,
      "step": 309
    },
    {
      "epoch": 1.6246719160104988,
      "grad_norm": 0.36967015418887056,
      "learning_rate": 5.049569317994013e-07,
      "loss": 0.8448,
      "step": 310
    },
    {
      "epoch": 1.6299212598425197,
      "grad_norm": 0.3579476966594129,
      "learning_rate": 4.911214673283157e-07,
      "loss": 0.8375,
      "step": 311
    },
    {
      "epoch": 1.6351706036745406,
      "grad_norm": 0.3611024965491316,
      "learning_rate": 4.774575140626317e-07,
      "loss": 0.8519,
      "step": 312
    },
    {
      "epoch": 1.6404199475065617,
      "grad_norm": 0.3485470659035558,
      "learning_rate": 4.639662385841293e-07,
      "loss": 0.8217,
      "step": 313
    },
    {
      "epoch": 1.6456692913385826,
      "grad_norm": 0.37287096492671606,
      "learning_rate": 4.506487927319475e-07,
      "loss": 0.8413,
      "step": 314
    },
    {
      "epoch": 1.6509186351706036,
      "grad_norm": 0.38705573070810245,
      "learning_rate": 4.3750631350424456e-07,
      "loss": 0.8499,
      "step": 315
    },
    {
      "epoch": 1.6561679790026247,
      "grad_norm": 0.3582574621798544,
      "learning_rate": 4.2453992296112384e-07,
      "loss": 0.8422,
      "step": 316
    },
    {
      "epoch": 1.6614173228346458,
      "grad_norm": 0.36916485545424343,
      "learning_rate": 4.117507281288366e-07,
      "loss": 0.8312,
      "step": 317
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.36367894508342596,
      "learning_rate": 3.991398209052685e-07,
      "loss": 0.8342,
      "step": 318
    },
    {
      "epoch": 1.6719160104986877,
      "grad_norm": 0.39384159873675784,
      "learning_rate": 3.8670827796671637e-07,
      "loss": 0.8006,
      "step": 319
    },
    {
      "epoch": 1.6771653543307088,
      "grad_norm": 0.39604366934016394,
      "learning_rate": 3.7445716067596506e-07,
      "loss": 0.8556,
      "step": 320
    },
    {
      "epoch": 1.6824146981627297,
      "grad_norm": 0.3672901516398384,
      "learning_rate": 3.623875149916725e-07,
      "loss": 0.8621,
      "step": 321
    },
    {
      "epoch": 1.6876640419947506,
      "grad_norm": 0.38389464950775926,
      "learning_rate": 3.505003713790689e-07,
      "loss": 0.8343,
      "step": 322
    },
    {
      "epoch": 1.6929133858267718,
      "grad_norm": 0.36767539320644105,
      "learning_rate": 3.387967447219803e-07,
      "loss": 0.842,
      "step": 323
    },
    {
      "epoch": 1.6981627296587927,
      "grad_norm": 0.3907752041858798,
      "learning_rate": 3.2727763423617915e-07,
      "loss": 0.8767,
      "step": 324
    },
    {
      "epoch": 1.7034120734908136,
      "grad_norm": 0.37713933030901214,
      "learning_rate": 3.1594402338407633e-07,
      "loss": 0.8326,
      "step": 325
    },
    {
      "epoch": 1.7086614173228347,
      "grad_norm": 0.38192173068300844,
      "learning_rate": 3.047968797907552e-07,
      "loss": 0.8168,
      "step": 326
    },
    {
      "epoch": 1.7139107611548556,
      "grad_norm": 0.35632236660696437,
      "learning_rate": 2.9383715516136083e-07,
      "loss": 0.8344,
      "step": 327
    },
    {
      "epoch": 1.7191601049868765,
      "grad_norm": 0.39281712398945773,
      "learning_rate": 2.8306578519984526e-07,
      "loss": 0.8057,
      "step": 328
    },
    {
      "epoch": 1.7244094488188977,
      "grad_norm": 0.3713265865015316,
      "learning_rate": 2.7248368952908055e-07,
      "loss": 0.8128,
      "step": 329
    },
    {
      "epoch": 1.7296587926509186,
      "grad_norm": 0.3704631773575278,
      "learning_rate": 2.620917716123444e-07,
      "loss": 0.8593,
      "step": 330
    },
    {
      "epoch": 1.7349081364829395,
      "grad_norm": 0.3833563384401533,
      "learning_rate": 2.5189091867618615e-07,
      "loss": 0.8353,
      "step": 331
    },
    {
      "epoch": 1.7401574803149606,
      "grad_norm": 0.39756909736931284,
      "learning_rate": 2.418820016346779e-07,
      "loss": 0.8596,
      "step": 332
    },
    {
      "epoch": 1.7454068241469818,
      "grad_norm": 0.36212623044011794,
      "learning_rate": 2.3206587501505866e-07,
      "loss": 0.8311,
      "step": 333
    },
    {
      "epoch": 1.7506561679790025,
      "grad_norm": 0.36098218836000906,
      "learning_rate": 2.224433768847789e-07,
      "loss": 0.8091,
      "step": 334
    },
    {
      "epoch": 1.7559055118110236,
      "grad_norm": 0.3713293844163563,
      "learning_rate": 2.1301532877994747e-07,
      "loss": 0.8147,
      "step": 335
    },
    {
      "epoch": 1.7611548556430447,
      "grad_norm": 0.34562968172819897,
      "learning_rate": 2.0378253563519247e-07,
      "loss": 0.8284,
      "step": 336
    },
    {
      "epoch": 1.7664041994750657,
      "grad_norm": 0.39461152581923564,
      "learning_rate": 1.9474578571493874e-07,
      "loss": 0.8632,
      "step": 337
    },
    {
      "epoch": 1.7716535433070866,
      "grad_norm": 0.3689417081438894,
      "learning_rate": 1.859058505461095e-07,
      "loss": 0.8259,
      "step": 338
    },
    {
      "epoch": 1.7769028871391077,
      "grad_norm": 0.3926353728632124,
      "learning_rate": 1.7726348485225337e-07,
      "loss": 0.8364,
      "step": 339
    },
    {
      "epoch": 1.7821522309711286,
      "grad_norm": 0.354022004999706,
      "learning_rate": 1.6881942648911077e-07,
      "loss": 0.8773,
      "step": 340
    },
    {
      "epoch": 1.7874015748031495,
      "grad_norm": 0.3876142010040814,
      "learning_rate": 1.6057439638161891e-07,
      "loss": 0.82,
      "step": 341
    },
    {
      "epoch": 1.7926509186351707,
      "grad_norm": 0.35474834193863947,
      "learning_rate": 1.5252909846235898e-07,
      "loss": 0.8193,
      "step": 342
    },
    {
      "epoch": 1.7979002624671916,
      "grad_norm": 0.35916164129360717,
      "learning_rate": 1.4468421961145924e-07,
      "loss": 0.8398,
      "step": 343
    },
    {
      "epoch": 1.8031496062992125,
      "grad_norm": 0.3592392678728242,
      "learning_rate": 1.3704042959795132e-07,
      "loss": 0.8384,
      "step": 344
    },
    {
      "epoch": 1.8083989501312336,
      "grad_norm": 0.3717050715996407,
      "learning_rate": 1.2959838102258537e-07,
      "loss": 0.827,
      "step": 345
    },
    {
      "epoch": 1.8136482939632546,
      "grad_norm": 0.3714676540830701,
      "learning_rate": 1.223587092621162e-07,
      "loss": 0.811,
      "step": 346
    },
    {
      "epoch": 1.8188976377952755,
      "grad_norm": 0.36420858424939995,
      "learning_rate": 1.1532203241505474e-07,
      "loss": 0.8769,
      "step": 347
    },
    {
      "epoch": 1.8241469816272966,
      "grad_norm": 0.3993728488042469,
      "learning_rate": 1.0848895124889819e-07,
      "loss": 0.8437,
      "step": 348
    },
    {
      "epoch": 1.8293963254593177,
      "grad_norm": 0.36458761423411645,
      "learning_rate": 1.0186004914883779e-07,
      "loss": 0.8378,
      "step": 349
    },
    {
      "epoch": 1.8346456692913384,
      "grad_norm": 0.3874822926899934,
      "learning_rate": 9.54358920679524e-08,
      "loss": 0.8284,
      "step": 350
    },
    {
      "epoch": 1.8398950131233596,
      "grad_norm": 0.38256154200443654,
      "learning_rate": 8.921702847888791e-08,
      "loss": 0.8602,
      "step": 351
    },
    {
      "epoch": 1.8451443569553807,
      "grad_norm": 0.36179666269244404,
      "learning_rate": 8.320398932703145e-08,
      "loss": 0.8274,
      "step": 352
    },
    {
      "epoch": 1.8503937007874016,
      "grad_norm": 0.365807165050502,
      "learning_rate": 7.739728798518115e-08,
      "loss": 0.8709,
      "step": 353
    },
    {
      "epoch": 1.8556430446194225,
      "grad_norm": 0.35458800620057285,
      "learning_rate": 7.17974202097152e-08,
      "loss": 0.8111,
      "step": 354
    },
    {
      "epoch": 1.8608923884514437,
      "grad_norm": 0.37957333795063364,
      "learning_rate": 6.640486409826785e-08,
      "loss": 0.7994,
      "step": 355
    },
    {
      "epoch": 1.8661417322834646,
      "grad_norm": 0.3527171222570775,
      "learning_rate": 6.12200800489085e-08,
      "loss": 0.853,
      "step": 356
    },
    {
      "epoch": 1.8713910761154855,
      "grad_norm": 0.39242714191446193,
      "learning_rate": 5.624351072083561e-08,
      "loss": 0.8203,
      "step": 357
    },
    {
      "epoch": 1.8766404199475066,
      "grad_norm": 0.35707175993984824,
      "learning_rate": 5.1475580996585285e-08,
      "loss": 0.7958,
      "step": 358
    },
    {
      "epoch": 1.8818897637795275,
      "grad_norm": 0.3335686552470708,
      "learning_rate": 4.691669794575388e-08,
      "loss": 0.8433,
      "step": 359
    },
    {
      "epoch": 1.8871391076115485,
      "grad_norm": 0.38462069858291403,
      "learning_rate": 4.256725079024554e-08,
      "loss": 0.7975,
      "step": 360
    },
    {
      "epoch": 1.8923884514435696,
      "grad_norm": 0.34131290146851945,
      "learning_rate": 3.8427610871041024e-08,
      "loss": 0.8223,
      "step": 361
    },
    {
      "epoch": 1.8976377952755905,
      "grad_norm": 0.35781280354041417,
      "learning_rate": 3.449813161649357e-08,
      "loss": 0.9063,
      "step": 362
    },
    {
      "epoch": 1.9028871391076114,
      "grad_norm": 0.33992014890280325,
      "learning_rate": 3.077914851215585e-08,
      "loss": 0.8081,
      "step": 363
    },
    {
      "epoch": 1.9081364829396326,
      "grad_norm": 0.3582145429279079,
      "learning_rate": 2.7270979072135106e-08,
      "loss": 0.8487,
      "step": 364
    },
    {
      "epoch": 1.9133858267716537,
      "grad_norm": 0.36355378789809917,
      "learning_rate": 2.3973922811987295e-08,
      "loss": 0.8128,
      "step": 365
    },
    {
      "epoch": 1.9186351706036744,
      "grad_norm": 0.36811282667120626,
      "learning_rate": 2.0888261223143136e-08,
      "loss": 0.8442,
      "step": 366
    },
    {
      "epoch": 1.9238845144356955,
      "grad_norm": 0.36592765014539297,
      "learning_rate": 1.8014257748877606e-08,
      "loss": 0.8385,
      "step": 367
    },
    {
      "epoch": 1.9291338582677167,
      "grad_norm": 0.3695353834129384,
      "learning_rate": 1.5352157761815978e-08,
      "loss": 0.809,
      "step": 368
    },
    {
      "epoch": 1.9343832020997376,
      "grad_norm": 0.3907850295180158,
      "learning_rate": 1.2902188542986139e-08,
      "loss": 0.8295,
      "step": 369
    },
    {
      "epoch": 1.9396325459317585,
      "grad_norm": 0.34933462418116523,
      "learning_rate": 1.0664559262413831e-08,
      "loss": 0.8238,
      "step": 370
    },
    {
      "epoch": 1.9448818897637796,
      "grad_norm": 0.3537875486215043,
      "learning_rate": 8.639460961263612e-09,
      "loss": 0.8377,
      "step": 371
    },
    {
      "epoch": 1.9501312335958005,
      "grad_norm": 0.35563927647325777,
      "learning_rate": 6.827066535529947e-09,
      "loss": 0.7943,
      "step": 372
    },
    {
      "epoch": 1.9553805774278215,
      "grad_norm": 0.3474400330562922,
      "learning_rate": 5.2275307212742986e-09,
      "loss": 0.8511,
      "step": 373
    },
    {
      "epoch": 1.9606299212598426,
      "grad_norm": 0.3593397542649248,
      "learning_rate": 3.840990081415141e-09,
      "loss": 0.8186,
      "step": 374
    },
    {
      "epoch": 1.9658792650918635,
      "grad_norm": 0.3612580709923566,
      "learning_rate": 2.6675629940689508e-09,
      "loss": 0.848,
      "step": 375
    },
    {
      "epoch": 1.9711286089238844,
      "grad_norm": 0.3614238458155997,
      "learning_rate": 1.707349642442735e-09,
      "loss": 0.7933,
      "step": 376
    },
    {
      "epoch": 1.9763779527559056,
      "grad_norm": 0.39289720311660936,
      "learning_rate": 9.604320062814309e-10,
      "loss": 0.8323,
      "step": 377
    },
    {
      "epoch": 1.9816272965879265,
      "grad_norm": 0.36167265662489084,
      "learning_rate": 4.268738548682261e-10,
      "loss": 0.8512,
      "step": 378
    },
    {
      "epoch": 1.9868766404199474,
      "grad_norm": 0.3690750146631276,
      "learning_rate": 1.0672074158030176e-10,
      "loss": 0.832,
      "step": 379
    },
    {
      "epoch": 1.9921259842519685,
      "grad_norm": 0.35408134628230764,
      "learning_rate": 0.0,
      "loss": 0.8172,
      "step": 380
    }
  ],
  "logging_steps": 1,
  "max_steps": 380,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 95,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.333503833071944e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}