{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.4056355472983433,
  "eval_steps": 500,
  "global_step": 11000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003096454559529339,
      "grad_norm": 7.865213871002197,
      "learning_rate": 6.193868070610096e-07,
      "loss": 10.5439,
      "step": 10
    },
    {
      "epoch": 0.006192909119058678,
      "grad_norm": 5.684272289276123,
      "learning_rate": 1.2387736141220192e-06,
      "loss": 10.2888,
      "step": 20
    },
    {
      "epoch": 0.009289363678588018,
      "grad_norm": 4.032341003417969,
      "learning_rate": 1.8581604211830287e-06,
      "loss": 9.9454,
      "step": 30
    },
    {
      "epoch": 0.012385818238117356,
      "grad_norm": 3.232361316680908,
      "learning_rate": 2.4775472282440385e-06,
      "loss": 9.6908,
      "step": 40
    },
    {
      "epoch": 0.015482272797646695,
      "grad_norm": 2.7629575729370117,
      "learning_rate": 3.096934035305048e-06,
      "loss": 9.491,
      "step": 50
    },
    {
      "epoch": 0.018578727357176035,
      "grad_norm": 2.439429998397827,
      "learning_rate": 3.7163208423660575e-06,
      "loss": 9.3421,
      "step": 60
    },
    {
      "epoch": 0.021675181916705373,
      "grad_norm": 2.311237335205078,
      "learning_rate": 4.335707649427067e-06,
      "loss": 9.2172,
      "step": 70
    },
    {
      "epoch": 0.02477163647623471,
      "grad_norm": 2.1415603160858154,
      "learning_rate": 4.955094456488077e-06,
      "loss": 9.1165,
      "step": 80
    },
    {
      "epoch": 0.02786809103576405,
      "grad_norm": 2.0442802906036377,
      "learning_rate": 5.574481263549087e-06,
      "loss": 9.0171,
      "step": 90
    },
    {
      "epoch": 0.03096454559529339,
      "grad_norm": 2.0417075157165527,
      "learning_rate": 6.193868070610096e-06,
      "loss": 8.9188,
      "step": 100
    },
    {
      "epoch": 0.034061000154822725,
      "grad_norm": 1.906326413154602,
      "learning_rate": 6.813254877671105e-06,
      "loss": 8.817,
      "step": 110
    },
    {
      "epoch": 0.03715745471435207,
      "grad_norm": 1.876010537147522,
      "learning_rate": 7.432641684732115e-06,
      "loss": 8.7205,
      "step": 120
    },
    {
      "epoch": 0.04025390927388141,
      "grad_norm": 1.7335777282714844,
      "learning_rate": 8.052028491793125e-06,
      "loss": 8.6376,
      "step": 130
    },
    {
      "epoch": 0.043350363833410746,
      "grad_norm": 1.6829620599746704,
      "learning_rate": 8.671415298854134e-06,
      "loss": 8.5273,
      "step": 140
    },
    {
      "epoch": 0.046446818392940084,
      "grad_norm": 1.6329585313796997,
      "learning_rate": 9.290802105915144e-06,
      "loss": 8.4292,
      "step": 150
    },
    {
      "epoch": 0.04954327295246942,
      "grad_norm": 1.62351655960083,
      "learning_rate": 9.910188912976154e-06,
      "loss": 8.3279,
      "step": 160
    },
    {
      "epoch": 0.05263972751199876,
      "grad_norm": 1.5334705114364624,
      "learning_rate": 1.0529575720037164e-05,
      "loss": 8.2018,
      "step": 170
    },
    {
      "epoch": 0.0557361820715281,
      "grad_norm": 1.5242592096328735,
      "learning_rate": 1.1148962527098173e-05,
      "loss": 8.1007,
      "step": 180
    },
    {
      "epoch": 0.058832636631057436,
      "grad_norm": 1.5945011377334595,
      "learning_rate": 1.1768349334159183e-05,
      "loss": 7.972,
      "step": 190
    },
    {
      "epoch": 0.06192909119058678,
      "grad_norm": 1.3093743324279785,
      "learning_rate": 1.2387736141220193e-05,
      "loss": 7.8736,
      "step": 200
    },
    {
      "epoch": 0.06502554575011611,
      "grad_norm": 1.3056074380874634,
      "learning_rate": 1.30071229482812e-05,
      "loss": 7.7617,
      "step": 210
    },
    {
      "epoch": 0.06812200030964545,
      "grad_norm": 1.2901231050491333,
      "learning_rate": 1.362650975534221e-05,
      "loss": 7.6573,
      "step": 220
    },
    {
      "epoch": 0.07121845486917479,
      "grad_norm": 1.0811238288879395,
      "learning_rate": 1.424589656240322e-05,
      "loss": 7.5707,
      "step": 230
    },
    {
      "epoch": 0.07431490942870414,
      "grad_norm": 0.9134311676025391,
      "learning_rate": 1.486528336946423e-05,
      "loss": 7.4959,
      "step": 240
    },
    {
      "epoch": 0.07741136398823348,
      "grad_norm": 0.9673048257827759,
      "learning_rate": 1.548467017652524e-05,
      "loss": 7.4314,
      "step": 250
    },
    {
      "epoch": 0.08050781854776282,
      "grad_norm": 1.0383951663970947,
      "learning_rate": 1.610405698358625e-05,
      "loss": 7.3523,
      "step": 260
    },
    {
      "epoch": 0.08360427310729215,
      "grad_norm": 1.0910584926605225,
      "learning_rate": 1.6723443790647262e-05,
      "loss": 7.3133,
      "step": 270
    },
    {
      "epoch": 0.08670072766682149,
      "grad_norm": 0.804308295249939,
      "learning_rate": 1.734283059770827e-05,
      "loss": 7.2522,
      "step": 280
    },
    {
      "epoch": 0.08979718222635083,
      "grad_norm": 0.9341151714324951,
      "learning_rate": 1.796221740476928e-05,
      "loss": 7.2261,
      "step": 290
    },
    {
      "epoch": 0.09289363678588017,
      "grad_norm": 0.8165347576141357,
      "learning_rate": 1.8581604211830288e-05,
      "loss": 7.2088,
      "step": 300
    },
    {
      "epoch": 0.0959900913454095,
      "grad_norm": 0.6941328644752502,
      "learning_rate": 1.9200991018891298e-05,
      "loss": 7.1554,
      "step": 310
    },
    {
      "epoch": 0.09908654590493884,
      "grad_norm": 0.7364155650138855,
      "learning_rate": 1.9820377825952308e-05,
      "loss": 7.1313,
      "step": 320
    },
    {
      "epoch": 0.10218300046446818,
      "grad_norm": 1.3144842386245728,
      "learning_rate": 2.0439764633013317e-05,
      "loss": 7.1198,
      "step": 330
    },
    {
      "epoch": 0.10527945502399752,
      "grad_norm": 0.703687846660614,
      "learning_rate": 2.1059151440074327e-05,
      "loss": 7.0936,
      "step": 340
    },
    {
      "epoch": 0.10837590958352686,
      "grad_norm": 0.7936609387397766,
      "learning_rate": 2.1678538247135337e-05,
      "loss": 7.0966,
      "step": 350
    },
    {
      "epoch": 0.1114723641430562,
      "grad_norm": 0.9979026317596436,
      "learning_rate": 2.2297925054196347e-05,
      "loss": 7.0917,
      "step": 360
    },
    {
      "epoch": 0.11456881870258553,
      "grad_norm": 0.8398326635360718,
      "learning_rate": 2.2917311861257356e-05,
      "loss": 7.0791,
      "step": 370
    },
    {
      "epoch": 0.11766527326211487,
      "grad_norm": 0.7220719456672668,
      "learning_rate": 2.3536698668318366e-05,
      "loss": 7.057,
      "step": 380
    },
    {
      "epoch": 0.12076172782164422,
      "grad_norm": 0.8845738172531128,
      "learning_rate": 2.4156085475379376e-05,
      "loss": 7.0476,
      "step": 390
    },
    {
      "epoch": 0.12385818238117356,
      "grad_norm": 0.8084824085235596,
      "learning_rate": 2.4775472282440385e-05,
      "loss": 7.0369,
      "step": 400
    },
    {
      "epoch": 0.1269546369407029,
      "grad_norm": 0.7229199409484863,
      "learning_rate": 2.5394859089501395e-05,
      "loss": 7.0193,
      "step": 410
    },
    {
      "epoch": 0.13005109150023222,
      "grad_norm": 0.7450975179672241,
      "learning_rate": 2.60142458965624e-05,
      "loss": 7.0136,
      "step": 420
    },
    {
      "epoch": 0.13314754605976156,
      "grad_norm": 1.1810022592544556,
      "learning_rate": 2.6633632703623415e-05,
      "loss": 7.0257,
      "step": 430
    },
    {
      "epoch": 0.1362440006192909,
      "grad_norm": 0.724097728729248,
      "learning_rate": 2.725301951068442e-05,
      "loss": 7.0076,
      "step": 440
    },
    {
      "epoch": 0.13934045517882024,
      "grad_norm": 0.8406842350959778,
      "learning_rate": 2.7872406317745434e-05,
      "loss": 6.9976,
      "step": 450
    },
    {
      "epoch": 0.14243690973834958,
      "grad_norm": 0.8269332647323608,
      "learning_rate": 2.849179312480644e-05,
      "loss": 6.9812,
      "step": 460
    },
    {
      "epoch": 0.14553336429787894,
      "grad_norm": 0.7661322355270386,
      "learning_rate": 2.9111179931867453e-05,
      "loss": 7.0072,
      "step": 470
    },
    {
      "epoch": 0.14862981885740828,
      "grad_norm": 0.6673895120620728,
      "learning_rate": 2.973056673892846e-05,
      "loss": 6.9775,
      "step": 480
    },
    {
      "epoch": 0.15172627341693762,
      "grad_norm": 1.1476161479949951,
      "learning_rate": 3.0349953545989473e-05,
      "loss": 6.9496,
      "step": 490
    },
    {
      "epoch": 0.15482272797646696,
      "grad_norm": 1.0809210538864136,
      "learning_rate": 3.096934035305048e-05,
      "loss": 6.9578,
      "step": 500
    },
    {
      "epoch": 0.1579191825359963,
      "grad_norm": 0.8364447951316833,
      "learning_rate": 3.158872716011149e-05,
      "loss": 6.9371,
      "step": 510
    },
    {
      "epoch": 0.16101563709552563,
      "grad_norm": 0.9381659030914307,
      "learning_rate": 3.22081139671725e-05,
      "loss": 6.9373,
      "step": 520
    },
    {
      "epoch": 0.16411209165505497,
      "grad_norm": 0.8810213804244995,
      "learning_rate": 3.2827500774233505e-05,
      "loss": 6.9463,
      "step": 530
    },
    {
      "epoch": 0.1672085462145843,
      "grad_norm": 0.8275142908096313,
      "learning_rate": 3.3446887581294525e-05,
      "loss": 6.932,
      "step": 540
    },
    {
      "epoch": 0.17030500077411365,
      "grad_norm": 0.6804556846618652,
      "learning_rate": 3.406627438835553e-05,
      "loss": 6.9181,
      "step": 550
    },
    {
      "epoch": 0.17340145533364298,
      "grad_norm": 0.7559427618980408,
      "learning_rate": 3.468566119541654e-05,
      "loss": 6.9202,
      "step": 560
    },
    {
      "epoch": 0.17649790989317232,
      "grad_norm": 0.6762346029281616,
      "learning_rate": 3.5305048002477544e-05,
      "loss": 6.9081,
      "step": 570
    },
    {
      "epoch": 0.17959436445270166,
      "grad_norm": 0.6671234369277954,
      "learning_rate": 3.592443480953856e-05,
      "loss": 6.9216,
      "step": 580
    },
    {
      "epoch": 0.182690819012231,
      "grad_norm": 0.9335949420928955,
      "learning_rate": 3.654382161659957e-05,
      "loss": 6.9034,
      "step": 590
    },
    {
      "epoch": 0.18578727357176034,
      "grad_norm": 0.9805537462234497,
      "learning_rate": 3.7163208423660576e-05,
      "loss": 6.895,
      "step": 600
    },
    {
      "epoch": 0.18888372813128967,
      "grad_norm": 0.8761160969734192,
      "learning_rate": 3.778259523072158e-05,
      "loss": 6.9029,
      "step": 610
    },
    {
      "epoch": 0.191980182690819,
      "grad_norm": 0.8361015915870667,
      "learning_rate": 3.8401982037782596e-05,
      "loss": 6.8819,
      "step": 620
    },
    {
      "epoch": 0.19507663725034835,
      "grad_norm": 0.6740533709526062,
      "learning_rate": 3.902136884484361e-05,
      "loss": 6.8882,
      "step": 630
    },
    {
      "epoch": 0.1981730918098777,
      "grad_norm": 0.8334875702857971,
      "learning_rate": 3.9640755651904615e-05,
      "loss": 6.8917,
      "step": 640
    },
    {
      "epoch": 0.20126954636940703,
      "grad_norm": 0.7946698665618896,
      "learning_rate": 4.026014245896562e-05,
      "loss": 6.8712,
      "step": 650
    },
    {
      "epoch": 0.20436600092893636,
      "grad_norm": 1.1773180961608887,
      "learning_rate": 4.0879529266026635e-05,
      "loss": 6.8963,
      "step": 660
    },
    {
      "epoch": 0.2074624554884657,
      "grad_norm": 0.6932355165481567,
      "learning_rate": 4.149891607308765e-05,
      "loss": 6.8718,
      "step": 670
    },
    {
      "epoch": 0.21055891004799504,
      "grad_norm": 0.8239333629608154,
      "learning_rate": 4.2118302880148654e-05,
      "loss": 6.8549,
      "step": 680
    },
    {
      "epoch": 0.21365536460752438,
      "grad_norm": 0.8844727873802185,
      "learning_rate": 4.273768968720966e-05,
      "loss": 6.8687,
      "step": 690
    },
    {
      "epoch": 0.21675181916705372,
      "grad_norm": 0.8168037533760071,
      "learning_rate": 4.3357076494270674e-05,
      "loss": 6.8457,
      "step": 700
    },
    {
      "epoch": 0.21984827372658305,
      "grad_norm": 0.7363680601119995,
      "learning_rate": 4.397646330133168e-05,
      "loss": 6.8538,
      "step": 710
    },
    {
      "epoch": 0.2229447282861124,
      "grad_norm": 0.9639245867729187,
      "learning_rate": 4.459585010839269e-05,
      "loss": 6.855,
      "step": 720
    },
    {
      "epoch": 0.22604118284564173,
      "grad_norm": 0.7763282656669617,
      "learning_rate": 4.52152369154537e-05,
      "loss": 6.8254,
      "step": 730
    },
    {
      "epoch": 0.22913763740517107,
      "grad_norm": 1.482752799987793,
      "learning_rate": 4.583462372251471e-05,
      "loss": 6.8331,
      "step": 740
    },
    {
      "epoch": 0.2322340919647004,
      "grad_norm": 0.8456624150276184,
      "learning_rate": 4.645401052957572e-05,
      "loss": 6.8513,
      "step": 750
    },
    {
      "epoch": 0.23533054652422974,
      "grad_norm": 0.9166210889816284,
      "learning_rate": 4.707339733663673e-05,
      "loss": 6.8402,
      "step": 760
    },
    {
      "epoch": 0.23842700108375908,
      "grad_norm": 0.8375464677810669,
      "learning_rate": 4.769278414369774e-05,
      "loss": 6.8337,
      "step": 770
    },
    {
      "epoch": 0.24152345564328845,
      "grad_norm": 1.267236590385437,
      "learning_rate": 4.831217095075875e-05,
      "loss": 6.8193,
      "step": 780
    },
    {
      "epoch": 0.2446199102028178,
      "grad_norm": 0.6456039547920227,
      "learning_rate": 4.893155775781976e-05,
      "loss": 6.7969,
      "step": 790
    },
    {
      "epoch": 0.24771636476234712,
      "grad_norm": 0.8981896638870239,
      "learning_rate": 4.955094456488077e-05,
      "loss": 6.8133,
      "step": 800
    },
    {
      "epoch": 0.25081281932187643,
      "grad_norm": 1.120186686515808,
      "learning_rate": 5.017033137194178e-05,
      "loss": 6.8056,
      "step": 810
    },
    {
      "epoch": 0.2539092738814058,
      "grad_norm": 2.292698621749878,
      "learning_rate": 5.078971817900279e-05,
      "loss": 6.8308,
      "step": 820
    },
    {
      "epoch": 0.2570057284409351,
      "grad_norm": 0.7018686532974243,
      "learning_rate": 5.1409104986063797e-05,
      "loss": 6.8154,
      "step": 830
    },
    {
      "epoch": 0.26010218300046445,
      "grad_norm": 0.8676766753196716,
      "learning_rate": 5.20284917931248e-05,
      "loss": 6.8134,
      "step": 840
    },
    {
      "epoch": 0.2631986375599938,
      "grad_norm": 1.0170965194702148,
      "learning_rate": 5.2647878600185816e-05,
      "loss": 6.8014,
      "step": 850
    },
    {
      "epoch": 0.2662950921195231,
      "grad_norm": 1.100301742553711,
      "learning_rate": 5.326726540724683e-05,
      "loss": 6.7759,
      "step": 860
    },
    {
      "epoch": 0.26939154667905246,
      "grad_norm": 0.9783535003662109,
      "learning_rate": 5.3886652214307835e-05,
      "loss": 6.7684,
      "step": 870
    },
    {
      "epoch": 0.2724880012385818,
      "grad_norm": 1.2189717292785645,
      "learning_rate": 5.450603902136884e-05,
      "loss": 6.7609,
      "step": 880
    },
    {
      "epoch": 0.27558445579811114,
      "grad_norm": 0.9612496495246887,
      "learning_rate": 5.5125425828429855e-05,
      "loss": 6.7852,
      "step": 890
    },
    {
      "epoch": 0.2786809103576405,
      "grad_norm": 1.201369047164917,
      "learning_rate": 5.574481263549087e-05,
      "loss": 6.7685,
      "step": 900
    },
    {
      "epoch": 0.2817773649171698,
      "grad_norm": 1.0445016622543335,
      "learning_rate": 5.6364199442551874e-05,
      "loss": 6.7863,
      "step": 910
    },
    {
      "epoch": 0.28487381947669915,
      "grad_norm": 0.9389632940292358,
      "learning_rate": 5.698358624961288e-05,
      "loss": 6.7803,
      "step": 920
    },
    {
      "epoch": 0.2879702740362285,
      "grad_norm": 1.522533655166626,
      "learning_rate": 5.7602973056673894e-05,
      "loss": 6.7642,
      "step": 930
    },
    {
      "epoch": 0.2910667285957579,
      "grad_norm": 0.5819054841995239,
      "learning_rate": 5.822235986373491e-05,
      "loss": 6.772,
      "step": 940
    },
    {
      "epoch": 0.2941631831552872,
      "grad_norm": 0.5492868423461914,
      "learning_rate": 5.884174667079591e-05,
      "loss": 6.7712,
      "step": 950
    },
    {
      "epoch": 0.29725963771481656,
      "grad_norm": 0.9563374519348145,
      "learning_rate": 5.946113347785692e-05,
      "loss": 6.7602,
      "step": 960
    },
    {
      "epoch": 0.3003560922743459,
      "grad_norm": 1.8112778663635254,
      "learning_rate": 6.0080520284917926e-05,
      "loss": 6.774,
      "step": 970
    },
    {
      "epoch": 0.30345254683387524,
      "grad_norm": 1.9124343395233154,
      "learning_rate": 6.0699907091978946e-05,
      "loss": 6.7692,
      "step": 980
    },
    {
      "epoch": 0.3065490013934046,
      "grad_norm": 1.0520577430725098,
      "learning_rate": 6.131929389903995e-05,
      "loss": 6.7624,
      "step": 990
    },
    {
      "epoch": 0.3096454559529339,
      "grad_norm": 0.9971650242805481,
      "learning_rate": 6.193868070610096e-05,
      "loss": 6.7597,
      "step": 1000
    },
    {
      "epoch": 0.31274191051246325,
      "grad_norm": 0.7130516171455383,
      "learning_rate": 6.255806751316196e-05,
      "loss": 6.7548,
      "step": 1010
    },
    {
      "epoch": 0.3158383650719926,
      "grad_norm": 0.8867819309234619,
      "learning_rate": 6.317745432022298e-05,
      "loss": 6.7416,
      "step": 1020
    },
    {
      "epoch": 0.3189348196315219,
      "grad_norm": 2.448023557662964,
      "learning_rate": 6.379684112728398e-05,
      "loss": 6.7675,
      "step": 1030
    },
    {
      "epoch": 0.32203127419105126,
      "grad_norm": 2.0288820266723633,
      "learning_rate": 6.4416227934345e-05,
      "loss": 6.7555,
      "step": 1040
    },
    {
      "epoch": 0.3251277287505806,
      "grad_norm": 0.645900309085846,
      "learning_rate": 6.503561474140602e-05,
      "loss": 6.7557,
      "step": 1050
    },
    {
      "epoch": 0.32822418331010994,
      "grad_norm": 0.7342972159385681,
      "learning_rate": 6.565500154846701e-05,
      "loss": 6.7452,
      "step": 1060
    },
    {
      "epoch": 0.3313206378696393,
      "grad_norm": 1.523195743560791,
      "learning_rate": 6.627438835552803e-05,
      "loss": 6.7476,
      "step": 1070
    },
    {
      "epoch": 0.3344170924291686,
      "grad_norm": 1.812499761581421,
      "learning_rate": 6.689377516258905e-05,
      "loss": 6.7432,
      "step": 1080
    },
    {
      "epoch": 0.33751354698869795,
      "grad_norm": 0.8007811307907104,
      "learning_rate": 6.751316196965004e-05,
      "loss": 6.7387,
      "step": 1090
    },
    {
      "epoch": 0.3406100015482273,
      "grad_norm": 1.449756145477295,
      "learning_rate": 6.813254877671106e-05,
      "loss": 6.7323,
      "step": 1100
    },
    {
      "epoch": 0.34370645610775663,
      "grad_norm": 1.145936369895935,
      "learning_rate": 6.875193558377207e-05,
      "loss": 6.7396,
      "step": 1110
    },
    {
      "epoch": 0.34680291066728597,
      "grad_norm": 1.155754804611206,
      "learning_rate": 6.937132239083308e-05,
      "loss": 6.7288,
      "step": 1120
    },
    {
      "epoch": 0.3498993652268153,
      "grad_norm": 1.3261879682540894,
      "learning_rate": 6.99907091978941e-05,
      "loss": 6.717,
      "step": 1130
    },
    {
      "epoch": 0.35299581978634464,
      "grad_norm": 2.5398218631744385,
      "learning_rate": 7.061009600495509e-05,
      "loss": 6.7055,
      "step": 1140
    },
    {
      "epoch": 0.356092274345874,
      "grad_norm": 0.6757873892784119,
      "learning_rate": 7.122948281201611e-05,
      "loss": 6.7242,
      "step": 1150
    },
    {
      "epoch": 0.3591887289054033,
      "grad_norm": 0.8870462775230408,
      "learning_rate": 7.184886961907711e-05,
      "loss": 6.7241,
      "step": 1160
    },
    {
      "epoch": 0.36228518346493266,
      "grad_norm": 2.03185772895813,
      "learning_rate": 7.246825642613812e-05,
      "loss": 6.7364,
      "step": 1170
    },
    {
      "epoch": 0.365381638024462,
      "grad_norm": 1.013759970664978,
      "learning_rate": 7.308764323319914e-05,
      "loss": 6.7151,
      "step": 1180
    },
    {
      "epoch": 0.36847809258399133,
      "grad_norm": 1.6533416509628296,
      "learning_rate": 7.370703004026015e-05,
      "loss": 6.7207,
      "step": 1190
    },
    {
      "epoch": 0.3715745471435207,
      "grad_norm": 1.0296862125396729,
      "learning_rate": 7.432641684732115e-05,
      "loss": 6.7154,
      "step": 1200
    },
    {
      "epoch": 0.37467100170305,
      "grad_norm": 0.7925991415977478,
      "learning_rate": 7.494580365438217e-05,
      "loss": 6.7036,
      "step": 1210
    },
    {
      "epoch": 0.37776745626257935,
      "grad_norm": 1.123253345489502,
      "learning_rate": 7.556519046144317e-05,
      "loss": 6.6981,
      "step": 1220
    },
    {
      "epoch": 0.3808639108221087,
      "grad_norm": 1.2927206754684448,
      "learning_rate": 7.618457726850419e-05,
      "loss": 6.7105,
      "step": 1230
    },
    {
      "epoch": 0.383960365381638,
      "grad_norm": 1.2877053022384644,
      "learning_rate": 7.680396407556519e-05,
      "loss": 6.7046,
      "step": 1240
    },
    {
      "epoch": 0.38705681994116736,
      "grad_norm": 1.5025876760482788,
      "learning_rate": 7.74233508826262e-05,
      "loss": 6.7097,
      "step": 1250
    },
    {
      "epoch": 0.3901532745006967,
      "grad_norm": 1.8476455211639404,
      "learning_rate": 7.804273768968722e-05,
      "loss": 6.7091,
      "step": 1260
    },
    {
      "epoch": 0.39324972906022604,
      "grad_norm": 1.1083704233169556,
      "learning_rate": 7.866212449674822e-05,
      "loss": 6.7281,
      "step": 1270
    },
    {
      "epoch": 0.3963461836197554,
      "grad_norm": 1.9753637313842773,
      "learning_rate": 7.928151130380923e-05,
      "loss": 6.6795,
      "step": 1280
    },
    {
      "epoch": 0.3994426381792847,
      "grad_norm": 0.6769999265670776,
      "learning_rate": 7.990089811087024e-05,
      "loss": 6.7043,
      "step": 1290
    },
    {
      "epoch": 0.40253909273881405,
      "grad_norm": 1.1025127172470093,
      "learning_rate": 8.052028491793124e-05,
      "loss": 6.673,
      "step": 1300
    },
    {
      "epoch": 0.4056355472983434,
      "grad_norm": 1.132672667503357,
      "learning_rate": 8.113967172499226e-05,
      "loss": 6.6962,
      "step": 1310
    },
    {
      "epoch": 0.40873200185787273,
      "grad_norm": 3.0605337619781494,
      "learning_rate": 8.175905853205327e-05,
      "loss": 6.693,
      "step": 1320
    },
    {
      "epoch": 0.41182845641740207,
      "grad_norm": 1.0931648015975952,
      "learning_rate": 8.237844533911428e-05,
      "loss": 6.6865,
      "step": 1330
    },
    {
      "epoch": 0.4149249109769314,
      "grad_norm": 1.2315603494644165,
      "learning_rate": 8.29978321461753e-05,
      "loss": 6.6753,
      "step": 1340
    },
    {
      "epoch": 0.41802136553646074,
      "grad_norm": 1.4472100734710693,
      "learning_rate": 8.36172189532363e-05,
      "loss": 6.6882,
      "step": 1350
    },
    {
      "epoch": 0.4211178200959901,
      "grad_norm": 1.6784274578094482,
      "learning_rate": 8.423660576029731e-05,
      "loss": 6.6776,
      "step": 1360
    },
    {
      "epoch": 0.4242142746555194,
      "grad_norm": 2.4951741695404053,
      "learning_rate": 8.485599256735831e-05,
      "loss": 6.6813,
      "step": 1370
    },
    {
      "epoch": 0.42731072921504876,
      "grad_norm": 2.3850290775299072,
      "learning_rate": 8.547537937441932e-05,
      "loss": 6.6729,
      "step": 1380
    },
    {
      "epoch": 0.4304071837745781,
      "grad_norm": 0.8592017889022827,
      "learning_rate": 8.609476618148034e-05,
      "loss": 6.681,
      "step": 1390
    },
    {
      "epoch": 0.43350363833410743,
      "grad_norm": 1.178676962852478,
      "learning_rate": 8.671415298854135e-05,
      "loss": 6.6717,
      "step": 1400
    },
    {
      "epoch": 0.43660009289363677,
      "grad_norm": 1.6043617725372314,
      "learning_rate": 8.733353979560235e-05,
      "loss": 6.6647,
      "step": 1410
    },
    {
      "epoch": 0.4396965474531661,
      "grad_norm": 0.872035562992096,
      "learning_rate": 8.795292660266336e-05,
      "loss": 6.666,
      "step": 1420
    },
    {
      "epoch": 0.44279300201269545,
      "grad_norm": 1.1680723428726196,
      "learning_rate": 8.857231340972438e-05,
      "loss": 6.6622,
      "step": 1430
    },
    {
      "epoch": 0.4458894565722248,
      "grad_norm": 0.8795621991157532,
      "learning_rate": 8.919170021678539e-05,
      "loss": 6.64,
      "step": 1440
    },
    {
      "epoch": 0.4489859111317541,
      "grad_norm": 1.5785902738571167,
      "learning_rate": 8.981108702384639e-05,
      "loss": 6.6613,
      "step": 1450
    },
    {
      "epoch": 0.45208236569128346,
      "grad_norm": 1.319611668586731,
      "learning_rate": 9.04304738309074e-05,
      "loss": 6.6573,
      "step": 1460
    },
    {
      "epoch": 0.4551788202508128,
      "grad_norm": 1.0796053409576416,
      "learning_rate": 9.104986063796842e-05,
      "loss": 6.6614,
      "step": 1470
    },
    {
      "epoch": 0.45827527481034214,
      "grad_norm": 1.2139097452163696,
      "learning_rate": 9.166924744502942e-05,
      "loss": 6.6461,
      "step": 1480
    },
    {
      "epoch": 0.4613717293698715,
      "grad_norm": 1.3955761194229126,
      "learning_rate": 9.228863425209043e-05,
      "loss": 6.6611,
      "step": 1490
    },
    {
      "epoch": 0.4644681839294008,
      "grad_norm": 1.5178614854812622,
      "learning_rate": 9.290802105915144e-05,
      "loss": 6.6615,
      "step": 1500
    },
    {
      "epoch": 0.46756463848893015,
      "grad_norm": 1.3112921714782715,
      "learning_rate": 9.352740786621246e-05,
      "loss": 6.6644,
      "step": 1510
    },
    {
      "epoch": 0.4706610930484595,
      "grad_norm": 1.5961909294128418,
      "learning_rate": 9.414679467327346e-05,
      "loss": 6.673,
      "step": 1520
    },
    {
      "epoch": 0.4737575476079888,
      "grad_norm": 1.0166618824005127,
      "learning_rate": 9.476618148033447e-05,
      "loss": 6.647,
      "step": 1530
    },
    {
      "epoch": 0.47685400216751817,
      "grad_norm": 1.2850325107574463,
      "learning_rate": 9.538556828739548e-05,
      "loss": 6.6536,
      "step": 1540
    },
    {
      "epoch": 0.4799504567270475,
      "grad_norm": 1.1776533126831055,
      "learning_rate": 9.600495509445648e-05,
      "loss": 6.6446,
      "step": 1550
    },
    {
      "epoch": 0.4830469112865769,
      "grad_norm": 1.783477544784546,
      "learning_rate": 9.66243419015175e-05,
      "loss": 6.6353,
      "step": 1560
    },
    {
      "epoch": 0.48614336584610623,
      "grad_norm": 1.7229933738708496,
      "learning_rate": 9.724372870857851e-05,
      "loss": 6.6363,
      "step": 1570
    },
    {
      "epoch": 0.4892398204056356,
      "grad_norm": 0.9246505498886108,
      "learning_rate": 9.786311551563952e-05,
      "loss": 6.6616,
      "step": 1580
    },
    {
      "epoch": 0.4923362749651649,
      "grad_norm": 1.7007242441177368,
      "learning_rate": 9.848250232270054e-05,
      "loss": 6.6608,
      "step": 1590
    },
    {
      "epoch": 0.49543272952469425,
      "grad_norm": 1.145609974861145,
      "learning_rate": 9.910188912976154e-05,
      "loss": 6.6282,
      "step": 1600
    },
    {
      "epoch": 0.4985291840842236,
      "grad_norm": 1.1772605180740356,
      "learning_rate": 9.972127593682255e-05,
      "loss": 6.6463,
      "step": 1610
    },
    {
      "epoch": 0.5016256386437529,
      "grad_norm": 0.8392823338508606,
      "learning_rate": 0.00010034066274388355,
      "loss": 6.6387,
      "step": 1620
    },
    {
      "epoch": 0.5047220932032822,
      "grad_norm": 1.2767823934555054,
      "learning_rate": 0.00010096004955094456,
      "loss": 6.6571,
      "step": 1630
    },
    {
      "epoch": 0.5078185477628115,
      "grad_norm": 2.3833205699920654,
      "learning_rate": 0.00010157943635800558,
      "loss": 6.6407,
      "step": 1640
    },
    {
      "epoch": 0.5109150023223409,
      "grad_norm": 1.3098053932189941,
      "learning_rate": 0.00010219882316506659,
      "loss": 6.6357,
      "step": 1650
    },
    {
      "epoch": 0.5140114568818702,
      "grad_norm": 1.2075214385986328,
      "learning_rate": 0.00010281820997212759,
      "loss": 6.6368,
      "step": 1660
    },
    {
      "epoch": 0.5171079114413996,
      "grad_norm": 1.251852035522461,
      "learning_rate": 0.00010343759677918861,
      "loss": 6.6255,
      "step": 1670
    },
    {
      "epoch": 0.5202043660009289,
      "grad_norm": 1.3142434358596802,
      "learning_rate": 0.0001040569835862496,
      "loss": 6.6218,
      "step": 1680
    },
    {
      "epoch": 0.5233008205604582,
      "grad_norm": 2.4521663188934326,
      "learning_rate": 0.00010467637039331063,
      "loss": 6.6264,
      "step": 1690
    },
    {
      "epoch": 0.5263972751199876,
      "grad_norm": 1.0846492052078247,
      "learning_rate": 0.00010529575720037163,
      "loss": 6.6515,
      "step": 1700
    },
    {
      "epoch": 0.5294937296795169,
      "grad_norm": 1.6620179414749146,
      "learning_rate": 0.00010591514400743264,
      "loss": 6.6323,
      "step": 1710
    },
    {
      "epoch": 0.5325901842390462,
      "grad_norm": 0.8557600975036621,
      "learning_rate": 0.00010653453081449366,
      "loss": 6.6437,
      "step": 1720
    },
    {
      "epoch": 0.5356866387985756,
      "grad_norm": 0.6991952061653137,
      "learning_rate": 0.00010715391762155466,
      "loss": 6.6211,
      "step": 1730
    },
    {
      "epoch": 0.5387830933581049,
      "grad_norm": 1.5852376222610474,
      "learning_rate": 0.00010777330442861567,
      "loss": 6.5952,
      "step": 1740
    },
    {
      "epoch": 0.5418795479176343,
      "grad_norm": 1.642796516418457,
      "learning_rate": 0.00010839269123567669,
      "loss": 6.6295,
      "step": 1750
    },
    {
      "epoch": 0.5449760024771636,
      "grad_norm": 1.2764023542404175,
      "learning_rate": 0.00010901207804273768,
      "loss": 6.6294,
      "step": 1760
    },
    {
      "epoch": 0.5480724570366929,
      "grad_norm": 1.6868603229522705,
      "learning_rate": 0.0001096314648497987,
      "loss": 6.6292,
      "step": 1770
    },
    {
      "epoch": 0.5511689115962223,
      "grad_norm": 1.3303276300430298,
      "learning_rate": 0.00011025085165685971,
      "loss": 6.5998,
      "step": 1780
    },
    {
      "epoch": 0.5542653661557516,
      "grad_norm": 1.396274447441101,
      "learning_rate": 0.00011087023846392072,
      "loss": 6.6223,
      "step": 1790
    },
    {
      "epoch": 0.557361820715281,
      "grad_norm": 0.879639744758606,
      "learning_rate": 0.00011148962527098174,
      "loss": 6.612,
      "step": 1800
    },
    {
      "epoch": 0.5604582752748103,
      "grad_norm": 1.1366828680038452,
      "learning_rate": 0.00011210901207804273,
      "loss": 6.6122,
      "step": 1810
    },
    {
      "epoch": 0.5635547298343396,
      "grad_norm": 1.480747938156128,
      "learning_rate": 0.00011272839888510375,
      "loss": 6.6094,
      "step": 1820
    },
    {
      "epoch": 0.566651184393869,
      "grad_norm": 1.1296987533569336,
      "learning_rate": 0.00011334778569216477,
      "loss": 6.6194,
      "step": 1830
    },
    {
      "epoch": 0.5697476389533983,
      "grad_norm": 0.9196439385414124,
      "learning_rate": 0.00011396717249922576,
      "loss": 6.5923,
      "step": 1840
    },
    {
      "epoch": 0.5728440935129276,
      "grad_norm": 1.3304774761199951,
      "learning_rate": 0.00011458655930628678,
      "loss": 6.6129,
      "step": 1850
    },
    {
      "epoch": 0.575940548072457,
      "grad_norm": 1.071112871170044,
      "learning_rate": 0.00011520594611334779,
      "loss": 6.6095,
      "step": 1860
    },
    {
      "epoch": 0.5790370026319864,
      "grad_norm": 1.1381322145462036,
      "learning_rate": 0.0001158253329204088,
      "loss": 6.5962,
      "step": 1870
    },
    {
      "epoch": 0.5821334571915158,
      "grad_norm": 2.608501672744751,
      "learning_rate": 0.00011644471972746981,
      "loss": 6.6024,
      "step": 1880
    },
    {
      "epoch": 0.5852299117510451,
      "grad_norm": 1.4727625846862793,
      "learning_rate": 0.0001170641065345308,
      "loss": 6.5914,
      "step": 1890
    },
    {
      "epoch": 0.5883263663105744,
      "grad_norm": 1.192298173904419,
      "learning_rate": 0.00011768349334159183,
      "loss": 6.6072,
      "step": 1900
    },
    {
      "epoch": 0.5914228208701038,
      "grad_norm": 0.9773418307304382,
      "learning_rate": 0.00011830288014865285,
      "loss": 6.5805,
      "step": 1910
    },
    {
      "epoch": 0.5945192754296331,
      "grad_norm": 1.096369743347168,
      "learning_rate": 0.00011892226695571384,
      "loss": 6.6052,
      "step": 1920
    },
    {
      "epoch": 0.5976157299891625,
      "grad_norm": 1.2275642156600952,
      "learning_rate": 0.00011954165376277486,
      "loss": 6.594,
      "step": 1930
    },
    {
      "epoch": 0.6007121845486918,
      "grad_norm": 1.3209136724472046,
      "learning_rate": 0.00012016104056983585,
      "loss": 6.6078,
      "step": 1940
    },
    {
      "epoch": 0.6038086391082211,
      "grad_norm": 1.3680113554000854,
      "learning_rate": 0.00012078042737689687,
      "loss": 6.5793,
      "step": 1950
    },
    {
      "epoch": 0.6069050936677505,
      "grad_norm": 1.2960150241851807,
      "learning_rate": 0.00012139981418395789,
      "loss": 6.5969,
      "step": 1960
    },
    {
      "epoch": 0.6100015482272798,
      "grad_norm": 0.8884462118148804,
      "learning_rate": 0.00012201920099101888,
      "loss": 6.5862,
      "step": 1970
    },
    {
      "epoch": 0.6130980027868091,
      "grad_norm": 0.9539084434509277,
      "learning_rate": 0.0001226385877980799,
      "loss": 6.5797,
      "step": 1980
    },
    {
      "epoch": 0.6161944573463385,
      "grad_norm": 1.023714303970337,
      "learning_rate": 0.0001232579746051409,
      "loss": 6.5896,
      "step": 1990
    },
    {
      "epoch": 0.6192909119058678,
      "grad_norm": 1.0426772832870483,
      "learning_rate": 0.00012387736141220192,
      "loss": 6.6121,
      "step": 2000
    },
    {
      "epoch": 0.6223873664653972,
      "grad_norm": 1.4499601125717163,
      "learning_rate": 0.00012449674821926292,
      "loss": 6.6107,
      "step": 2010
    },
    {
      "epoch": 0.6254838210249265,
      "grad_norm": 1.2633146047592163,
      "learning_rate": 0.00012511613502632393,
      "loss": 6.5991,
      "step": 2020
    },
    {
      "epoch": 0.6285802755844558,
      "grad_norm": 0.845995306968689,
      "learning_rate": 0.00012573552183338496,
      "loss": 6.5722,
      "step": 2030
    },
    {
      "epoch": 0.6316767301439852,
      "grad_norm": 1.2431766986846924,
      "learning_rate": 0.00012635490864044597,
      "loss": 6.5958,
      "step": 2040
    },
    {
      "epoch": 0.6347731847035145,
      "grad_norm": 0.9436641335487366,
      "learning_rate": 0.00012697429544750698,
      "loss": 6.5901,
      "step": 2050
    },
    {
      "epoch": 0.6378696392630439,
      "grad_norm": 1.334149718284607,
      "learning_rate": 0.00012759368225456795,
      "loss": 6.5938,
      "step": 2060
    },
    {
      "epoch": 0.6409660938225732,
      "grad_norm": 0.9270686507225037,
      "learning_rate": 0.000128213069061629,
      "loss": 6.5767,
      "step": 2070
    },
    {
      "epoch": 0.6440625483821025,
      "grad_norm": 1.3940073251724243,
      "learning_rate": 0.00012883245586869,
      "loss": 6.5834,
      "step": 2080
    },
    {
      "epoch": 0.6471590029416319,
      "grad_norm": 1.163221001625061,
      "learning_rate": 0.000129451842675751,
      "loss": 6.5784,
      "step": 2090
    },
    {
      "epoch": 0.6502554575011612,
      "grad_norm": 0.9691527485847473,
      "learning_rate": 0.00013007122948281203,
      "loss": 6.5823,
      "step": 2100
    },
    {
      "epoch": 0.6533519120606905,
      "grad_norm": 0.7050260305404663,
      "learning_rate": 0.000130690616289873,
      "loss": 6.5847,
      "step": 2110
    },
    {
      "epoch": 0.6564483666202199,
      "grad_norm": 1.2201118469238281,
      "learning_rate": 0.00013131000309693402,
      "loss": 6.5952,
      "step": 2120
    },
    {
      "epoch": 0.6595448211797492,
      "grad_norm": 1.3519176244735718,
      "learning_rate": 0.00013192938990399505,
      "loss": 6.5822,
      "step": 2130
    },
    {
      "epoch": 0.6626412757392786,
      "grad_norm": 1.0712783336639404,
      "learning_rate": 0.00013254877671105606,
      "loss": 6.5677,
      "step": 2140
    },
    {
      "epoch": 0.6657377302988079,
      "grad_norm": 1.0584081411361694,
      "learning_rate": 0.00013316816351811707,
      "loss": 6.5859,
      "step": 2150
    },
    {
      "epoch": 0.6688341848583372,
      "grad_norm": 0.8563801050186157,
      "learning_rate": 0.0001337875503251781,
      "loss": 6.5902,
      "step": 2160
    },
    {
      "epoch": 0.6719306394178666,
      "grad_norm": 0.8715903162956238,
      "learning_rate": 0.00013440693713223908,
      "loss": 6.5875,
      "step": 2170
    },
    {
      "epoch": 0.6750270939773959,
      "grad_norm": 1.3086822032928467,
      "learning_rate": 0.00013502632393930008,
      "loss": 6.5905,
      "step": 2180
    },
    {
      "epoch": 0.6781235485369252,
      "grad_norm": 0.8140910267829895,
      "learning_rate": 0.00013564571074636112,
      "loss": 6.558,
      "step": 2190
    },
    {
      "epoch": 0.6812200030964546,
      "grad_norm": 0.8857564330101013,
      "learning_rate": 0.00013626509755342212,
      "loss": 6.5713,
      "step": 2200
    },
    {
      "epoch": 0.6843164576559839,
      "grad_norm": 1.4854942560195923,
      "learning_rate": 0.00013688448436048313,
      "loss": 6.5836,
      "step": 2210
    },
    {
      "epoch": 0.6874129122155133,
      "grad_norm": 1.4530035257339478,
      "learning_rate": 0.00013750387116754414,
      "loss": 6.5756,
      "step": 2220
    },
    {
      "epoch": 0.6905093667750426,
      "grad_norm": 0.8865880370140076,
      "learning_rate": 0.00013812325797460514,
      "loss": 6.5887,
      "step": 2230
    },
    {
      "epoch": 0.6936058213345719,
      "grad_norm": 0.8601120710372925,
      "learning_rate": 0.00013874264478166615,
      "loss": 6.5701,
      "step": 2240
    },
    {
      "epoch": 0.6967022758941013,
      "grad_norm": 0.8077085614204407,
      "learning_rate": 0.00013936203158872716,
      "loss": 6.5734,
      "step": 2250
    },
    {
      "epoch": 0.6997987304536306,
      "grad_norm": 0.7860495448112488,
      "learning_rate": 0.0001399814183957882,
      "loss": 6.5609,
      "step": 2260
    },
    {
      "epoch": 0.70289518501316,
      "grad_norm": 1.4957787990570068,
      "learning_rate": 0.00014060080520284917,
      "loss": 6.5588,
      "step": 2270
    },
    {
      "epoch": 0.7059916395726893,
      "grad_norm": 1.2393313646316528,
      "learning_rate": 0.00014122019200991018,
      "loss": 6.5752,
      "step": 2280
    },
    {
      "epoch": 0.7090880941322186,
      "grad_norm": 0.8842589855194092,
      "learning_rate": 0.0001418395788169712,
      "loss": 6.5574,
      "step": 2290
    },
    {
      "epoch": 0.712184548691748,
      "grad_norm": 0.7826055884361267,
      "learning_rate": 0.00014245896562403222,
      "loss": 6.5612,
      "step": 2300
    },
    {
      "epoch": 0.7152810032512773,
      "grad_norm": 0.9402616024017334,
      "learning_rate": 0.00014307835243109322,
      "loss": 6.5596,
      "step": 2310
    },
    {
      "epoch": 0.7183774578108066,
      "grad_norm": 1.274904727935791,
      "learning_rate": 0.00014369773923815423,
      "loss": 6.5796,
      "step": 2320
    },
    {
      "epoch": 0.721473912370336,
      "grad_norm": 1.112528681755066,
      "learning_rate": 0.00014431712604521523,
      "loss": 6.5563,
      "step": 2330
    },
    {
      "epoch": 0.7245703669298653,
      "grad_norm": 0.8044337630271912,
      "learning_rate": 0.00014493651285227624,
      "loss": 6.547,
      "step": 2340
    },
    {
      "epoch": 0.7276668214893947,
      "grad_norm": 1.0962836742401123,
      "learning_rate": 0.00014555589965933727,
      "loss": 6.5543,
      "step": 2350
    },
    {
      "epoch": 0.730763276048924,
      "grad_norm": 1.0332891941070557,
      "learning_rate": 0.00014617528646639828,
      "loss": 6.5486,
      "step": 2360
    },
    {
      "epoch": 0.7338597306084533,
      "grad_norm": 0.9583357572555542,
      "learning_rate": 0.00014679467327345926,
      "loss": 6.5602,
      "step": 2370
    },
    {
      "epoch": 0.7369561851679827,
      "grad_norm": 1.0913727283477783,
      "learning_rate": 0.0001474140600805203,
      "loss": 6.5468,
      "step": 2380
    },
    {
      "epoch": 0.740052639727512,
      "grad_norm": 1.192328929901123,
      "learning_rate": 0.0001480334468875813,
      "loss": 6.5476,
      "step": 2390
    },
    {
      "epoch": 0.7431490942870413,
      "grad_norm": 1.3153208494186401,
      "learning_rate": 0.0001486528336946423,
      "loss": 6.5502,
      "step": 2400
    },
    {
      "epoch": 0.7462455488465707,
      "grad_norm": 1.0659363269805908,
      "learning_rate": 0.0001492722205017033,
      "loss": 6.5458,
      "step": 2410
    },
    {
      "epoch": 0.7493420034061,
      "grad_norm": 0.6409627199172974,
      "learning_rate": 0.00014989160730876435,
      "loss": 6.5615,
      "step": 2420
    },
    {
      "epoch": 0.7524384579656294,
      "grad_norm": 1.534621238708496,
      "learning_rate": 0.00015051099411582532,
      "loss": 6.5413,
      "step": 2430
    },
    {
      "epoch": 0.7555349125251587,
      "grad_norm": 0.8091804385185242,
      "learning_rate": 0.00015113038092288633,
      "loss": 6.5558,
      "step": 2440
    },
    {
      "epoch": 0.758631367084688,
      "grad_norm": 1.1276757717132568,
      "learning_rate": 0.00015174976772994736,
      "loss": 6.5495,
      "step": 2450
    },
    {
      "epoch": 0.7617278216442174,
      "grad_norm": 1.1171313524246216,
      "learning_rate": 0.00015236915453700837,
      "loss": 6.5202,
      "step": 2460
    },
    {
      "epoch": 0.7648242762037467,
      "grad_norm": 0.8118519186973572,
      "learning_rate": 0.00015298854134406938,
      "loss": 6.5484,
      "step": 2470
    },
    {
      "epoch": 0.767920730763276,
      "grad_norm": 0.835800290107727,
      "learning_rate": 0.00015360792815113038,
      "loss": 6.5512,
      "step": 2480
    },
    {
      "epoch": 0.7710171853228054,
      "grad_norm": 1.2488937377929688,
      "learning_rate": 0.0001542273149581914,
      "loss": 6.5434,
      "step": 2490
    },
    {
      "epoch": 0.7741136398823347,
      "grad_norm": 1.0001873970031738,
      "learning_rate": 0.0001548467017652524,
      "loss": 6.5562,
      "step": 2500
    },
    {
      "epoch": 0.7772100944418641,
      "grad_norm": 1.329168438911438,
      "learning_rate": 0.00015546608857231343,
      "loss": 6.5432,
      "step": 2510
    },
    {
      "epoch": 0.7803065490013934,
      "grad_norm": 1.0739688873291016,
      "learning_rate": 0.00015608547537937444,
      "loss": 6.5359,
      "step": 2520
    },
    {
      "epoch": 0.7834030035609227,
      "grad_norm": 1.1103359460830688,
      "learning_rate": 0.00015670486218643541,
      "loss": 6.5514,
      "step": 2530
    },
    {
      "epoch": 0.7864994581204521,
      "grad_norm": 0.7088027596473694,
      "learning_rate": 0.00015732424899349645,
      "loss": 6.5415,
      "step": 2540
    },
    {
      "epoch": 0.7895959126799814,
      "grad_norm": 1.141654133796692,
      "learning_rate": 0.00015794363580055745,
      "loss": 6.5505,
      "step": 2550
    },
    {
      "epoch": 0.7926923672395108,
      "grad_norm": 0.9900869727134705,
      "learning_rate": 0.00015856302260761846,
      "loss": 6.5505,
      "step": 2560
    },
    {
      "epoch": 0.7957888217990401,
      "grad_norm": 0.9820410013198853,
      "learning_rate": 0.00015918240941467947,
      "loss": 6.5306,
      "step": 2570
    },
    {
      "epoch": 0.7988852763585694,
      "grad_norm": 1.1498329639434814,
      "learning_rate": 0.00015980179622174047,
      "loss": 6.5308,
      "step": 2580
    },
    {
      "epoch": 0.8019817309180988,
      "grad_norm": 1.5919135808944702,
      "learning_rate": 0.00016042118302880148,
      "loss": 6.5458,
      "step": 2590
    },
    {
      "epoch": 0.8050781854776281,
      "grad_norm": 1.7433273792266846,
      "learning_rate": 0.00016104056983586249,
      "loss": 6.5307,
      "step": 2600
    },
    {
      "epoch": 0.8081746400371574,
      "grad_norm": 1.2043076753616333,
      "learning_rate": 0.00016165995664292352,
      "loss": 6.5347,
      "step": 2610
    },
    {
      "epoch": 0.8112710945966868,
      "grad_norm": 1.2197911739349365,
      "learning_rate": 0.00016227934344998453,
      "loss": 6.5282,
      "step": 2620
    },
    {
      "epoch": 0.8143675491562161,
      "grad_norm": 0.8074585199356079,
      "learning_rate": 0.0001628987302570455,
      "loss": 6.542,
      "step": 2630
    },
    {
      "epoch": 0.8174640037157455,
      "grad_norm": 1.1308220624923706,
      "learning_rate": 0.00016351811706410654,
      "loss": 6.547,
      "step": 2640
    },
    {
      "epoch": 0.8205604582752748,
      "grad_norm": 0.989686131477356,
      "learning_rate": 0.00016413750387116755,
      "loss": 6.5418,
      "step": 2650
    },
    {
      "epoch": 0.8236569128348041,
      "grad_norm": 0.9891242980957031,
      "learning_rate": 0.00016475689067822855,
      "loss": 6.5211,
      "step": 2660
    },
    {
      "epoch": 0.8267533673943335,
      "grad_norm": 0.9230055212974548,
      "learning_rate": 0.00016537627748528958,
      "loss": 6.5371,
      "step": 2670
    },
    {
      "epoch": 0.8298498219538628,
      "grad_norm": 0.9501631259918213,
      "learning_rate": 0.0001659956642923506,
      "loss": 6.5325,
      "step": 2680
    },
    {
      "epoch": 0.8329462765133921,
      "grad_norm": 0.9849696755409241,
      "learning_rate": 0.00016661505109941157,
      "loss": 6.5395,
      "step": 2690
    },
    {
      "epoch": 0.8360427310729215,
      "grad_norm": 1.2444876432418823,
      "learning_rate": 0.0001672344379064726,
      "loss": 6.5156,
      "step": 2700
    },
    {
      "epoch": 0.8391391856324508,
      "grad_norm": 0.7472972869873047,
      "learning_rate": 0.0001678538247135336,
      "loss": 6.5228,
      "step": 2710
    },
    {
      "epoch": 0.8422356401919802,
      "grad_norm": 0.8915477991104126,
      "learning_rate": 0.00016847321152059462,
      "loss": 6.5242,
      "step": 2720
    },
    {
      "epoch": 0.8453320947515095,
      "grad_norm": 1.0017406940460205,
      "learning_rate": 0.00016909259832765562,
      "loss": 6.5449,
      "step": 2730
    },
    {
      "epoch": 0.8484285493110388,
      "grad_norm": 1.0427559614181519,
      "learning_rate": 0.00016971198513471663,
      "loss": 6.5257,
      "step": 2740
    },
    {
      "epoch": 0.8515250038705682,
      "grad_norm": 0.8571954965591431,
      "learning_rate": 0.00017033137194177764,
      "loss": 6.5203,
      "step": 2750
    },
    {
      "epoch": 0.8546214584300975,
      "grad_norm": 1.0811147689819336,
      "learning_rate": 0.00017095075874883864,
      "loss": 6.5196,
      "step": 2760
    },
    {
      "epoch": 0.8577179129896269,
      "grad_norm": 0.9217764735221863,
      "learning_rate": 0.00017157014555589968,
      "loss": 6.5189,
      "step": 2770
    },
    {
      "epoch": 0.8608143675491562,
      "grad_norm": 0.9920642375946045,
      "learning_rate": 0.00017218953236296068,
      "loss": 6.5191,
      "step": 2780
    },
    {
      "epoch": 0.8639108221086855,
      "grad_norm": 1.0834949016571045,
      "learning_rate": 0.00017280891917002166,
      "loss": 6.5227,
      "step": 2790
    },
    {
      "epoch": 0.8670072766682149,
      "grad_norm": 0.916513204574585,
      "learning_rate": 0.0001734283059770827,
      "loss": 6.5144,
      "step": 2800
    },
    {
      "epoch": 0.8701037312277442,
      "grad_norm": 1.2615902423858643,
      "learning_rate": 0.0001740476927841437,
      "loss": 6.506,
      "step": 2810
    },
    {
      "epoch": 0.8732001857872735,
      "grad_norm": 0.8685635924339294,
      "learning_rate": 0.0001746670795912047,
      "loss": 6.5142,
      "step": 2820
    },
    {
      "epoch": 0.8762966403468029,
      "grad_norm": 0.8606330156326294,
      "learning_rate": 0.00017528646639826574,
      "loss": 6.5019,
      "step": 2830
    },
    {
      "epoch": 0.8793930949063322,
      "grad_norm": 0.7754759192466736,
      "learning_rate": 0.00017590585320532672,
      "loss": 6.5119,
      "step": 2840
    },
    {
      "epoch": 0.8824895494658616,
      "grad_norm": 0.8332505226135254,
      "learning_rate": 0.00017652524001238773,
      "loss": 6.5283,
      "step": 2850
    },
    {
      "epoch": 0.8855860040253909,
      "grad_norm": 1.1799520254135132,
      "learning_rate": 0.00017714462681944876,
      "loss": 6.5043,
      "step": 2860
    },
    {
      "epoch": 0.8886824585849202,
      "grad_norm": 0.9492645859718323,
      "learning_rate": 0.00017776401362650977,
      "loss": 6.5106,
      "step": 2870
    },
    {
      "epoch": 0.8917789131444496,
      "grad_norm": 0.7921923995018005,
      "learning_rate": 0.00017838340043357077,
      "loss": 6.5065,
      "step": 2880
    },
    {
      "epoch": 0.8948753677039789,
      "grad_norm": 0.6766930818557739,
      "learning_rate": 0.00017900278724063175,
      "loss": 6.5239,
      "step": 2890
    },
    {
      "epoch": 0.8979718222635082,
      "grad_norm": 0.7052696347236633,
      "learning_rate": 0.00017962217404769278,
      "loss": 6.5378,
      "step": 2900
    },
    {
      "epoch": 0.9010682768230376,
      "grad_norm": 0.973673403263092,
      "learning_rate": 0.0001802415608547538,
      "loss": 6.5099,
      "step": 2910
    },
    {
      "epoch": 0.9041647313825669,
      "grad_norm": 0.8590471744537354,
      "learning_rate": 0.0001808609476618148,
      "loss": 6.522,
      "step": 2920
    },
    {
      "epoch": 0.9072611859420963,
      "grad_norm": 0.9478482604026794,
      "learning_rate": 0.00018148033446887583,
      "loss": 6.5148,
      "step": 2930
    },
    {
      "epoch": 0.9103576405016256,
      "grad_norm": 0.991057813167572,
      "learning_rate": 0.00018209972127593684,
      "loss": 6.4991,
      "step": 2940
    },
    {
      "epoch": 0.9134540950611549,
      "grad_norm": 0.8526809811592102,
      "learning_rate": 0.00018271910808299782,
      "loss": 6.5164,
      "step": 2950
    },
    {
      "epoch": 0.9165505496206843,
      "grad_norm": 0.6919571161270142,
      "learning_rate": 0.00018333849489005885,
      "loss": 6.5214,
      "step": 2960
    },
    {
      "epoch": 0.9196470041802136,
      "grad_norm": 0.657346248626709,
      "learning_rate": 0.00018395788169711986,
      "loss": 6.5013,
      "step": 2970
    },
    {
      "epoch": 0.922743458739743,
      "grad_norm": 0.8530818223953247,
      "learning_rate": 0.00018457726850418086,
      "loss": 6.5145,
      "step": 2980
    },
    {
      "epoch": 0.9258399132992723,
      "grad_norm": 0.8030965328216553,
      "learning_rate": 0.0001851966553112419,
      "loss": 6.513,
      "step": 2990
    },
    {
      "epoch": 0.9289363678588016,
      "grad_norm": 0.8161980509757996,
      "learning_rate": 0.00018581604211830288,
      "loss": 6.5074,
      "step": 3000
    },
    {
      "epoch": 0.932032822418331,
      "grad_norm": 0.9112780094146729,
      "learning_rate": 0.00018643542892536388,
      "loss": 6.4961,
      "step": 3010
    },
    {
      "epoch": 0.9351292769778603,
      "grad_norm": 0.8977142572402954,
      "learning_rate": 0.00018705481573242491,
      "loss": 6.4973,
      "step": 3020
    },
    {
      "epoch": 0.9382257315373896,
      "grad_norm": 1.0232683420181274,
      "learning_rate": 0.00018767420253948592,
      "loss": 6.48,
      "step": 3030
    },
    {
      "epoch": 0.941322186096919,
      "grad_norm": 0.8228316307067871,
      "learning_rate": 0.00018829358934654693,
      "loss": 6.4842,
      "step": 3040
    },
    {
      "epoch": 0.9444186406564483,
      "grad_norm": 0.724467396736145,
      "learning_rate": 0.0001889129761536079,
      "loss": 6.4781,
      "step": 3050
    },
    {
      "epoch": 0.9475150952159777,
      "grad_norm": 0.9022755026817322,
      "learning_rate": 0.00018953236296066894,
      "loss": 6.4799,
      "step": 3060
    },
    {
      "epoch": 0.950611549775507,
      "grad_norm": 1.0211142301559448,
      "learning_rate": 0.00019015174976772995,
      "loss": 6.4719,
      "step": 3070
    },
    {
      "epoch": 0.9537080043350363,
      "grad_norm": 0.7571627497673035,
      "learning_rate": 0.00019077113657479095,
      "loss": 6.4685,
      "step": 3080
    },
    {
      "epoch": 0.9568044588945657,
      "grad_norm": 0.797822117805481,
      "learning_rate": 0.00019139052338185199,
      "loss": 6.4502,
      "step": 3090
    },
    {
      "epoch": 0.959900913454095,
      "grad_norm": 1.1731350421905518,
      "learning_rate": 0.00019200991018891297,
      "loss": 6.4534,
      "step": 3100
    },
    {
      "epoch": 0.9629973680136245,
      "grad_norm": 0.7823401689529419,
      "learning_rate": 0.00019262929699597397,
      "loss": 6.4611,
      "step": 3110
    },
    {
      "epoch": 0.9660938225731538,
      "grad_norm": 1.2475049495697021,
      "learning_rate": 0.000193248683803035,
      "loss": 6.4389,
      "step": 3120
    },
    {
      "epoch": 0.9691902771326831,
      "grad_norm": 0.9524723887443542,
      "learning_rate": 0.000193868070610096,
      "loss": 6.4435,
      "step": 3130
    },
    {
      "epoch": 0.9722867316922125,
      "grad_norm": 0.9494399428367615,
      "learning_rate": 0.00019448745741715702,
      "loss": 6.4332,
      "step": 3140
    },
    {
      "epoch": 0.9753831862517418,
      "grad_norm": 1.0070710182189941,
      "learning_rate": 0.00019510684422421805,
      "loss": 6.4529,
      "step": 3150
    },
    {
      "epoch": 0.9784796408112711,
      "grad_norm": 1.180368185043335,
      "learning_rate": 0.00019572623103127903,
      "loss": 6.4369,
      "step": 3160
    },
    {
      "epoch": 0.9815760953708005,
      "grad_norm": 1.0592350959777832,
      "learning_rate": 0.00019634561783834004,
      "loss": 6.4402,
      "step": 3170
    },
    {
      "epoch": 0.9846725499303298,
      "grad_norm": 0.8868720531463623,
      "learning_rate": 0.00019696500464540107,
      "loss": 6.4406,
      "step": 3180
    },
    {
      "epoch": 0.9877690044898592,
      "grad_norm": 0.8809700608253479,
      "learning_rate": 0.00019758439145246208,
      "loss": 6.4125,
      "step": 3190
    },
    {
      "epoch": 0.9908654590493885,
      "grad_norm": 0.8676486611366272,
      "learning_rate": 0.00019820377825952308,
      "loss": 6.4281,
      "step": 3200
    },
    {
      "epoch": 0.9939619136089178,
      "grad_norm": 0.6752346754074097,
      "learning_rate": 0.0001988231650665841,
      "loss": 6.4041,
      "step": 3210
    },
    {
      "epoch": 0.9970583681684472,
      "grad_norm": 0.9568197131156921,
      "learning_rate": 0.0001994425518736451,
      "loss": 6.3981,
      "step": 3220
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5673872828483582,
      "learning_rate": 0.0002000619386807061,
      "loss": 6.071,
      "step": 3230
    },
    {
      "epoch": 1.0030964545595293,
      "grad_norm": 0.8268159627914429,
      "learning_rate": 0.0002006813254877671,
      "loss": 6.3988,
      "step": 3240
    },
    {
      "epoch": 1.0061929091190587,
      "grad_norm": 0.7635223269462585,
      "learning_rate": 0.00020130071229482814,
      "loss": 6.3831,
      "step": 3250
    },
    {
      "epoch": 1.009289363678588,
      "grad_norm": 0.7615036368370056,
      "learning_rate": 0.00020192009910188912,
      "loss": 6.3832,
      "step": 3260
    },
    {
      "epoch": 1.0123858182381174,
      "grad_norm": 0.7862409353256226,
      "learning_rate": 0.00020253948590895013,
      "loss": 6.3929,
      "step": 3270
    },
    {
      "epoch": 1.0154822727976467,
      "grad_norm": 1.113342046737671,
      "learning_rate": 0.00020315887271601116,
      "loss": 6.3917,
      "step": 3280
    },
    {
      "epoch": 1.018578727357176,
      "grad_norm": 0.8702403903007507,
      "learning_rate": 0.00020377825952307217,
      "loss": 6.3783,
      "step": 3290
    },
    {
      "epoch": 1.0216751819167054,
      "grad_norm": 0.8440068960189819,
      "learning_rate": 0.00020439764633013317,
      "loss": 6.3777,
      "step": 3300
    },
    {
      "epoch": 1.0247716364762347,
      "grad_norm": 1.1612240076065063,
      "learning_rate": 0.00020501703313719418,
      "loss": 6.3617,
      "step": 3310
    },
    {
      "epoch": 1.027868091035764,
      "grad_norm": 0.8664381504058838,
      "learning_rate": 0.00020563641994425519,
      "loss": 6.3766,
      "step": 3320
    },
    {
      "epoch": 1.0309645455952934,
      "grad_norm": 1.2137264013290405,
      "learning_rate": 0.0002062558067513162,
      "loss": 6.3724,
      "step": 3330
    },
    {
      "epoch": 1.0340610001548227,
      "grad_norm": 1.2266614437103271,
      "learning_rate": 0.00020687519355837723,
      "loss": 6.3313,
      "step": 3340
    },
    {
      "epoch": 1.037157454714352,
      "grad_norm": 0.8568953275680542,
      "learning_rate": 0.00020749458036543823,
      "loss": 6.3583,
      "step": 3350
    },
    {
      "epoch": 1.0402539092738814,
      "grad_norm": 0.874577522277832,
      "learning_rate": 0.0002081139671724992,
      "loss": 6.3511,
      "step": 3360
    },
    {
      "epoch": 1.0433503638334107,
      "grad_norm": 1.1219960451126099,
      "learning_rate": 0.00020873335397956024,
      "loss": 6.323,
      "step": 3370
    },
    {
      "epoch": 1.04644681839294,
      "grad_norm": 1.1575599908828735,
      "learning_rate": 0.00020935274078662125,
      "loss": 6.3426,
      "step": 3380
    },
    {
      "epoch": 1.0495432729524694,
      "grad_norm": 0.7617483139038086,
      "learning_rate": 0.00020997212759368226,
      "loss": 6.3243,
      "step": 3390
    },
    {
      "epoch": 1.0526397275119987,
      "grad_norm": 1.019921064376831,
      "learning_rate": 0.00021059151440074326,
      "loss": 6.303,
      "step": 3400
    },
    {
      "epoch": 1.055736182071528,
      "grad_norm": 1.034369945526123,
      "learning_rate": 0.0002112109012078043,
      "loss": 6.3092,
      "step": 3410
    },
    {
      "epoch": 1.0588326366310574,
      "grad_norm": 1.1426433324813843,
      "learning_rate": 0.00021183028801486528,
      "loss": 6.3023,
      "step": 3420
    },
    {
      "epoch": 1.0619290911905868,
      "grad_norm": 0.9942957162857056,
      "learning_rate": 0.00021244967482192628,
      "loss": 6.3104,
      "step": 3430
    },
    {
      "epoch": 1.065025545750116,
      "grad_norm": 1.0719786882400513,
      "learning_rate": 0.00021306906162898732,
      "loss": 6.2973,
      "step": 3440
    },
    {
      "epoch": 1.0681220003096454,
      "grad_norm": 1.0518437623977661,
      "learning_rate": 0.00021368844843604832,
      "loss": 6.2967,
      "step": 3450
    },
    {
      "epoch": 1.0712184548691748,
      "grad_norm": 1.2732771635055542,
      "learning_rate": 0.00021430783524310933,
      "loss": 6.2746,
      "step": 3460
    },
    {
      "epoch": 1.0743149094287041,
      "grad_norm": 1.5430597066879272,
      "learning_rate": 0.00021492722205017034,
      "loss": 6.2815,
      "step": 3470
    },
    {
      "epoch": 1.0774113639882335,
      "grad_norm": 0.8930633068084717,
      "learning_rate": 0.00021554660885723134,
      "loss": 6.251,
      "step": 3480
    },
    {
      "epoch": 1.0805078185477628,
      "grad_norm": 1.1095397472381592,
      "learning_rate": 0.00021616599566429235,
      "loss": 6.238,
      "step": 3490
    },
    {
      "epoch": 1.0836042731072921,
      "grad_norm": 1.1570417881011963,
      "learning_rate": 0.00021678538247135338,
      "loss": 6.2169,
      "step": 3500
    },
    {
      "epoch": 1.0867007276668215,
      "grad_norm": 1.2682262659072876,
      "learning_rate": 0.0002174047692784144,
      "loss": 6.2256,
      "step": 3510
    },
    {
      "epoch": 1.0897971822263508,
      "grad_norm": 1.2010442018508911,
      "learning_rate": 0.00021802415608547537,
      "loss": 6.2034,
      "step": 3520
    },
    {
      "epoch": 1.0928936367858801,
      "grad_norm": 1.3368873596191406,
      "learning_rate": 0.0002186435428925364,
      "loss": 6.1673,
      "step": 3530
    },
    {
      "epoch": 1.0959900913454095,
      "grad_norm": 1.1895204782485962,
      "learning_rate": 0.0002192629296995974,
      "loss": 6.1546,
      "step": 3540
    },
    {
      "epoch": 1.0990865459049388,
      "grad_norm": 1.1519889831542969,
      "learning_rate": 0.0002198823165066584,
      "loss": 6.1365,
      "step": 3550
    },
    {
      "epoch": 1.1021830004644682,
      "grad_norm": 1.3705570697784424,
      "learning_rate": 0.00022050170331371942,
      "loss": 6.07,
      "step": 3560
    },
    {
      "epoch": 1.1052794550239975,
      "grad_norm": 1.6378076076507568,
      "learning_rate": 0.00022112109012078043,
      "loss": 6.0432,
      "step": 3570
    },
    {
      "epoch": 1.1083759095835268,
      "grad_norm": 1.5780587196350098,
      "learning_rate": 0.00022174047692784143,
      "loss": 6.0201,
      "step": 3580
    },
    {
      "epoch": 1.1114723641430562,
      "grad_norm": 1.2604175806045532,
      "learning_rate": 0.00022235986373490244,
      "loss": 5.9781,
      "step": 3590
    },
    {
      "epoch": 1.1145688187025855,
      "grad_norm": 1.4099502563476562,
      "learning_rate": 0.00022297925054196347,
      "loss": 5.9298,
      "step": 3600
    },
    {
      "epoch": 1.1176652732621148,
      "grad_norm": 1.233045220375061,
      "learning_rate": 0.00022359863734902448,
      "loss": 5.8924,
      "step": 3610
    },
    {
      "epoch": 1.1207617278216442,
      "grad_norm": 1.4948160648345947,
      "learning_rate": 0.00022421802415608546,
      "loss": 5.8785,
      "step": 3620
    },
    {
      "epoch": 1.1238581823811735,
      "grad_norm": 1.7853126525878906,
      "learning_rate": 0.0002248374109631465,
      "loss": 5.8134,
      "step": 3630
    },
    {
      "epoch": 1.1269546369407029,
      "grad_norm": 2.1024398803710938,
      "learning_rate": 0.0002254567977702075,
      "loss": 5.7864,
      "step": 3640
    },
    {
      "epoch": 1.1300510915002322,
      "grad_norm": 1.6895965337753296,
      "learning_rate": 0.0002260761845772685,
      "loss": 5.7182,
      "step": 3650
    },
    {
      "epoch": 1.1331475460597615,
      "grad_norm": 1.7023606300354004,
      "learning_rate": 0.00022669557138432954,
      "loss": 5.6528,
      "step": 3660
    },
    {
      "epoch": 1.1362440006192909,
      "grad_norm": 1.2533527612686157,
      "learning_rate": 0.00022731495819139054,
      "loss": 5.6221,
      "step": 3670
    },
    {
      "epoch": 1.1393404551788202,
      "grad_norm": 1.621505618095398,
      "learning_rate": 0.00022793434499845152,
      "loss": 5.5583,
      "step": 3680
    },
    {
      "epoch": 1.1424369097383495,
      "grad_norm": 1.3869857788085938,
      "learning_rate": 0.00022855373180551256,
      "loss": 5.5145,
      "step": 3690
    },
    {
      "epoch": 1.1455333642978789,
      "grad_norm": 1.542646884918213,
      "learning_rate": 0.00022917311861257356,
      "loss": 5.4559,
      "step": 3700
    },
    {
      "epoch": 1.1486298188574082,
      "grad_norm": 1.4515721797943115,
      "learning_rate": 0.00022979250541963457,
      "loss": 5.4007,
      "step": 3710
    },
    {
      "epoch": 1.1517262734169376,
      "grad_norm": 1.7579517364501953,
      "learning_rate": 0.00023041189222669557,
      "loss": 5.3976,
      "step": 3720
    },
    {
      "epoch": 1.154822727976467,
      "grad_norm": 1.2533565759658813,
      "learning_rate": 0.00023103127903375658,
      "loss": 5.3172,
      "step": 3730
    },
    {
      "epoch": 1.1579191825359962,
      "grad_norm": 1.494162917137146,
      "learning_rate": 0.0002316506658408176,
      "loss": 5.2509,
      "step": 3740
    },
    {
      "epoch": 1.1610156370955256,
      "grad_norm": 1.595115065574646,
      "learning_rate": 0.0002322700526478786,
      "loss": 5.1784,
      "step": 3750
    },
    {
      "epoch": 1.164112091655055,
      "grad_norm": 1.55663001537323,
      "learning_rate": 0.00023288943945493963,
      "loss": 5.0949,
      "step": 3760
    },
    {
      "epoch": 1.1672085462145843,
      "grad_norm": 1.374272346496582,
      "learning_rate": 0.00023350882626200063,
      "loss": 5.0331,
      "step": 3770
    },
    {
      "epoch": 1.1703050007741136,
      "grad_norm": 1.3195029497146606,
      "learning_rate": 0.0002341282130690616,
      "loss": 4.9576,
      "step": 3780
    },
    {
      "epoch": 1.173401455333643,
      "grad_norm": 1.161839485168457,
      "learning_rate": 0.00023474759987612265,
      "loss": 4.9166,
      "step": 3790
    },
    {
      "epoch": 1.1764979098931723,
      "grad_norm": 1.2902604341506958,
      "learning_rate": 0.00023536698668318365,
      "loss": 4.8334,
      "step": 3800
    },
    {
      "epoch": 1.1795943644527016,
      "grad_norm": 1.0339348316192627,
      "learning_rate": 0.00023598637349024466,
      "loss": 4.7735,
      "step": 3810
    },
    {
      "epoch": 1.182690819012231,
      "grad_norm": 1.1560925245285034,
      "learning_rate": 0.0002366057602973057,
      "loss": 4.7389,
      "step": 3820
    },
    {
      "epoch": 1.1857872735717603,
      "grad_norm": 1.0810256004333496,
      "learning_rate": 0.00023722514710436667,
      "loss": 4.673,
      "step": 3830
    },
    {
      "epoch": 1.1888837281312896,
      "grad_norm": 1.187358021736145,
      "learning_rate": 0.00023784453391142768,
      "loss": 4.6703,
      "step": 3840
    },
    {
      "epoch": 1.191980182690819,
      "grad_norm": 1.2153098583221436,
      "learning_rate": 0.0002384639207184887,
      "loss": 4.5977,
      "step": 3850
    },
    {
      "epoch": 1.1950766372503483,
      "grad_norm": 1.3098320960998535,
      "learning_rate": 0.00023908330752554972,
      "loss": 4.5396,
      "step": 3860
    },
    {
      "epoch": 1.1981730918098776,
      "grad_norm": 1.3841015100479126,
      "learning_rate": 0.00023970269433261072,
      "loss": 4.5191,
      "step": 3870
    },
    {
      "epoch": 1.201269546369407,
      "grad_norm": 1.0185471773147583,
      "learning_rate": 0.0002403220811396717,
      "loss": 4.4745,
      "step": 3880
    },
    {
      "epoch": 1.2043660009289363,
      "grad_norm": 1.0954643487930298,
      "learning_rate": 0.00024094146794673274,
      "loss": 4.4384,
      "step": 3890
    },
    {
      "epoch": 1.2074624554884656,
      "grad_norm": 1.0373002290725708,
      "learning_rate": 0.00024156085475379374,
      "loss": 4.4049,
      "step": 3900
    },
    {
      "epoch": 1.210558910047995,
      "grad_norm": 1.0706144571304321,
      "learning_rate": 0.00024218024156085475,
      "loss": 4.3815,
      "step": 3910
    },
    {
      "epoch": 1.2136553646075243,
      "grad_norm": 1.1758544445037842,
      "learning_rate": 0.00024279962836791578,
      "loss": 4.3619,
      "step": 3920
    },
    {
      "epoch": 1.2167518191670537,
      "grad_norm": 1.1079212427139282,
      "learning_rate": 0.0002434190151749768,
      "loss": 4.337,
      "step": 3930
    },
    {
      "epoch": 1.219848273726583,
      "grad_norm": 1.1753212213516235,
      "learning_rate": 0.00024403840198203777,
      "loss": 4.3046,
      "step": 3940
    },
    {
      "epoch": 1.2229447282861123,
      "grad_norm": 1.1949397325515747,
      "learning_rate": 0.00024465778878909883,
      "loss": 4.3101,
      "step": 3950
    },
    {
      "epoch": 1.2260411828456417,
      "grad_norm": 1.0809822082519531,
      "learning_rate": 0.0002452771755961598,
      "loss": 4.2624,
      "step": 3960
    },
    {
      "epoch": 1.229137637405171,
      "grad_norm": 1.113866925239563,
      "learning_rate": 0.0002458965624032208,
      "loss": 4.2679,
      "step": 3970
    },
    {
      "epoch": 1.2322340919647004,
      "grad_norm": 1.1212016344070435,
      "learning_rate": 0.0002465159492102818,
      "loss": 4.2071,
      "step": 3980
    },
    {
      "epoch": 1.2353305465242297,
      "grad_norm": 1.1517590284347534,
      "learning_rate": 0.00024713533601734285,
      "loss": 4.1929,
      "step": 3990
    },
    {
      "epoch": 1.238427001083759,
      "grad_norm": 0.9486988186836243,
      "learning_rate": 0.00024775472282440383,
      "loss": 4.1934,
      "step": 4000
    },
    {
      "epoch": 1.2415234556432884,
      "grad_norm": 1.0706721544265747,
      "learning_rate": 0.00024837410963146487,
      "loss": 4.1776,
      "step": 4010
    },
    {
      "epoch": 1.2446199102028177,
      "grad_norm": 1.1148719787597656,
      "learning_rate": 0.00024899349643852585,
      "loss": 4.1265,
      "step": 4020
    },
    {
      "epoch": 1.247716364762347,
      "grad_norm": 1.1065315008163452,
      "learning_rate": 0.0002496128832455869,
      "loss": 4.1034,
      "step": 4030
    },
    {
      "epoch": 1.2508128193218764,
      "grad_norm": 1.158066987991333,
      "learning_rate": 0.00025023227005264786,
      "loss": 4.0863,
      "step": 4040
    },
    {
      "epoch": 1.2539092738814057,
      "grad_norm": 1.1560614109039307,
      "learning_rate": 0.0002508516568597089,
      "loss": 4.0778,
      "step": 4050
    },
    {
      "epoch": 1.257005728440935,
      "grad_norm": 0.98968905210495,
      "learning_rate": 0.0002514710436667699,
      "loss": 4.051,
      "step": 4060
    },
    {
      "epoch": 1.2601021830004644,
      "grad_norm": 1.1713204383850098,
      "learning_rate": 0.0002520904304738309,
      "loss": 4.0181,
      "step": 4070
    },
    {
      "epoch": 1.2631986375599937,
      "grad_norm": 1.1065443754196167,
      "learning_rate": 0.00025270981728089194,
      "loss": 4.0239,
      "step": 4080
    },
    {
      "epoch": 1.266295092119523,
      "grad_norm": 1.043097972869873,
      "learning_rate": 0.00025332920408795297,
      "loss": 4.0208,
      "step": 4090
    },
    {
      "epoch": 1.2693915466790524,
      "grad_norm": 1.024276614189148,
      "learning_rate": 0.00025394859089501395,
      "loss": 3.9804,
      "step": 4100
    },
    {
      "epoch": 1.2724880012385817,
      "grad_norm": 1.1613043546676636,
      "learning_rate": 0.000254567977702075,
      "loss": 3.9819,
      "step": 4110
    },
    {
      "epoch": 1.275584455798111,
      "grad_norm": 1.0510482788085938,
      "learning_rate": 0.0002551873645091359,
      "loss": 3.9696,
      "step": 4120
    },
    {
      "epoch": 1.2786809103576404,
      "grad_norm": 0.9902080297470093,
      "learning_rate": 0.00025580675131619694,
      "loss": 3.9233,
      "step": 4130
    },
    {
      "epoch": 1.2817773649171698,
      "grad_norm": 1.165866732597351,
      "learning_rate": 0.000256426138123258,
      "loss": 3.9079,
      "step": 4140
    },
    {
      "epoch": 1.284873819476699,
      "grad_norm": 1.0561455488204956,
      "learning_rate": 0.00025704552493031896,
      "loss": 3.9072,
      "step": 4150
    },
    {
      "epoch": 1.2879702740362284,
      "grad_norm": 0.989741325378418,
      "learning_rate": 0.00025766491173738,
      "loss": 3.9018,
      "step": 4160
    },
    {
      "epoch": 1.2910667285957578,
      "grad_norm": 1.099219799041748,
      "learning_rate": 0.000258284298544441,
      "loss": 3.868,
      "step": 4170
    },
    {
      "epoch": 1.2941631831552871,
      "grad_norm": 1.1154602766036987,
      "learning_rate": 0.000258903685351502,
      "loss": 3.8644,
      "step": 4180
    },
    {
      "epoch": 1.2972596377148164,
      "grad_norm": 1.0872890949249268,
      "learning_rate": 0.00025952307215856304,
      "loss": 3.8587,
      "step": 4190
    },
    {
      "epoch": 1.3003560922743458,
      "grad_norm": 1.0499584674835205,
      "learning_rate": 0.00026014245896562407,
      "loss": 3.8235,
      "step": 4200
    },
    {
      "epoch": 1.3034525468338751,
      "grad_norm": 1.030174732208252,
      "learning_rate": 0.00026076184577268505,
      "loss": 3.8302,
      "step": 4210
    },
    {
      "epoch": 1.3065490013934045,
      "grad_norm": 1.0867342948913574,
      "learning_rate": 0.000261381232579746,
      "loss": 3.8341,
      "step": 4220
    },
    {
      "epoch": 1.3096454559529338,
      "grad_norm": 1.0520577430725098,
      "learning_rate": 0.00026200061938680706,
      "loss": 3.8018,
      "step": 4230
    },
    {
      "epoch": 1.3127419105124631,
      "grad_norm": 1.0809017419815063,
      "learning_rate": 0.00026262000619386804,
      "loss": 3.7748,
      "step": 4240
    },
    {
      "epoch": 1.3158383650719925,
      "grad_norm": 1.1091547012329102,
      "learning_rate": 0.0002632393930009291,
      "loss": 3.7732,
      "step": 4250
    },
    {
      "epoch": 1.3189348196315218,
      "grad_norm": 1.0448859930038452,
      "learning_rate": 0.0002638587798079901,
      "loss": 3.74,
      "step": 4260
    },
    {
      "epoch": 1.3220312741910512,
      "grad_norm": 1.0798423290252686,
      "learning_rate": 0.0002644781666150511,
      "loss": 3.7374,
      "step": 4270
    },
    {
      "epoch": 1.3251277287505805,
      "grad_norm": 0.9496048092842102,
      "learning_rate": 0.0002650975534221121,
      "loss": 3.7422,
      "step": 4280
    },
    {
      "epoch": 1.3282241833101098,
      "grad_norm": 0.9731584787368774,
      "learning_rate": 0.00026571694022917315,
      "loss": 3.6992,
      "step": 4290
    },
    {
      "epoch": 1.3313206378696392,
      "grad_norm": 0.9330194592475891,
      "learning_rate": 0.00026633632703623413,
      "loss": 3.6868,
      "step": 4300
    },
    {
      "epoch": 1.3344170924291685,
      "grad_norm": 1.0531985759735107,
      "learning_rate": 0.00026695571384329517,
      "loss": 3.6958,
      "step": 4310
    },
    {
      "epoch": 1.3375135469886978,
      "grad_norm": 0.9694075584411621,
      "learning_rate": 0.0002675751006503562,
      "loss": 3.7137,
      "step": 4320
    },
    {
      "epoch": 1.3406100015482272,
      "grad_norm": 0.9474936723709106,
      "learning_rate": 0.0002681944874574171,
      "loss": 3.6889,
      "step": 4330
    },
    {
      "epoch": 1.3437064561077565,
      "grad_norm": 0.9624688029289246,
      "learning_rate": 0.00026881387426447816,
      "loss": 3.6531,
      "step": 4340
    },
    {
      "epoch": 1.3468029106672859,
      "grad_norm": 0.9767426252365112,
      "learning_rate": 0.0002694332610715392,
      "loss": 3.6596,
      "step": 4350
    },
    {
      "epoch": 1.3498993652268152,
      "grad_norm": 0.9959364533424377,
      "learning_rate": 0.00027005264787860017,
      "loss": 3.6434,
      "step": 4360
    },
    {
      "epoch": 1.3529958197863445,
      "grad_norm": 1.0519224405288696,
      "learning_rate": 0.0002706720346856612,
      "loss": 3.5982,
      "step": 4370
    },
    {
      "epoch": 1.3560922743458739,
      "grad_norm": 0.9964626431465149,
      "learning_rate": 0.00027129142149272224,
      "loss": 3.6145,
      "step": 4380
    },
    {
      "epoch": 1.3591887289054032,
      "grad_norm": 1.0506435632705688,
      "learning_rate": 0.0002719108082997832,
      "loss": 3.5859,
      "step": 4390
    },
    {
      "epoch": 1.3622851834649325,
      "grad_norm": 1.0846556425094604,
      "learning_rate": 0.00027253019510684425,
      "loss": 3.5981,
      "step": 4400
    },
    {
      "epoch": 1.3653816380244619,
      "grad_norm": 1.0251847505569458,
      "learning_rate": 0.0002731495819139053,
      "loss": 3.5731,
      "step": 4410
    },
    {
      "epoch": 1.3684780925839912,
      "grad_norm": 1.0184073448181152,
      "learning_rate": 0.00027376896872096626,
      "loss": 3.5665,
      "step": 4420
    },
    {
      "epoch": 1.3715745471435206,
      "grad_norm": 0.9859119057655334,
      "learning_rate": 0.00027438835552802724,
      "loss": 3.5401,
      "step": 4430
    },
    {
      "epoch": 1.37467100170305,
      "grad_norm": 0.9708986878395081,
      "learning_rate": 0.0002750077423350883,
      "loss": 3.5392,
      "step": 4440
    },
    {
      "epoch": 1.3777674562625792,
      "grad_norm": 1.0786579847335815,
      "learning_rate": 0.00027562712914214925,
      "loss": 3.5553,
      "step": 4450
    },
    {
      "epoch": 1.3808639108221086,
      "grad_norm": 1.011117696762085,
      "learning_rate": 0.0002762465159492103,
      "loss": 3.5251,
      "step": 4460
    },
    {
      "epoch": 1.383960365381638,
      "grad_norm": 0.9319019317626953,
      "learning_rate": 0.00027686590275627127,
      "loss": 3.5408,
      "step": 4470
    },
    {
      "epoch": 1.3870568199411673,
      "grad_norm": 1.0703030824661255,
      "learning_rate": 0.0002774852895633323,
      "loss": 3.5147,
      "step": 4480
    },
    {
      "epoch": 1.3901532745006966,
      "grad_norm": 0.9363672733306885,
      "learning_rate": 0.00027810467637039333,
      "loss": 3.5054,
      "step": 4490
    },
    {
      "epoch": 1.393249729060226,
      "grad_norm": 1.0434913635253906,
      "learning_rate": 0.0002787240631774543,
      "loss": 3.498,
      "step": 4500
    },
    {
      "epoch": 1.3963461836197553,
      "grad_norm": 1.1381675004959106,
      "learning_rate": 0.00027934344998451535,
      "loss": 3.5045,
      "step": 4510
    },
    {
      "epoch": 1.3994426381792846,
      "grad_norm": 0.9770002365112305,
      "learning_rate": 0.0002799628367915764,
      "loss": 3.5115,
      "step": 4520
    },
    {
      "epoch": 1.402539092738814,
      "grad_norm": 0.9267017245292664,
      "learning_rate": 0.0002805822235986373,
      "loss": 3.4452,
      "step": 4530
    },
    {
      "epoch": 1.4056355472983433,
      "grad_norm": 1.0910615921020508,
      "learning_rate": 0.00028120161040569834,
      "loss": 3.4792,
      "step": 4540
    },
    {
      "epoch": 1.4087320018578726,
      "grad_norm": 1.0374314785003662,
      "learning_rate": 0.00028182099721275937,
      "loss": 3.4497,
      "step": 4550
    },
    {
      "epoch": 1.411828456417402,
      "grad_norm": 1.1077336072921753,
      "learning_rate": 0.00028244038401982035,
      "loss": 3.4836,
      "step": 4560
    },
    {
      "epoch": 1.4149249109769313,
      "grad_norm": 0.9700469374656677,
      "learning_rate": 0.0002830597708268814,
      "loss": 3.4539,
      "step": 4570
    },
    {
      "epoch": 1.4180213655364606,
      "grad_norm": 1.0011495351791382,
      "learning_rate": 0.0002836791576339424,
      "loss": 3.4192,
      "step": 4580
    },
    {
      "epoch": 1.42111782009599,
      "grad_norm": 1.0449153184890747,
      "learning_rate": 0.0002842985444410034,
      "loss": 3.4279,
      "step": 4590
    },
    {
      "epoch": 1.4242142746555193,
      "grad_norm": 1.0163695812225342,
      "learning_rate": 0.00028491793124806443,
      "loss": 3.4375,
      "step": 4600
    },
    {
      "epoch": 1.4273107292150486,
      "grad_norm": 0.9043591618537903,
      "learning_rate": 0.00028553731805512546,
      "loss": 3.41,
      "step": 4610
    },
    {
      "epoch": 1.430407183774578,
      "grad_norm": 1.0529117584228516,
      "learning_rate": 0.00028615670486218644,
      "loss": 3.4181,
      "step": 4620
    },
    {
      "epoch": 1.4335036383341073,
      "grad_norm": 0.9313072562217712,
      "learning_rate": 0.0002867760916692475,
      "loss": 3.381,
      "step": 4630
    },
    {
      "epoch": 1.4366000928936367,
      "grad_norm": 1.0091314315795898,
      "learning_rate": 0.00028739547847630846,
      "loss": 3.4084,
      "step": 4640
    },
    {
      "epoch": 1.439696547453166,
      "grad_norm": 1.023206114768982,
      "learning_rate": 0.00028801486528336943,
      "loss": 3.3933,
      "step": 4650
    },
    {
      "epoch": 1.4427930020126953,
      "grad_norm": 0.9428771734237671,
      "learning_rate": 0.00028863425209043047,
      "loss": 3.3793,
      "step": 4660
    },
    {
      "epoch": 1.4458894565722247,
      "grad_norm": 0.9487484097480774,
      "learning_rate": 0.0002892536388974915,
      "loss": 3.3703,
      "step": 4670
    },
    {
      "epoch": 1.448985911131754,
      "grad_norm": 1.0242682695388794,
      "learning_rate": 0.0002898730257045525,
      "loss": 3.3808,
      "step": 4680
    },
    {
      "epoch": 1.4520823656912833,
      "grad_norm": 0.963318407535553,
      "learning_rate": 0.0002904924125116135,
      "loss": 3.3756,
      "step": 4690
    },
    {
      "epoch": 1.4551788202508127,
      "grad_norm": 0.9051762223243713,
      "learning_rate": 0.00029111179931867455,
      "loss": 3.3356,
      "step": 4700
    },
    {
      "epoch": 1.458275274810342,
      "grad_norm": 0.9930270910263062,
      "learning_rate": 0.0002917311861257355,
      "loss": 3.3601,
      "step": 4710
    },
    {
      "epoch": 1.4613717293698714,
      "grad_norm": 1.077131748199463,
      "learning_rate": 0.00029235057293279656,
      "loss": 3.3308,
      "step": 4720
    },
    {
      "epoch": 1.4644681839294007,
      "grad_norm": 0.881527304649353,
      "learning_rate": 0.0002929699597398576,
      "loss": 3.328,
      "step": 4730
    },
    {
      "epoch": 1.46756463848893,
      "grad_norm": 1.0115300416946411,
      "learning_rate": 0.0002935893465469185,
      "loss": 3.3233,
      "step": 4740
    },
    {
      "epoch": 1.4706610930484594,
      "grad_norm": 1.0688494443893433,
      "learning_rate": 0.00029420873335397955,
      "loss": 3.3381,
      "step": 4750
    },
    {
      "epoch": 1.4737575476079887,
      "grad_norm": 1.0195506811141968,
      "learning_rate": 0.0002948281201610406,
      "loss": 3.3058,
      "step": 4760
    },
    {
      "epoch": 1.476854002167518,
      "grad_norm": 0.9502407312393188,
      "learning_rate": 0.00029544750696810156,
      "loss": 3.3174,
      "step": 4770
    },
    {
      "epoch": 1.4799504567270474,
      "grad_norm": 1.0097241401672363,
      "learning_rate": 0.0002960668937751626,
      "loss": 3.3102,
      "step": 4780
    },
    {
      "epoch": 1.483046911286577,
      "grad_norm": 0.9834030866622925,
      "learning_rate": 0.0002966862805822236,
      "loss": 3.3135,
      "step": 4790
    },
    {
      "epoch": 1.4861433658461063,
      "grad_norm": 1.014854907989502,
      "learning_rate": 0.0002973056673892846,
      "loss": 3.2915,
      "step": 4800
    },
    {
      "epoch": 1.4892398204056356,
      "grad_norm": 0.944720983505249,
      "learning_rate": 0.00029792505419634564,
      "loss": 3.2783,
      "step": 4810
    },
    {
      "epoch": 1.492336274965165,
      "grad_norm": 1.012688159942627,
      "learning_rate": 0.0002985444410034066,
      "loss": 3.2931,
      "step": 4820
    },
    {
      "epoch": 1.4954327295246943,
      "grad_norm": 0.9100663065910339,
      "learning_rate": 0.00029916382781046766,
      "loss": 3.2785,
      "step": 4830
    },
    {
      "epoch": 1.4985291840842236,
      "grad_norm": 0.8774744272232056,
      "learning_rate": 0.0002997832146175287,
      "loss": 3.2777,
      "step": 4840
    },
    {
      "epoch": 1.5016256386437528,
      "grad_norm": 0.9623695611953735,
      "learning_rate": 0.0003004026014245896,
      "loss": 3.2671,
      "step": 4850
    },
    {
      "epoch": 1.504722093203282,
      "grad_norm": 1.0606322288513184,
      "learning_rate": 0.00030102198823165065,
      "loss": 3.2483,
      "step": 4860
    },
    {
      "epoch": 1.5078185477628114,
      "grad_norm": 1.0098302364349365,
      "learning_rate": 0.0003016413750387117,
      "loss": 3.2355,
      "step": 4870
    },
    {
      "epoch": 1.5109150023223408,
      "grad_norm": 0.8991314172744751,
      "learning_rate": 0.00030226076184577266,
      "loss": 3.239,
      "step": 4880
    },
    {
      "epoch": 1.51401145688187,
      "grad_norm": 0.9911772012710571,
      "learning_rate": 0.0003028801486528337,
      "loss": 3.2569,
      "step": 4890
    },
    {
      "epoch": 1.5171079114413994,
      "grad_norm": 0.9949657320976257,
      "learning_rate": 0.00030349953545989473,
      "loss": 3.2441,
      "step": 4900
    },
    {
      "epoch": 1.5202043660009288,
      "grad_norm": 0.9273360371589661,
      "learning_rate": 0.0003041189222669557,
      "loss": 3.2385,
      "step": 4910
    },
    {
      "epoch": 1.5233008205604581,
      "grad_norm": 0.94888836145401,
      "learning_rate": 0.00030473830907401674,
      "loss": 3.2728,
      "step": 4920
    },
    {
      "epoch": 1.5263972751199875,
      "grad_norm": 0.9299125075340271,
      "learning_rate": 0.0003053576958810778,
      "loss": 3.2272,
      "step": 4930
    },
    {
      "epoch": 1.5294937296795168,
      "grad_norm": 0.8870009183883667,
      "learning_rate": 0.00030597708268813875,
      "loss": 3.2218,
      "step": 4940
    },
    {
      "epoch": 1.5325901842390461,
      "grad_norm": 1.0036243200302124,
      "learning_rate": 0.00030659646949519973,
      "loss": 3.2008,
      "step": 4950
    },
    {
      "epoch": 1.5356866387985755,
      "grad_norm": 0.9473212957382202,
      "learning_rate": 0.00030721585630226077,
      "loss": 3.2295,
      "step": 4960
    },
    {
      "epoch": 1.5387830933581048,
      "grad_norm": 0.8856829404830933,
      "learning_rate": 0.00030783524310932175,
      "loss": 3.2126,
      "step": 4970
    },
    {
      "epoch": 1.5418795479176342,
      "grad_norm": 0.997509777545929,
      "learning_rate": 0.0003084546299163828,
      "loss": 3.212,
      "step": 4980
    },
    {
      "epoch": 1.5449760024771635,
      "grad_norm": 0.9016265273094177,
      "learning_rate": 0.0003090740167234438,
      "loss": 3.208,
      "step": 4990
    },
    {
      "epoch": 1.5480724570366928,
      "grad_norm": 0.8731397390365601,
      "learning_rate": 0.0003096934035305048,
      "loss": 3.2158,
      "step": 5000
    },
    {
      "epoch": 1.5511689115962222,
      "grad_norm": 0.9676650166511536,
      "learning_rate": 0.0003103127903375658,
      "loss": 3.2032,
      "step": 5010
    },
    {
      "epoch": 1.5542653661557515,
      "grad_norm": 0.9783886075019836,
      "learning_rate": 0.00031093217714462686,
      "loss": 3.2114,
      "step": 5020
    },
    {
      "epoch": 1.5573618207152808,
      "grad_norm": 1.0224086046218872,
      "learning_rate": 0.00031155156395168784,
      "loss": 3.1828,
      "step": 5030
    },
    {
      "epoch": 1.5604582752748102,
      "grad_norm": 0.9322043061256409,
      "learning_rate": 0.00031217095075874887,
      "loss": 3.1851,
      "step": 5040
    },
    {
      "epoch": 1.5635547298343395,
      "grad_norm": 0.9294213056564331,
      "learning_rate": 0.0003127903375658099,
      "loss": 3.189,
      "step": 5050
    },
    {
      "epoch": 1.5666511843938689,
      "grad_norm": 0.9628444910049438,
      "learning_rate": 0.00031340972437287083,
      "loss": 3.1524,
      "step": 5060
    },
    {
      "epoch": 1.5697476389533982,
      "grad_norm": 0.9377193450927734,
      "learning_rate": 0.00031402911117993186,
      "loss": 3.1688,
      "step": 5070
    },
    {
      "epoch": 1.5728440935129275,
      "grad_norm": 0.8622744083404541,
      "learning_rate": 0.0003146484979869929,
      "loss": 3.1374,
      "step": 5080
    },
    {
      "epoch": 1.5759405480724569,
      "grad_norm": 0.9315075874328613,
      "learning_rate": 0.0003152678847940539,
      "loss": 3.1657,
      "step": 5090
    },
    {
      "epoch": 1.5790370026319864,
      "grad_norm": 0.9984999895095825,
      "learning_rate": 0.0003158872716011149,
      "loss": 3.1494,
      "step": 5100
    },
    {
      "epoch": 1.5821334571915158,
      "grad_norm": 0.9476169943809509,
      "learning_rate": 0.0003165066584081759,
      "loss": 3.1262,
      "step": 5110
    },
    {
      "epoch": 1.585229911751045,
      "grad_norm": 0.8942754864692688,
      "learning_rate": 0.0003171260452152369,
      "loss": 3.1546,
      "step": 5120
    },
    {
      "epoch": 1.5883263663105744,
      "grad_norm": 0.9009295701980591,
      "learning_rate": 0.00031774543202229796,
      "loss": 3.1516,
      "step": 5130
    },
    {
      "epoch": 1.5914228208701038,
      "grad_norm": 1.010343074798584,
      "learning_rate": 0.00031836481882935893,
      "loss": 3.1448,
      "step": 5140
    },
    {
      "epoch": 1.5945192754296331,
      "grad_norm": 0.9292970299720764,
      "learning_rate": 0.00031898420563641997,
      "loss": 3.123,
      "step": 5150
    },
    {
      "epoch": 1.5976157299891625,
      "grad_norm": 0.9574374556541443,
      "learning_rate": 0.00031960359244348095,
      "loss": 3.1358,
      "step": 5160
    },
    {
      "epoch": 1.6007121845486918,
      "grad_norm": 0.9073388576507568,
      "learning_rate": 0.0003202229792505419,
      "loss": 3.1352,
      "step": 5170
    },
    {
      "epoch": 1.6038086391082211,
      "grad_norm": 0.9928716421127319,
      "learning_rate": 0.00032084236605760296,
      "loss": 3.1226,
      "step": 5180
    },
    {
      "epoch": 1.6069050936677505,
      "grad_norm": 0.9886534810066223,
      "learning_rate": 0.000321461752864664,
      "loss": 3.131,
      "step": 5190
    },
    {
      "epoch": 1.6100015482272798,
      "grad_norm": 0.9734316468238831,
      "learning_rate": 0.00032208113967172497,
      "loss": 3.1341,
      "step": 5200
    },
    {
      "epoch": 1.6130980027868091,
      "grad_norm": 0.9681540131568909,
      "learning_rate": 0.000322700526478786,
      "loss": 3.0973,
      "step": 5210
    },
    {
      "epoch": 1.6161944573463385,
      "grad_norm": 0.9452388286590576,
      "learning_rate": 0.00032331991328584704,
      "loss": 3.1082,
      "step": 5220
    },
    {
      "epoch": 1.6192909119058678,
      "grad_norm": 0.9055010080337524,
      "learning_rate": 0.000323939300092908,
      "loss": 3.0891,
      "step": 5230
    },
    {
      "epoch": 1.6223873664653972,
      "grad_norm": 0.9603378772735596,
      "learning_rate": 0.00032455868689996905,
      "loss": 3.0998,
      "step": 5240
    },
    {
      "epoch": 1.6254838210249265,
      "grad_norm": 0.8925791382789612,
      "learning_rate": 0.0003251780737070301,
      "loss": 3.1165,
      "step": 5250
    },
    {
      "epoch": 1.6285802755844558,
      "grad_norm": 0.928421139717102,
      "learning_rate": 0.000325797460514091,
      "loss": 3.1087,
      "step": 5260
    },
    {
      "epoch": 1.6316767301439852,
      "grad_norm": 0.9481196403503418,
      "learning_rate": 0.00032641684732115204,
      "loss": 3.0916,
      "step": 5270
    },
    {
      "epoch": 1.6347731847035145,
      "grad_norm": 0.9044370055198669,
      "learning_rate": 0.0003270362341282131,
      "loss": 3.1,
      "step": 5280
    },
    {
      "epoch": 1.6378696392630439,
      "grad_norm": 0.9636628031730652,
      "learning_rate": 0.00032765562093527406,
      "loss": 3.114,
      "step": 5290
    },
    {
      "epoch": 1.6409660938225732,
      "grad_norm": 0.9585344195365906,
      "learning_rate": 0.0003282750077423351,
      "loss": 3.086,
      "step": 5300
    },
    {
      "epoch": 1.6440625483821025,
      "grad_norm": 0.9368054866790771,
      "learning_rate": 0.0003288943945493961,
      "loss": 3.0763,
      "step": 5310
    },
    {
      "epoch": 1.6471590029416319,
      "grad_norm": 0.951101541519165,
      "learning_rate": 0.0003295137813564571,
      "loss": 3.0746,
      "step": 5320
    },
    {
      "epoch": 1.6502554575011612,
      "grad_norm": 0.9043335318565369,
      "learning_rate": 0.00033013316816351814,
      "loss": 3.0665,
      "step": 5330
    },
    {
      "epoch": 1.6533519120606905,
      "grad_norm": 0.8929763436317444,
      "learning_rate": 0.00033075255497057917,
      "loss": 3.0644,
      "step": 5340
    },
    {
      "epoch": 1.6564483666202199,
      "grad_norm": 0.9089614152908325,
      "learning_rate": 0.00033137194177764015,
      "loss": 3.0661,
      "step": 5350
    },
    {
      "epoch": 1.6595448211797492,
      "grad_norm": 0.9606667757034302,
      "learning_rate": 0.0003319913285847012,
      "loss": 3.0578,
      "step": 5360
    },
    {
      "epoch": 1.6626412757392786,
      "grad_norm": 0.8867613673210144,
      "learning_rate": 0.00033261071539176216,
      "loss": 3.0707,
      "step": 5370
    },
    {
      "epoch": 1.665737730298808,
      "grad_norm": 0.9263885617256165,
      "learning_rate": 0.00033323010219882314,
      "loss": 3.0579,
      "step": 5380
    },
    {
      "epoch": 1.6688341848583372,
      "grad_norm": 0.8380886316299438,
      "learning_rate": 0.0003338494890058842,
      "loss": 3.0628,
      "step": 5390
    },
    {
      "epoch": 1.6719306394178666,
      "grad_norm": 0.9296733140945435,
      "learning_rate": 0.0003344688758129452,
      "loss": 3.0374,
      "step": 5400
    },
    {
      "epoch": 1.675027093977396,
      "grad_norm": 0.9482071995735168,
      "learning_rate": 0.0003350882626200062,
      "loss": 3.0611,
      "step": 5410
    },
    {
      "epoch": 1.6781235485369252,
      "grad_norm": 0.934635579586029,
      "learning_rate": 0.0003357076494270672,
      "loss": 3.0465,
      "step": 5420
    },
    {
      "epoch": 1.6812200030964546,
      "grad_norm": 0.9624560475349426,
      "learning_rate": 0.00033632703623412825,
      "loss": 3.0622,
      "step": 5430
    },
    {
      "epoch": 1.684316457655984,
      "grad_norm": 0.952055037021637,
      "learning_rate": 0.00033694642304118923,
      "loss": 3.0483,
      "step": 5440
    },
    {
      "epoch": 1.6874129122155133,
      "grad_norm": 0.8703885674476624,
      "learning_rate": 0.00033756580984825027,
      "loss": 3.0506,
      "step": 5450
    },
    {
      "epoch": 1.6905093667750426,
      "grad_norm": 0.9054002165794373,
      "learning_rate": 0.00033818519665531125,
      "loss": 3.045,
      "step": 5460
    },
    {
      "epoch": 1.693605821334572,
      "grad_norm": 0.9501616954803467,
      "learning_rate": 0.0003388045834623722,
      "loss": 3.0327,
      "step": 5470
    },
    {
      "epoch": 1.6967022758941013,
      "grad_norm": 0.880946934223175,
      "learning_rate": 0.00033942397026943326,
      "loss": 3.0414,
      "step": 5480
    },
    {
      "epoch": 1.6997987304536306,
      "grad_norm": 0.9799813032150269,
      "learning_rate": 0.00034004335707649424,
      "loss": 3.0485,
      "step": 5490
    },
    {
      "epoch": 1.70289518501316,
      "grad_norm": 0.9278644323348999,
      "learning_rate": 0.00034066274388355527,
      "loss": 3.0334,
      "step": 5500
    },
    {
      "epoch": 1.7059916395726893,
      "grad_norm": 0.8921311497688293,
      "learning_rate": 0.0003412821306906163,
      "loss": 3.0283,
      "step": 5510
    },
    {
      "epoch": 1.7090880941322186,
      "grad_norm": 0.8926926851272583,
      "learning_rate": 0.0003419015174976773,
      "loss": 3.0294,
      "step": 5520
    },
    {
      "epoch": 1.712184548691748,
      "grad_norm": 0.9130481481552124,
      "learning_rate": 0.0003425209043047383,
      "loss": 3.007,
      "step": 5530
    },
    {
      "epoch": 1.7152810032512773,
      "grad_norm": 0.9094374775886536,
      "learning_rate": 0.00034314029111179935,
      "loss": 3.0183,
      "step": 5540
    },
    {
      "epoch": 1.7183774578108066,
      "grad_norm": 0.8862912058830261,
      "learning_rate": 0.00034375967791886033,
      "loss": 2.9898,
      "step": 5550
    },
    {
      "epoch": 1.721473912370336,
      "grad_norm": 0.9140844941139221,
      "learning_rate": 0.00034437906472592136,
      "loss": 3.0172,
      "step": 5560
    },
    {
      "epoch": 1.7245703669298653,
      "grad_norm": 0.976078450679779,
      "learning_rate": 0.0003449984515329824,
      "loss": 3.0161,
      "step": 5570
    },
    {
      "epoch": 1.7276668214893947,
      "grad_norm": 0.9176059365272522,
      "learning_rate": 0.0003456178383400433,
      "loss": 2.9931,
      "step": 5580
    },
    {
      "epoch": 1.730763276048924,
      "grad_norm": 0.9895356297492981,
      "learning_rate": 0.00034623722514710436,
      "loss": 3.0026,
      "step": 5590
    },
    {
      "epoch": 1.7338597306084533,
      "grad_norm": 0.9021176099777222,
      "learning_rate": 0.0003468566119541654,
      "loss": 2.9841,
      "step": 5600
    },
    {
      "epoch": 1.7369561851679827,
      "grad_norm": 1.0290924310684204,
      "learning_rate": 0.00034747599876122637,
      "loss": 3.0205,
      "step": 5610
    },
    {
      "epoch": 1.740052639727512,
      "grad_norm": 0.9842997193336487,
      "learning_rate": 0.0003480953855682874,
      "loss": 2.9983,
      "step": 5620
    },
    {
      "epoch": 1.7431490942870413,
      "grad_norm": 1.004170536994934,
      "learning_rate": 0.00034871477237534843,
      "loss": 2.9929,
      "step": 5630
    },
    {
      "epoch": 1.7462455488465707,
      "grad_norm": 0.8903537392616272,
      "learning_rate": 0.0003493341591824094,
      "loss": 2.9928,
      "step": 5640
    },
    {
      "epoch": 1.7493420034061,
      "grad_norm": 0.9463049173355103,
      "learning_rate": 0.00034995354598947045,
      "loss": 2.9975,
      "step": 5650
    },
    {
      "epoch": 1.7524384579656294,
      "grad_norm": 0.879135251045227,
      "learning_rate": 0.0003505729327965315,
      "loss": 2.9767,
      "step": 5660
    },
    {
      "epoch": 1.7555349125251587,
      "grad_norm": 0.9398852586746216,
      "learning_rate": 0.00035119231960359246,
      "loss": 2.9813,
      "step": 5670
    },
    {
      "epoch": 1.758631367084688,
      "grad_norm": 0.9972649216651917,
      "learning_rate": 0.00035181170641065344,
      "loss": 2.964,
      "step": 5680
    },
    {
      "epoch": 1.7617278216442174,
      "grad_norm": 0.9139822721481323,
      "learning_rate": 0.00035243109321771447,
      "loss": 2.9906,
      "step": 5690
    },
    {
      "epoch": 1.7648242762037467,
      "grad_norm": 0.8910505771636963,
      "learning_rate": 0.00035305048002477545,
      "loss": 2.9749,
      "step": 5700
    },
    {
      "epoch": 1.767920730763276,
      "grad_norm": 1.1436492204666138,
      "learning_rate": 0.0003536698668318365,
      "loss": 2.9727,
      "step": 5710
    },
    {
      "epoch": 1.7710171853228054,
      "grad_norm": 0.9300575852394104,
      "learning_rate": 0.0003542892536388975,
      "loss": 3.0028,
      "step": 5720
    },
    {
      "epoch": 1.7741136398823347,
      "grad_norm": 0.8461237549781799,
      "learning_rate": 0.0003549086404459585,
      "loss": 2.9749,
      "step": 5730
    },
    {
      "epoch": 1.777210094441864,
      "grad_norm": 0.882404088973999,
      "learning_rate": 0.00035552802725301953,
      "loss": 2.9568,
      "step": 5740
    },
    {
      "epoch": 1.7803065490013934,
      "grad_norm": 0.8937315344810486,
      "learning_rate": 0.00035614741406008056,
      "loss": 2.9807,
      "step": 5750
    },
    {
      "epoch": 1.7834030035609227,
      "grad_norm": 0.8935524225234985,
      "learning_rate": 0.00035676680086714154,
      "loss": 2.982,
      "step": 5760
    },
    {
      "epoch": 1.786499458120452,
      "grad_norm": 0.9033128023147583,
      "learning_rate": 0.0003573861876742026,
      "loss": 2.9634,
      "step": 5770
    },
    {
      "epoch": 1.7895959126799814,
      "grad_norm": 0.9767388701438904,
      "learning_rate": 0.0003580055744812635,
      "loss": 2.9613,
      "step": 5780
    },
    {
      "epoch": 1.7926923672395108,
      "grad_norm": 1.0344420671463013,
      "learning_rate": 0.00035862496128832454,
      "loss": 2.9319,
      "step": 5790
    },
    {
      "epoch": 1.79578882179904,
      "grad_norm": 0.87823486328125,
      "learning_rate": 0.00035924434809538557,
      "loss": 2.96,
      "step": 5800
    },
    {
      "epoch": 1.7988852763585694,
      "grad_norm": 0.9067280888557434,
      "learning_rate": 0.00035986373490244655,
      "loss": 2.9322,
      "step": 5810
    },
    {
      "epoch": 1.8019817309180988,
      "grad_norm": 0.8616409301757812,
      "learning_rate": 0.0003604831217095076,
      "loss": 2.9611,
      "step": 5820
    },
    {
      "epoch": 1.805078185477628,
      "grad_norm": 0.8421568274497986,
      "learning_rate": 0.0003611025085165686,
      "loss": 2.9366,
      "step": 5830
    },
    {
      "epoch": 1.8081746400371574,
      "grad_norm": 0.8576173782348633,
      "learning_rate": 0.0003617218953236296,
      "loss": 2.9423,
      "step": 5840
    },
    {
      "epoch": 1.8112710945966868,
      "grad_norm": 0.8986689448356628,
      "learning_rate": 0.00036234128213069063,
      "loss": 2.9376,
      "step": 5850
    },
    {
      "epoch": 1.8143675491562161,
      "grad_norm": 0.9134368300437927,
      "learning_rate": 0.00036296066893775166,
      "loss": 2.9262,
      "step": 5860
    },
    {
      "epoch": 1.8174640037157455,
      "grad_norm": 0.9681121110916138,
      "learning_rate": 0.00036358005574481264,
      "loss": 2.9341,
      "step": 5870
    },
    {
      "epoch": 1.8205604582752748,
      "grad_norm": 1.0286924839019775,
      "learning_rate": 0.0003641994425518737,
      "loss": 2.9306,
      "step": 5880
    },
    {
      "epoch": 1.8236569128348041,
      "grad_norm": 0.9352772831916809,
      "learning_rate": 0.00036481882935893465,
      "loss": 2.948,
      "step": 5890
    },
    {
      "epoch": 1.8267533673943335,
      "grad_norm": 1.0539007186889648,
      "learning_rate": 0.00036543821616599563,
      "loss": 2.9523,
      "step": 5900
    },
    {
      "epoch": 1.8298498219538628,
      "grad_norm": 0.8661713600158691,
      "learning_rate": 0.00036605760297305667,
      "loss": 2.9269,
      "step": 5910
    },
    {
      "epoch": 1.8329462765133921,
      "grad_norm": 0.9120956659317017,
      "learning_rate": 0.0003666769897801177,
      "loss": 2.9302,
      "step": 5920
    },
    {
      "epoch": 1.8360427310729215,
      "grad_norm": 0.9333845376968384,
      "learning_rate": 0.0003672963765871787,
      "loss": 2.9247,
      "step": 5930
    },
    {
      "epoch": 1.8391391856324508,
      "grad_norm": 0.864277720451355,
      "learning_rate": 0.0003679157633942397,
      "loss": 2.9269,
      "step": 5940
    },
    {
      "epoch": 1.8422356401919802,
      "grad_norm": 0.954741358757019,
      "learning_rate": 0.00036853515020130075,
      "loss": 2.9348,
      "step": 5950
    },
    {
      "epoch": 1.8453320947515095,
      "grad_norm": 0.8879597187042236,
      "learning_rate": 0.0003691545370083617,
      "loss": 2.9259,
      "step": 5960
    },
    {
      "epoch": 1.8484285493110388,
      "grad_norm": 0.8487861752510071,
      "learning_rate": 0.00036977392381542276,
      "loss": 2.9189,
      "step": 5970
    },
    {
      "epoch": 1.8515250038705682,
      "grad_norm": 0.9464482069015503,
      "learning_rate": 0.0003703933106224838,
      "loss": 2.9119,
      "step": 5980
    },
    {
      "epoch": 1.8546214584300975,
      "grad_norm": 0.8773711919784546,
      "learning_rate": 0.0003710126974295447,
      "loss": 2.9222,
      "step": 5990
    },
    {
      "epoch": 1.8577179129896269,
      "grad_norm": 0.8919110894203186,
      "learning_rate": 0.00037163208423660575,
      "loss": 2.9056,
      "step": 6000
    },
    {
      "epoch": 1.8608143675491562,
      "grad_norm": 0.9436878561973572,
      "learning_rate": 0.0003722514710436668,
      "loss": 2.9095,
      "step": 6010
    },
    {
      "epoch": 1.8639108221086855,
      "grad_norm": 0.9595790505409241,
      "learning_rate": 0.00037287085785072776,
      "loss": 2.9047,
      "step": 6020
    },
    {
      "epoch": 1.8670072766682149,
      "grad_norm": 0.8692799806594849,
      "learning_rate": 0.0003734902446577888,
      "loss": 2.905,
      "step": 6030
    },
    {
      "epoch": 1.8701037312277442,
      "grad_norm": 0.9274528622627258,
      "learning_rate": 0.00037410963146484983,
      "loss": 2.9251,
      "step": 6040
    },
    {
      "epoch": 1.8732001857872735,
      "grad_norm": 0.8798776268959045,
      "learning_rate": 0.0003747290182719108,
      "loss": 2.9113,
      "step": 6050
    },
    {
      "epoch": 1.8762966403468029,
      "grad_norm": 0.8613748550415039,
      "learning_rate": 0.00037534840507897184,
      "loss": 2.9077,
      "step": 6060
    },
    {
      "epoch": 1.8793930949063322,
      "grad_norm": 0.8926125764846802,
      "learning_rate": 0.0003759677918860329,
      "loss": 2.9029,
      "step": 6070
    },
    {
      "epoch": 1.8824895494658616,
      "grad_norm": 0.9414944052696228,
      "learning_rate": 0.00037658717869309386,
      "loss": 2.8968,
      "step": 6080
    },
    {
      "epoch": 1.885586004025391,
      "grad_norm": 0.8922074437141418,
      "learning_rate": 0.0003772065655001549,
      "loss": 2.8992,
      "step": 6090
    },
    {
      "epoch": 1.8886824585849202,
      "grad_norm": 0.9254492521286011,
      "learning_rate": 0.0003778259523072158,
      "loss": 2.912,
      "step": 6100
    },
    {
      "epoch": 1.8917789131444496,
      "grad_norm": 0.8882949948310852,
      "learning_rate": 0.00037844533911427685,
      "loss": 2.8972,
      "step": 6110
    },
    {
      "epoch": 1.894875367703979,
      "grad_norm": 0.874482274055481,
      "learning_rate": 0.0003790647259213379,
      "loss": 2.8848,
      "step": 6120
    },
    {
      "epoch": 1.8979718222635082,
      "grad_norm": 0.8989077210426331,
      "learning_rate": 0.00037968411272839886,
      "loss": 2.8934,
      "step": 6130
    },
    {
      "epoch": 1.9010682768230376,
      "grad_norm": 0.9361928105354309,
      "learning_rate": 0.0003803034995354599,
      "loss": 2.8697,
      "step": 6140
    },
    {
      "epoch": 1.904164731382567,
      "grad_norm": 0.8788303732872009,
      "learning_rate": 0.0003809228863425209,
      "loss": 2.8989,
      "step": 6150
    },
    {
      "epoch": 1.9072611859420963,
      "grad_norm": 0.8196372985839844,
      "learning_rate": 0.0003815422731495819,
      "loss": 2.8913,
      "step": 6160
    },
    {
      "epoch": 1.9103576405016256,
      "grad_norm": 0.8973246216773987,
      "learning_rate": 0.00038216165995664294,
      "loss": 2.8941,
      "step": 6170
    },
    {
      "epoch": 1.913454095061155,
      "grad_norm": 0.951608419418335,
      "learning_rate": 0.00038278104676370397,
      "loss": 2.8941,
      "step": 6180
    },
    {
      "epoch": 1.9165505496206843,
      "grad_norm": 0.87721186876297,
      "learning_rate": 0.00038340043357076495,
      "loss": 2.9039,
      "step": 6190
    },
    {
      "epoch": 1.9196470041802136,
      "grad_norm": 0.8995383381843567,
      "learning_rate": 0.00038401982037782593,
      "loss": 2.8978,
      "step": 6200
    },
    {
      "epoch": 1.922743458739743,
      "grad_norm": 0.9441946148872375,
      "learning_rate": 0.00038463920718488696,
      "loss": 2.8774,
      "step": 6210
    },
    {
      "epoch": 1.9258399132992723,
      "grad_norm": 0.8960248231887817,
      "learning_rate": 0.00038525859399194794,
      "loss": 2.8908,
      "step": 6220
    },
    {
      "epoch": 1.9289363678588016,
      "grad_norm": 0.9116747975349426,
      "learning_rate": 0.000385877980799009,
      "loss": 2.8639,
      "step": 6230
    },
    {
      "epoch": 1.932032822418331,
      "grad_norm": 0.8798891305923462,
      "learning_rate": 0.00038649736760607,
      "loss": 2.86,
      "step": 6240
    },
    {
      "epoch": 1.9351292769778603,
      "grad_norm": 0.8671932816505432,
      "learning_rate": 0.000387116754413131,
      "loss": 2.871,
      "step": 6250
    },
    {
      "epoch": 1.9382257315373896,
      "grad_norm": 0.9382427930831909,
      "learning_rate": 0.000387736141220192,
      "loss": 2.8508,
      "step": 6260
    },
    {
      "epoch": 1.941322186096919,
      "grad_norm": 0.9341138005256653,
      "learning_rate": 0.00038835552802725306,
      "loss": 2.8717,
      "step": 6270
    },
    {
      "epoch": 1.9444186406564483,
      "grad_norm": 0.9240859150886536,
      "learning_rate": 0.00038897491483431404,
      "loss": 2.8802,
      "step": 6280
    },
    {
      "epoch": 1.9475150952159777,
      "grad_norm": 0.9910873174667358,
      "learning_rate": 0.00038959430164137507,
      "loss": 2.8709,
      "step": 6290
    },
    {
      "epoch": 1.950611549775507,
      "grad_norm": 0.9003307223320007,
      "learning_rate": 0.0003902136884484361,
      "loss": 2.8732,
      "step": 6300
    },
    {
      "epoch": 1.9537080043350363,
      "grad_norm": 0.904257595539093,
      "learning_rate": 0.00039083307525549703,
      "loss": 2.8876,
      "step": 6310
    },
    {
      "epoch": 1.9568044588945657,
      "grad_norm": 0.978615403175354,
      "learning_rate": 0.00039145246206255806,
      "loss": 2.8684,
      "step": 6320
    },
    {
      "epoch": 1.959900913454095,
      "grad_norm": 0.8782775402069092,
      "learning_rate": 0.0003920718488696191,
      "loss": 2.8677,
      "step": 6330
    },
    {
      "epoch": 1.9629973680136246,
      "grad_norm": 0.9640995860099792,
      "learning_rate": 0.0003926912356766801,
      "loss": 2.8568,
      "step": 6340
    },
    {
      "epoch": 1.966093822573154,
      "grad_norm": 0.8807209134101868,
      "learning_rate": 0.0003933106224837411,
      "loss": 2.8618,
      "step": 6350
    },
    {
      "epoch": 1.9691902771326832,
      "grad_norm": 0.8921664357185364,
      "learning_rate": 0.00039393000929080214,
      "loss": 2.8788,
      "step": 6360
    },
    {
      "epoch": 1.9722867316922126,
      "grad_norm": 0.9727539420127869,
      "learning_rate": 0.0003945493960978631,
      "loss": 2.8512,
      "step": 6370
    },
    {
      "epoch": 1.975383186251742,
      "grad_norm": 0.8913626670837402,
      "learning_rate": 0.00039516878290492415,
      "loss": 2.8604,
      "step": 6380
    },
    {
      "epoch": 1.9784796408112713,
      "grad_norm": 0.8825446963310242,
      "learning_rate": 0.0003957881697119852,
      "loss": 2.8448,
      "step": 6390
    },
    {
      "epoch": 1.9815760953708006,
      "grad_norm": 0.916666567325592,
      "learning_rate": 0.00039640755651904617,
      "loss": 2.8625,
      "step": 6400
    },
    {
      "epoch": 1.98467254993033,
      "grad_norm": 1.0008190870285034,
      "learning_rate": 0.00039702694332610715,
      "loss": 2.8631,
      "step": 6410
    },
    {
      "epoch": 1.9877690044898593,
      "grad_norm": 0.8584704399108887,
      "learning_rate": 0.0003976463301331682,
      "loss": 2.8701,
      "step": 6420
    },
    {
      "epoch": 1.9908654590493886,
      "grad_norm": 0.9079132676124573,
      "learning_rate": 0.00039826571694022916,
      "loss": 2.8453,
      "step": 6430
    },
    {
      "epoch": 1.993961913608918,
      "grad_norm": 0.8909833431243896,
      "learning_rate": 0.0003988851037472902,
      "loss": 2.8315,
      "step": 6440
    },
    {
      "epoch": 1.9970583681684473,
      "grad_norm": 0.9206358194351196,
      "learning_rate": 0.00039950449055435117,
      "loss": 2.8694,
      "step": 6450
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6666725277900696,
      "learning_rate": 0.0004001238773614122,
      "loss": 2.7051,
      "step": 6460
    },
    {
      "epoch": 2.0030964545595293,
      "grad_norm": 0.8826514482498169,
      "learning_rate": 0.00040074326416847324,
      "loss": 2.8328,
      "step": 6470
    },
    {
      "epoch": 2.0061929091190587,
      "grad_norm": 0.922680139541626,
      "learning_rate": 0.0004013626509755342,
      "loss": 2.852,
      "step": 6480
    },
    {
      "epoch": 2.009289363678588,
      "grad_norm": 0.9056729674339294,
      "learning_rate": 0.00040198203778259525,
      "loss": 2.8423,
      "step": 6490
    },
    {
      "epoch": 2.0123858182381174,
      "grad_norm": 0.866322934627533,
      "learning_rate": 0.0004026014245896563,
      "loss": 2.8412,
      "step": 6500
    },
    {
      "epoch": 2.0154822727976467,
      "grad_norm": 0.9588058590888977,
      "learning_rate": 0.0004032208113967172,
      "loss": 2.8526,
      "step": 6510
    },
    {
      "epoch": 2.018578727357176,
      "grad_norm": 0.9247243404388428,
      "learning_rate": 0.00040384019820377824,
      "loss": 2.8271,
      "step": 6520
    },
    {
      "epoch": 2.0216751819167054,
      "grad_norm": 0.8787789940834045,
      "learning_rate": 0.0004044595850108393,
      "loss": 2.8043,
      "step": 6530
    },
    {
      "epoch": 2.0247716364762347,
      "grad_norm": 0.8963256478309631,
      "learning_rate": 0.00040507897181790025,
      "loss": 2.8162,
      "step": 6540
    },
    {
      "epoch": 2.027868091035764,
      "grad_norm": 0.9025070071220398,
      "learning_rate": 0.0004056983586249613,
      "loss": 2.8226,
      "step": 6550
    },
    {
      "epoch": 2.0309645455952934,
      "grad_norm": 0.8822202086448669,
      "learning_rate": 0.0004063177454320223,
      "loss": 2.8284,
      "step": 6560
    },
    {
      "epoch": 2.0340610001548227,
      "grad_norm": 0.9176104068756104,
      "learning_rate": 0.0004069371322390833,
      "loss": 2.8379,
      "step": 6570
    },
    {
      "epoch": 2.037157454714352,
      "grad_norm": 0.9508628845214844,
      "learning_rate": 0.00040755651904614433,
      "loss": 2.8113,
      "step": 6580
    },
    {
      "epoch": 2.0402539092738814,
      "grad_norm": 0.9238744378089905,
      "learning_rate": 0.00040817590585320537,
      "loss": 2.8221,
      "step": 6590
    },
    {
      "epoch": 2.0433503638334107,
      "grad_norm": 0.8854493498802185,
      "learning_rate": 0.00040879529266026635,
      "loss": 2.8139,
      "step": 6600
    },
    {
      "epoch": 2.04644681839294,
      "grad_norm": 0.8652548789978027,
      "learning_rate": 0.0004094146794673274,
      "loss": 2.8153,
      "step": 6610
    },
    {
      "epoch": 2.0495432729524694,
      "grad_norm": 0.8663405179977417,
      "learning_rate": 0.00041003406627438836,
      "loss": 2.8098,
      "step": 6620
    },
    {
      "epoch": 2.0526397275119987,
      "grad_norm": 0.8482099175453186,
      "learning_rate": 0.00041065345308144934,
      "loss": 2.8102,
      "step": 6630
    },
    {
      "epoch": 2.055736182071528,
      "grad_norm": 0.895483672618866,
      "learning_rate": 0.00041127283988851037,
      "loss": 2.8014,
      "step": 6640
    },
    {
      "epoch": 2.0588326366310574,
      "grad_norm": 0.8933889865875244,
      "learning_rate": 0.0004118922266955714,
      "loss": 2.8008,
      "step": 6650
    },
    {
      "epoch": 2.0619290911905868,
      "grad_norm": 0.87566739320755,
      "learning_rate": 0.0004125116135026324,
      "loss": 2.8055,
      "step": 6660
    },
    {
      "epoch": 2.065025545750116,
      "grad_norm": 0.9240240454673767,
      "learning_rate": 0.0004131310003096934,
      "loss": 2.8249,
      "step": 6670
    },
    {
      "epoch": 2.0681220003096454,
      "grad_norm": 0.9362452626228333,
      "learning_rate": 0.00041375038711675445,
      "loss": 2.8128,
      "step": 6680
    },
    {
      "epoch": 2.0712184548691748,
      "grad_norm": 0.859845757484436,
      "learning_rate": 0.00041436977392381543,
      "loss": 2.7887,
      "step": 6690
    },
    {
      "epoch": 2.074314909428704,
      "grad_norm": 0.9458219408988953,
      "learning_rate": 0.00041498916073087646,
      "loss": 2.8087,
      "step": 6700
    },
    {
      "epoch": 2.0774113639882335,
      "grad_norm": 0.9015805125236511,
      "learning_rate": 0.0004156085475379375,
      "loss": 2.8197,
      "step": 6710
    },
    {
      "epoch": 2.080507818547763,
      "grad_norm": 0.8841304779052734,
      "learning_rate": 0.0004162279343449984,
      "loss": 2.793,
      "step": 6720
    },
    {
      "epoch": 2.083604273107292,
      "grad_norm": 0.9217279553413391,
      "learning_rate": 0.00041684732115205946,
      "loss": 2.8279,
      "step": 6730
    },
    {
      "epoch": 2.0867007276668215,
      "grad_norm": 0.9141611456871033,
      "learning_rate": 0.0004174667079591205,
      "loss": 2.7922,
      "step": 6740
    },
    {
      "epoch": 2.089797182226351,
      "grad_norm": 0.8566716313362122,
      "learning_rate": 0.00041808609476618147,
      "loss": 2.8088,
      "step": 6750
    },
    {
      "epoch": 2.09289363678588,
      "grad_norm": 0.9103225469589233,
      "learning_rate": 0.0004187054815732425,
      "loss": 2.8134,
      "step": 6760
    },
    {
      "epoch": 2.0959900913454095,
      "grad_norm": 0.8901599049568176,
      "learning_rate": 0.0004193248683803035,
      "loss": 2.8114,
      "step": 6770
    },
    {
      "epoch": 2.099086545904939,
      "grad_norm": 0.9474543333053589,
      "learning_rate": 0.0004199442551873645,
      "loss": 2.7907,
      "step": 6780
    },
    {
      "epoch": 2.102183000464468,
      "grad_norm": 0.8805556297302246,
      "learning_rate": 0.00042056364199442555,
      "loss": 2.8023,
      "step": 6790
    },
    {
      "epoch": 2.1052794550239975,
      "grad_norm": 0.9209165573120117,
      "learning_rate": 0.00042118302880148653,
      "loss": 2.8247,
      "step": 6800
    },
    {
      "epoch": 2.108375909583527,
      "grad_norm": 0.9121336340904236,
      "learning_rate": 0.00042180241560854756,
      "loss": 2.7983,
      "step": 6810
    },
    {
      "epoch": 2.111472364143056,
      "grad_norm": 0.883575439453125,
      "learning_rate": 0.0004224218024156086,
      "loss": 2.7973,
      "step": 6820
    },
    {
      "epoch": 2.1145688187025855,
      "grad_norm": 0.8569662570953369,
      "learning_rate": 0.0004230411892226695,
      "loss": 2.807,
      "step": 6830
    },
    {
      "epoch": 2.117665273262115,
      "grad_norm": 0.8648683428764343,
      "learning_rate": 0.00042366057602973055,
      "loss": 2.7953,
      "step": 6840
    },
    {
      "epoch": 2.120761727821644,
      "grad_norm": 1.0288830995559692,
      "learning_rate": 0.0004242799628367916,
      "loss": 2.7934,
      "step": 6850
    },
    {
      "epoch": 2.1238581823811735,
      "grad_norm": 0.9366074800491333,
      "learning_rate": 0.00042489934964385257,
      "loss": 2.8014,
      "step": 6860
    },
    {
      "epoch": 2.126954636940703,
      "grad_norm": 0.9614273905754089,
      "learning_rate": 0.0004255187364509136,
      "loss": 2.7822,
      "step": 6870
    },
    {
      "epoch": 2.130051091500232,
      "grad_norm": 0.8939881324768066,
      "learning_rate": 0.00042613812325797463,
      "loss": 2.8195,
      "step": 6880
    },
    {
      "epoch": 2.1331475460597615,
      "grad_norm": 0.9166781902313232,
      "learning_rate": 0.0004267575100650356,
      "loss": 2.7889,
      "step": 6890
    },
    {
      "epoch": 2.136244000619291,
      "grad_norm": 0.8826269507408142,
      "learning_rate": 0.00042737689687209665,
      "loss": 2.8041,
      "step": 6900
    },
    {
      "epoch": 2.13934045517882,
      "grad_norm": 0.9127874970436096,
      "learning_rate": 0.0004279962836791577,
      "loss": 2.7986,
      "step": 6910
    },
    {
      "epoch": 2.1424369097383495,
      "grad_norm": 0.9072954654693604,
      "learning_rate": 0.00042861567048621866,
      "loss": 2.8031,
      "step": 6920
    },
    {
      "epoch": 2.145533364297879,
      "grad_norm": 0.8833560943603516,
      "learning_rate": 0.00042923505729327964,
      "loss": 2.7911,
      "step": 6930
    },
    {
      "epoch": 2.1486298188574082,
      "grad_norm": 0.861221194267273,
      "learning_rate": 0.00042985444410034067,
      "loss": 2.8073,
      "step": 6940
    },
    {
      "epoch": 2.1517262734169376,
      "grad_norm": 0.9040530323982239,
      "learning_rate": 0.00043047383090740165,
      "loss": 2.7849,
      "step": 6950
    },
    {
      "epoch": 2.154822727976467,
      "grad_norm": 0.9143641591072083,
      "learning_rate": 0.0004310932177144627,
      "loss": 2.7896,
      "step": 6960
    },
    {
      "epoch": 2.1579191825359962,
      "grad_norm": 0.8545592427253723,
      "learning_rate": 0.0004317126045215237,
      "loss": 2.7971,
      "step": 6970
    },
    {
      "epoch": 2.1610156370955256,
      "grad_norm": 0.9303133487701416,
      "learning_rate": 0.0004323319913285847,
      "loss": 2.7784,
      "step": 6980
    },
    {
      "epoch": 2.164112091655055,
      "grad_norm": 0.9570648074150085,
      "learning_rate": 0.00043295137813564573,
      "loss": 2.7977,
      "step": 6990
    },
    {
      "epoch": 2.1672085462145843,
      "grad_norm": 0.906696081161499,
      "learning_rate": 0.00043357076494270676,
      "loss": 2.7947,
      "step": 7000
    },
    {
      "epoch": 2.1703050007741136,
      "grad_norm": 0.8919961452484131,
      "learning_rate": 0.00043419015174976774,
      "loss": 2.7926,
      "step": 7010
    },
    {
      "epoch": 2.173401455333643,
      "grad_norm": 0.8740367889404297,
      "learning_rate": 0.0004348095385568288,
      "loss": 2.7747,
      "step": 7020
    },
    {
      "epoch": 2.1764979098931723,
      "grad_norm": 0.8785775899887085,
      "learning_rate": 0.0004354289253638898,
      "loss": 2.791,
      "step": 7030
    },
    {
      "epoch": 2.1795943644527016,
      "grad_norm": 0.9824354648590088,
      "learning_rate": 0.00043604831217095073,
      "loss": 2.7756,
      "step": 7040
    },
    {
      "epoch": 2.182690819012231,
      "grad_norm": 0.9581257104873657,
      "learning_rate": 0.00043666769897801177,
      "loss": 2.7893,
      "step": 7050
    },
    {
      "epoch": 2.1857872735717603,
      "grad_norm": 0.9003785252571106,
      "learning_rate": 0.0004372870857850728,
      "loss": 2.7857,
      "step": 7060
    },
    {
      "epoch": 2.1888837281312896,
      "grad_norm": 0.9463407397270203,
      "learning_rate": 0.0004379064725921338,
      "loss": 2.7608,
      "step": 7070
    },
    {
      "epoch": 2.191980182690819,
      "grad_norm": 0.9050635695457458,
      "learning_rate": 0.0004385258593991948,
      "loss": 2.7703,
      "step": 7080
    },
    {
      "epoch": 2.1950766372503483,
      "grad_norm": 0.8689008951187134,
      "learning_rate": 0.0004391452462062558,
      "loss": 2.7742,
      "step": 7090
    },
    {
      "epoch": 2.1981730918098776,
      "grad_norm": 0.8723441958427429,
      "learning_rate": 0.0004397646330133168,
      "loss": 2.7694,
      "step": 7100
    },
    {
      "epoch": 2.201269546369407,
      "grad_norm": 0.8924479484558105,
      "learning_rate": 0.00044038401982037786,
      "loss": 2.7906,
      "step": 7110
    },
    {
      "epoch": 2.2043660009289363,
      "grad_norm": 0.919276773929596,
      "learning_rate": 0.00044100340662743884,
      "loss": 2.7872,
      "step": 7120
    },
    {
      "epoch": 2.2074624554884656,
      "grad_norm": 0.901465654373169,
      "learning_rate": 0.00044162279343449987,
      "loss": 2.7465,
      "step": 7130
    },
    {
      "epoch": 2.210558910047995,
      "grad_norm": 0.8734842538833618,
      "learning_rate": 0.00044224218024156085,
      "loss": 2.7662,
      "step": 7140
    },
    {
      "epoch": 2.2136553646075243,
      "grad_norm": 0.9729484915733337,
      "learning_rate": 0.00044286156704862183,
      "loss": 2.7681,
      "step": 7150
    },
    {
      "epoch": 2.2167518191670537,
      "grad_norm": 0.8634438514709473,
      "learning_rate": 0.00044348095385568286,
      "loss": 2.7694,
      "step": 7160
    },
    {
      "epoch": 2.219848273726583,
      "grad_norm": 0.8623734712600708,
      "learning_rate": 0.0004441003406627439,
      "loss": 2.7775,
      "step": 7170
    },
    {
      "epoch": 2.2229447282861123,
      "grad_norm": 0.9596241116523743,
      "learning_rate": 0.0004447197274698049,
      "loss": 2.7916,
      "step": 7180
    },
    {
      "epoch": 2.2260411828456417,
      "grad_norm": 0.8765792846679688,
      "learning_rate": 0.0004453391142768659,
      "loss": 2.7529,
      "step": 7190
    },
    {
      "epoch": 2.229137637405171,
      "grad_norm": 0.887290894985199,
      "learning_rate": 0.00044595850108392694,
      "loss": 2.7697,
      "step": 7200
    },
    {
      "epoch": 2.2322340919647004,
      "grad_norm": 0.842238187789917,
      "learning_rate": 0.0004465778878909879,
      "loss": 2.7521,
      "step": 7210
    },
    {
      "epoch": 2.2353305465242297,
      "grad_norm": 0.9190672039985657,
      "learning_rate": 0.00044719727469804896,
      "loss": 2.7611,
      "step": 7220
    },
    {
      "epoch": 2.238427001083759,
      "grad_norm": 0.8801867365837097,
      "learning_rate": 0.00044781666150511,
      "loss": 2.7656,
      "step": 7230
    },
    {
      "epoch": 2.2415234556432884,
      "grad_norm": 0.9014734029769897,
      "learning_rate": 0.0004484360483121709,
      "loss": 2.7855,
      "step": 7240
    },
    {
      "epoch": 2.2446199102028177,
      "grad_norm": 0.8749867081642151,
      "learning_rate": 0.00044905543511923195,
      "loss": 2.7683,
      "step": 7250
    },
    {
      "epoch": 2.247716364762347,
      "grad_norm": 0.8823255896568298,
      "learning_rate": 0.000449674821926293,
      "loss": 2.7468,
      "step": 7260
    },
    {
      "epoch": 2.2508128193218764,
      "grad_norm": 1.020506739616394,
      "learning_rate": 0.00045029420873335396,
      "loss": 2.7633,
      "step": 7270
    },
    {
      "epoch": 2.2539092738814057,
      "grad_norm": 0.9416619539260864,
      "learning_rate": 0.000450913595540415,
      "loss": 2.7598,
      "step": 7280
    },
    {
      "epoch": 2.257005728440935,
      "grad_norm": 0.8934683203697205,
      "learning_rate": 0.00045153298234747603,
      "loss": 2.767,
      "step": 7290
    },
    {
      "epoch": 2.2601021830004644,
      "grad_norm": 0.9301040768623352,
      "learning_rate": 0.000452152369154537,
      "loss": 2.768,
      "step": 7300
    },
    {
      "epoch": 2.2631986375599937,
      "grad_norm": 0.9030665159225464,
      "learning_rate": 0.00045277175596159804,
      "loss": 2.7468,
      "step": 7310
    },
    {
      "epoch": 2.266295092119523,
      "grad_norm": 0.8950912952423096,
      "learning_rate": 0.0004533911427686591,
      "loss": 2.7583,
      "step": 7320
    },
    {
      "epoch": 2.2693915466790524,
      "grad_norm": 0.9231360554695129,
      "learning_rate": 0.00045401052957572005,
      "loss": 2.768,
      "step": 7330
    },
    {
      "epoch": 2.2724880012385817,
      "grad_norm": 0.9247618317604065,
      "learning_rate": 0.0004546299163827811,
      "loss": 2.7679,
      "step": 7340
    },
    {
      "epoch": 2.275584455798111,
      "grad_norm": 0.8417907953262329,
      "learning_rate": 0.00045524930318984207,
      "loss": 2.7641,
      "step": 7350
    },
    {
      "epoch": 2.2786809103576404,
      "grad_norm": 0.881175696849823,
      "learning_rate": 0.00045586868999690305,
      "loss": 2.7377,
      "step": 7360
    },
    {
      "epoch": 2.2817773649171698,
      "grad_norm": 0.9351217746734619,
      "learning_rate": 0.0004564880768039641,
      "loss": 2.7521,
      "step": 7370
    },
    {
      "epoch": 2.284873819476699,
      "grad_norm": 0.8650684952735901,
      "learning_rate": 0.0004571074636110251,
      "loss": 2.7675,
      "step": 7380
    },
    {
      "epoch": 2.2879702740362284,
      "grad_norm": 0.922113299369812,
      "learning_rate": 0.0004577268504180861,
      "loss": 2.7401,
      "step": 7390
    },
    {
      "epoch": 2.2910667285957578,
      "grad_norm": 0.8902767896652222,
      "learning_rate": 0.0004583462372251471,
      "loss": 2.7772,
      "step": 7400
    },
    {
      "epoch": 2.294163183155287,
      "grad_norm": 0.8764835596084595,
      "learning_rate": 0.00045896562403220816,
      "loss": 2.7526,
      "step": 7410
    },
    {
      "epoch": 2.2972596377148164,
      "grad_norm": 0.8847823739051819,
      "learning_rate": 0.00045958501083926914,
      "loss": 2.7504,
      "step": 7420
    },
    {
      "epoch": 2.300356092274346,
      "grad_norm": 0.8462940454483032,
      "learning_rate": 0.00046020439764633017,
      "loss": 2.7209,
      "step": 7430
    },
    {
      "epoch": 2.303452546833875,
      "grad_norm": 0.8645547032356262,
      "learning_rate": 0.00046082378445339115,
      "loss": 2.7464,
      "step": 7440
    },
    {
      "epoch": 2.3065490013934045,
      "grad_norm": 0.8842138051986694,
      "learning_rate": 0.00046144317126045213,
      "loss": 2.7566,
      "step": 7450
    },
    {
      "epoch": 2.309645455952934,
      "grad_norm": 0.8625742197036743,
      "learning_rate": 0.00046206255806751316,
      "loss": 2.753,
      "step": 7460
    },
    {
      "epoch": 2.312741910512463,
      "grad_norm": 0.922121524810791,
      "learning_rate": 0.00046268194487457414,
      "loss": 2.75,
      "step": 7470
    },
    {
      "epoch": 2.3158383650719925,
      "grad_norm": 0.8739849925041199,
      "learning_rate": 0.0004633013316816352,
      "loss": 2.7513,
      "step": 7480
    },
    {
      "epoch": 2.318934819631522,
      "grad_norm": 0.8614432215690613,
      "learning_rate": 0.0004639207184886962,
      "loss": 2.75,
      "step": 7490
    },
    {
      "epoch": 2.322031274191051,
      "grad_norm": 0.8714541792869568,
      "learning_rate": 0.0004645401052957572,
      "loss": 2.7297,
      "step": 7500
    },
    {
      "epoch": 2.3251277287505805,
      "grad_norm": 0.9732015132904053,
      "learning_rate": 0.0004651594921028182,
      "loss": 2.7529,
      "step": 7510
    },
    {
      "epoch": 2.32822418331011,
      "grad_norm": 0.9061838388442993,
      "learning_rate": 0.00046577887890987925,
      "loss": 2.7541,
      "step": 7520
    },
    {
      "epoch": 2.331320637869639,
      "grad_norm": 1.0056427717208862,
      "learning_rate": 0.00046639826571694023,
      "loss": 2.7381,
      "step": 7530
    },
    {
      "epoch": 2.3344170924291685,
      "grad_norm": 0.9382318258285522,
      "learning_rate": 0.00046701765252400127,
      "loss": 2.758,
      "step": 7540
    },
    {
      "epoch": 2.337513546988698,
      "grad_norm": 0.9322879314422607,
      "learning_rate": 0.0004676370393310623,
      "loss": 2.7196,
      "step": 7550
    },
    {
      "epoch": 2.340610001548227,
      "grad_norm": 0.8709734678268433,
      "learning_rate": 0.0004682564261381232,
      "loss": 2.7259,
      "step": 7560
    },
    {
      "epoch": 2.3437064561077565,
      "grad_norm": 0.8605784177780151,
      "learning_rate": 0.00046887581294518426,
      "loss": 2.7116,
      "step": 7570
    },
    {
      "epoch": 2.346802910667286,
      "grad_norm": 0.8777926564216614,
      "learning_rate": 0.0004694951997522453,
      "loss": 2.7389,
      "step": 7580
    },
    {
      "epoch": 2.349899365226815,
      "grad_norm": 0.9535753130912781,
      "learning_rate": 0.00047011458655930627,
      "loss": 2.7402,
      "step": 7590
    },
    {
      "epoch": 2.3529958197863445,
      "grad_norm": 0.8377962708473206,
      "learning_rate": 0.0004707339733663673,
      "loss": 2.7672,
      "step": 7600
    },
    {
      "epoch": 2.356092274345874,
      "grad_norm": 0.9221674799919128,
      "learning_rate": 0.00047135336017342834,
      "loss": 2.7341,
      "step": 7610
    },
    {
      "epoch": 2.359188728905403,
      "grad_norm": 0.9175540804862976,
      "learning_rate": 0.0004719727469804893,
      "loss": 2.7332,
      "step": 7620
    },
    {
      "epoch": 2.3622851834649325,
      "grad_norm": 0.896039605140686,
      "learning_rate": 0.00047259213378755035,
      "loss": 2.7587,
      "step": 7630
    },
    {
      "epoch": 2.365381638024462,
      "grad_norm": 0.8460658192634583,
      "learning_rate": 0.0004732115205946114,
      "loss": 2.7378,
      "step": 7640
    },
    {
      "epoch": 2.3684780925839912,
      "grad_norm": 0.9001418352127075,
      "learning_rate": 0.00047383090740167236,
      "loss": 2.7374,
      "step": 7650
    },
    {
      "epoch": 2.3715745471435206,
      "grad_norm": 0.9807076454162598,
      "learning_rate": 0.00047445029420873334,
      "loss": 2.723,
      "step": 7660
    },
    {
      "epoch": 2.37467100170305,
      "grad_norm": 0.8731216192245483,
      "learning_rate": 0.0004750696810157944,
      "loss": 2.7112,
      "step": 7670
    },
    {
      "epoch": 2.3777674562625792,
      "grad_norm": 0.8750482201576233,
      "learning_rate": 0.00047568906782285536,
      "loss": 2.7016,
      "step": 7680
    },
    {
      "epoch": 2.3808639108221086,
      "grad_norm": 0.8985123634338379,
      "learning_rate": 0.0004763084546299164,
      "loss": 2.7462,
      "step": 7690
    },
    {
      "epoch": 2.383960365381638,
      "grad_norm": 0.8914074301719666,
      "learning_rate": 0.0004769278414369774,
      "loss": 2.7253,
      "step": 7700
    },
    {
      "epoch": 2.3870568199411673,
      "grad_norm": 0.8856596350669861,
      "learning_rate": 0.0004775472282440384,
      "loss": 2.7438,
      "step": 7710
    },
    {
      "epoch": 2.3901532745006966,
      "grad_norm": 0.9476223587989807,
      "learning_rate": 0.00047816661505109944,
      "loss": 2.7208,
      "step": 7720
    },
    {
      "epoch": 2.393249729060226,
      "grad_norm": 0.8765897750854492,
      "learning_rate": 0.00047878600185816047,
      "loss": 2.7302,
      "step": 7730
    },
    {
      "epoch": 2.3963461836197553,
      "grad_norm": 0.9087428450584412,
      "learning_rate": 0.00047940538866522145,
      "loss": 2.7225,
      "step": 7740
    },
    {
      "epoch": 2.3994426381792846,
      "grad_norm": 0.9276483058929443,
      "learning_rate": 0.0004800247754722825,
      "loss": 2.7297,
      "step": 7750
    },
    {
      "epoch": 2.402539092738814,
      "grad_norm": 0.8988469243049622,
      "learning_rate": 0.0004806441622793434,
      "loss": 2.7167,
      "step": 7760
    },
    {
      "epoch": 2.4056355472983433,
      "grad_norm": 0.865112841129303,
      "learning_rate": 0.00048126354908640444,
      "loss": 2.7187,
      "step": 7770
    },
    {
      "epoch": 2.4087320018578726,
      "grad_norm": 0.8832447528839111,
      "learning_rate": 0.0004818829358934655,
      "loss": 2.7123,
      "step": 7780
    },
    {
      "epoch": 2.411828456417402,
      "grad_norm": 0.8970694541931152,
      "learning_rate": 0.00048250232270052645,
      "loss": 2.7255,
      "step": 7790
    },
    {
      "epoch": 2.4149249109769313,
      "grad_norm": 0.8232760429382324,
      "learning_rate": 0.0004831217095075875,
      "loss": 2.7315,
      "step": 7800
    },
    {
      "epoch": 2.4180213655364606,
      "grad_norm": 0.9075847268104553,
      "learning_rate": 0.0004837410963146485,
      "loss": 2.7098,
      "step": 7810
    },
    {
      "epoch": 2.42111782009599,
      "grad_norm": 0.871097981929779,
      "learning_rate": 0.0004843604831217095,
      "loss": 2.7172,
      "step": 7820
    },
    {
      "epoch": 2.4242142746555193,
      "grad_norm": 0.8684946894645691,
      "learning_rate": 0.00048497986992877053,
      "loss": 2.7031,
      "step": 7830
    },
    {
      "epoch": 2.4273107292150486,
      "grad_norm": 0.9100140929222107,
      "learning_rate": 0.00048559925673583157,
      "loss": 2.7175,
      "step": 7840
    },
    {
      "epoch": 2.430407183774578,
      "grad_norm": 0.8607642650604248,
      "learning_rate": 0.00048621864354289254,
      "loss": 2.7149,
      "step": 7850
    },
    {
      "epoch": 2.4335036383341073,
      "grad_norm": 0.865871012210846,
      "learning_rate": 0.0004868380303499536,
      "loss": 2.7139,
      "step": 7860
    },
    {
      "epoch": 2.4366000928936367,
      "grad_norm": 0.9190123677253723,
      "learning_rate": 0.00048745741715701456,
      "loss": 2.7167,
      "step": 7870
    },
    {
      "epoch": 2.439696547453166,
      "grad_norm": 0.8954902291297913,
      "learning_rate": 0.00048807680396407554,
      "loss": 2.7041,
      "step": 7880
    },
    {
      "epoch": 2.4427930020126953,
      "grad_norm": 0.9070473313331604,
      "learning_rate": 0.0004886961907711366,
      "loss": 2.712,
      "step": 7890
    },
    {
      "epoch": 2.4458894565722247,
      "grad_norm": 1.2090919017791748,
      "learning_rate": 0.0004893155775781977,
      "loss": 2.7241,
      "step": 7900
    },
    {
      "epoch": 2.448985911131754,
      "grad_norm": 0.8956063985824585,
      "learning_rate": 0.0004899349643852586,
      "loss": 2.7089,
      "step": 7910
    },
    {
      "epoch": 2.4520823656912833,
      "grad_norm": 0.8796259164810181,
      "learning_rate": 0.0004905543511923196,
      "loss": 2.6996,
      "step": 7920
    },
    {
      "epoch": 2.4551788202508127,
      "grad_norm": 0.8752288222312927,
      "learning_rate": 0.0004911737379993806,
      "loss": 2.7141,
      "step": 7930
    },
    {
      "epoch": 2.458275274810342,
      "grad_norm": 0.8404427170753479,
      "learning_rate": 0.0004917931248064416,
      "loss": 2.7086,
      "step": 7940
    },
    {
      "epoch": 2.4613717293698714,
      "grad_norm": 0.8801198601722717,
      "learning_rate": 0.0004924125116135027,
      "loss": 2.716,
      "step": 7950
    },
    {
      "epoch": 2.4644681839294007,
      "grad_norm": 0.8937883377075195,
      "learning_rate": 0.0004930318984205636,
      "loss": 2.6963,
      "step": 7960
    },
    {
      "epoch": 2.46756463848893,
      "grad_norm": 0.8348713517189026,
      "learning_rate": 0.0004936512852276246,
      "loss": 2.7158,
      "step": 7970
    },
    {
      "epoch": 2.4706610930484594,
      "grad_norm": 0.9168616533279419,
      "learning_rate": 0.0004942706720346857,
      "loss": 2.7212,
      "step": 7980
    },
    {
      "epoch": 2.4737575476079887,
      "grad_norm": 0.8765811324119568,
      "learning_rate": 0.0004948900588417467,
      "loss": 2.7037,
      "step": 7990
    },
    {
      "epoch": 2.476854002167518,
      "grad_norm": 0.9563819766044617,
      "learning_rate": 0.0004955094456488077,
      "loss": 2.7076,
      "step": 8000
    },
    {
      "epoch": 2.4799504567270474,
      "grad_norm": 0.9105591177940369,
      "learning_rate": 0.0004961288324558688,
      "loss": 2.704,
      "step": 8010
    },
    {
      "epoch": 2.4830469112865767,
      "grad_norm": 0.8907128572463989,
      "learning_rate": 0.0004967482192629297,
      "loss": 2.711,
      "step": 8020
    },
    {
      "epoch": 2.486143365846106,
      "grad_norm": 0.9110057353973389,
      "learning_rate": 0.0004973676060699907,
      "loss": 2.715,
      "step": 8030
    },
    {
      "epoch": 2.4892398204056354,
      "grad_norm": 0.8938244581222534,
      "learning_rate": 0.0004979869928770517,
      "loss": 2.7236,
      "step": 8040
    },
    {
      "epoch": 2.4923362749651647,
      "grad_norm": 0.8680298328399658,
      "learning_rate": 0.0004986063796841128,
      "loss": 2.7141,
      "step": 8050
    },
    {
      "epoch": 2.495432729524694,
      "grad_norm": 1.2556971311569214,
      "learning_rate": 0.0004992257664911738,
      "loss": 2.7182,
      "step": 8060
    },
    {
      "epoch": 2.4985291840842234,
      "grad_norm": 0.8885079026222229,
      "learning_rate": 0.0004998451532982347,
      "loss": 2.7178,
      "step": 8070
    },
    {
      "epoch": 2.5016256386437528,
      "grad_norm": 0.8683394193649292,
      "learning_rate": 0.0005004645401052957,
      "loss": 2.713,
      "step": 8080
    },
    {
      "epoch": 2.504722093203282,
      "grad_norm": 0.8895092010498047,
      "learning_rate": 0.0005010839269123568,
      "loss": 2.7244,
      "step": 8090
    },
    {
      "epoch": 2.5078185477628114,
      "grad_norm": 0.9000723958015442,
      "learning_rate": 0.0005017033137194178,
      "loss": 2.7018,
      "step": 8100
    },
    {
      "epoch": 2.5109150023223408,
      "grad_norm": 0.8466011881828308,
      "learning_rate": 0.0005023227005264788,
      "loss": 2.7252,
      "step": 8110
    },
    {
      "epoch": 2.51401145688187,
      "grad_norm": 0.8740931749343872,
      "learning_rate": 0.0005029420873335399,
      "loss": 2.7023,
      "step": 8120
    },
    {
      "epoch": 2.5171079114413994,
      "grad_norm": 0.9173566102981567,
      "learning_rate": 0.0005035614741406008,
      "loss": 2.7158,
      "step": 8130
    },
    {
      "epoch": 2.520204366000929,
      "grad_norm": 0.9136703610420227,
      "learning_rate": 0.0005041808609476618,
      "loss": 2.7081,
      "step": 8140
    },
    {
      "epoch": 2.523300820560458,
      "grad_norm": 0.9001860022544861,
      "learning_rate": 0.0005048002477547229,
      "loss": 2.6879,
      "step": 8150
    },
    {
      "epoch": 2.5263972751199875,
      "grad_norm": 0.8756097555160522,
      "learning_rate": 0.0005054196345617839,
      "loss": 2.714,
      "step": 8160
    },
    {
      "epoch": 2.529493729679517,
      "grad_norm": 0.8774548768997192,
      "learning_rate": 0.0005060390213688449,
      "loss": 2.6751,
      "step": 8170
    },
    {
      "epoch": 2.532590184239046,
      "grad_norm": 0.8764857649803162,
      "learning_rate": 0.0005066584081759059,
      "loss": 2.7045,
      "step": 8180
    },
    {
      "epoch": 2.5356866387985755,
      "grad_norm": 0.8589802980422974,
      "learning_rate": 0.0005072777949829669,
      "loss": 2.7001,
      "step": 8190
    },
    {
      "epoch": 2.538783093358105,
      "grad_norm": 0.8591241836547852,
      "learning_rate": 0.0005078971817900279,
      "loss": 2.6838,
      "step": 8200
    },
    {
      "epoch": 2.541879547917634,
      "grad_norm": 0.8960736989974976,
      "learning_rate": 0.000508516568597089,
      "loss": 2.6847,
      "step": 8210
    },
    {
      "epoch": 2.5449760024771635,
      "grad_norm": 0.8818134069442749,
      "learning_rate": 0.00050913595540415,
      "loss": 2.6907,
      "step": 8220
    },
    {
      "epoch": 2.548072457036693,
      "grad_norm": 0.8439919948577881,
      "learning_rate": 0.0005097553422112108,
      "loss": 2.6649,
      "step": 8230
    },
    {
      "epoch": 2.551168911596222,
      "grad_norm": 0.953252911567688,
      "learning_rate": 0.0005103747290182718,
      "loss": 2.7113,
      "step": 8240
    },
    {
      "epoch": 2.5542653661557515,
      "grad_norm": 0.8814793825149536,
      "learning_rate": 0.0005109941158253329,
      "loss": 2.6971,
      "step": 8250
    },
    {
      "epoch": 2.557361820715281,
      "grad_norm": 0.8562922477722168,
      "learning_rate": 0.0005116135026323939,
      "loss": 2.6816,
      "step": 8260
    },
    {
      "epoch": 2.56045827527481,
      "grad_norm": 0.9286318421363831,
      "learning_rate": 0.0005122328894394549,
      "loss": 2.6976,
      "step": 8270
    },
    {
      "epoch": 2.5635547298343395,
      "grad_norm": 0.8571282029151917,
      "learning_rate": 0.000512852276246516,
      "loss": 2.6931,
      "step": 8280
    },
    {
      "epoch": 2.566651184393869,
      "grad_norm": 0.8638617396354675,
      "learning_rate": 0.0005134716630535769,
      "loss": 2.7112,
      "step": 8290
    },
    {
      "epoch": 2.569747638953398,
      "grad_norm": 0.8954980969429016,
      "learning_rate": 0.0005140910498606379,
      "loss": 2.6775,
      "step": 8300
    },
    {
      "epoch": 2.5728440935129275,
      "grad_norm": 0.8603184223175049,
      "learning_rate": 0.000514710436667699,
      "loss": 2.6962,
      "step": 8310
    },
    {
      "epoch": 2.575940548072457,
      "grad_norm": 0.8614330887794495,
      "learning_rate": 0.00051532982347476,
      "loss": 2.7119,
      "step": 8320
    },
    {
      "epoch": 2.5790370026319867,
      "grad_norm": 0.853256106376648,
      "learning_rate": 0.000515949210281821,
      "loss": 2.6701,
      "step": 8330
    },
    {
      "epoch": 2.5821334571915155,
      "grad_norm": 0.9329004883766174,
      "learning_rate": 0.000516568597088882,
      "loss": 2.7029,
      "step": 8340
    },
    {
      "epoch": 2.5852299117510453,
      "grad_norm": 0.8642740249633789,
      "learning_rate": 0.000517187983895943,
      "loss": 2.6927,
      "step": 8350
    },
    {
      "epoch": 2.5883263663105742,
      "grad_norm": 0.8851795196533203,
      "learning_rate": 0.000517807370703004,
      "loss": 2.6801,
      "step": 8360
    },
    {
      "epoch": 2.591422820870104,
      "grad_norm": 0.8649539947509766,
      "learning_rate": 0.0005184267575100651,
      "loss": 2.671,
      "step": 8370
    },
    {
      "epoch": 2.594519275429633,
      "grad_norm": 0.8715213537216187,
      "learning_rate": 0.0005190461443171261,
      "loss": 2.69,
      "step": 8380
    },
    {
      "epoch": 2.5976157299891627,
      "grad_norm": 0.8469790816307068,
      "learning_rate": 0.000519665531124187,
      "loss": 2.6773,
      "step": 8390
    },
    {
      "epoch": 2.6007121845486916,
      "grad_norm": 0.8525969982147217,
      "learning_rate": 0.0005202849179312481,
      "loss": 2.6728,
      "step": 8400
    },
    {
      "epoch": 2.6038086391082214,
      "grad_norm": 0.8539503812789917,
      "learning_rate": 0.0005209043047383091,
      "loss": 2.6869,
      "step": 8410
    },
    {
      "epoch": 2.6069050936677503,
      "grad_norm": 0.877877414226532,
      "learning_rate": 0.0005215236915453701,
      "loss": 2.6924,
      "step": 8420
    },
    {
      "epoch": 2.61000154822728,
      "grad_norm": 0.9159960150718689,
      "learning_rate": 0.0005221430783524312,
      "loss": 2.6827,
      "step": 8430
    },
    {
      "epoch": 2.613098002786809,
      "grad_norm": 0.9159612059593201,
      "learning_rate": 0.000522762465159492,
      "loss": 2.6715,
      "step": 8440
    },
    {
      "epoch": 2.6161944573463387,
      "grad_norm": 0.8842989802360535,
      "learning_rate": 0.000523381851966553,
      "loss": 2.6781,
      "step": 8450
    },
    {
      "epoch": 2.6192909119058676,
      "grad_norm": 0.981275737285614,
      "learning_rate": 0.0005240012387736141,
      "loss": 2.6975,
      "step": 8460
    },
    {
      "epoch": 2.6223873664653974,
      "grad_norm": 0.8604749441146851,
      "learning_rate": 0.0005246206255806751,
      "loss": 2.6785,
      "step": 8470
    },
    {
      "epoch": 2.6254838210249263,
      "grad_norm": 0.880984902381897,
      "learning_rate": 0.0005252400123877361,
      "loss": 2.6743,
      "step": 8480
    },
    {
      "epoch": 2.628580275584456,
      "grad_norm": 0.9086693525314331,
      "learning_rate": 0.0005258593991947972,
      "loss": 2.6827,
      "step": 8490
    },
    {
      "epoch": 2.631676730143985,
      "grad_norm": 0.9209759831428528,
      "learning_rate": 0.0005264787860018581,
      "loss": 2.6969,
      "step": 8500
    },
    {
      "epoch": 2.6347731847035147,
      "grad_norm": 1.1329649686813354,
      "learning_rate": 0.0005270981728089191,
      "loss": 2.6682,
      "step": 8510
    },
    {
      "epoch": 2.6378696392630436,
      "grad_norm": 0.904861569404602,
      "learning_rate": 0.0005277175596159802,
      "loss": 2.6765,
      "step": 8520
    },
    {
      "epoch": 2.6409660938225734,
      "grad_norm": 0.9609228372573853,
      "learning_rate": 0.0005283369464230412,
      "loss": 2.6777,
      "step": 8530
    },
    {
      "epoch": 2.6440625483821023,
      "grad_norm": 0.84135901927948,
      "learning_rate": 0.0005289563332301022,
      "loss": 2.6963,
      "step": 8540
    },
    {
      "epoch": 2.647159002941632,
      "grad_norm": 0.9496148228645325,
      "learning_rate": 0.0005295757200371633,
      "loss": 2.6755,
      "step": 8550
    },
    {
      "epoch": 2.650255457501161,
      "grad_norm": 0.9461915493011475,
      "learning_rate": 0.0005301951068442242,
      "loss": 2.6947,
      "step": 8560
    },
    {
      "epoch": 2.6533519120606908,
      "grad_norm": 0.8542360067367554,
      "learning_rate": 0.0005308144936512852,
      "loss": 2.6722,
      "step": 8570
    },
    {
      "epoch": 2.6564483666202197,
      "grad_norm": 0.9559420347213745,
      "learning_rate": 0.0005314338804583463,
      "loss": 2.6781,
      "step": 8580
    },
    {
      "epoch": 2.6595448211797494,
      "grad_norm": 0.9376833438873291,
      "learning_rate": 0.0005320532672654073,
      "loss": 2.7124,
      "step": 8590
    },
    {
      "epoch": 2.6626412757392783,
      "grad_norm": 0.8750305771827698,
      "learning_rate": 0.0005326726540724683,
      "loss": 2.695,
      "step": 8600
    },
    {
      "epoch": 2.665737730298808,
      "grad_norm": 0.8628771305084229,
      "learning_rate": 0.0005332920408795294,
      "loss": 2.6874,
      "step": 8610
    },
    {
      "epoch": 2.668834184858337,
      "grad_norm": 0.91616290807724,
      "learning_rate": 0.0005339114276865903,
      "loss": 2.6733,
      "step": 8620
    },
    {
      "epoch": 2.671930639417867,
      "grad_norm": 0.8734931349754333,
      "learning_rate": 0.0005345308144936513,
      "loss": 2.6805,
      "step": 8630
    },
    {
      "epoch": 2.6750270939773957,
      "grad_norm": 0.8667175769805908,
      "learning_rate": 0.0005351502013007124,
      "loss": 2.6863,
      "step": 8640
    },
    {
      "epoch": 2.6781235485369255,
      "grad_norm": 0.8947048783302307,
      "learning_rate": 0.0005357695881077733,
      "loss": 2.6906,
      "step": 8650
    },
    {
      "epoch": 2.6812200030964544,
      "grad_norm": 0.9095123410224915,
      "learning_rate": 0.0005363889749148342,
      "loss": 2.6741,
      "step": 8660
    },
    {
      "epoch": 2.684316457655984,
      "grad_norm": 0.8678126335144043,
      "learning_rate": 0.0005370083617218953,
      "loss": 2.6532,
      "step": 8670
    },
    {
      "epoch": 2.687412912215513,
      "grad_norm": 0.8941618800163269,
      "learning_rate": 0.0005376277485289563,
      "loss": 2.6733,
      "step": 8680
    },
    {
      "epoch": 2.690509366775043,
      "grad_norm": 0.9127388596534729,
      "learning_rate": 0.0005382471353360173,
      "loss": 2.6864,
      "step": 8690
    },
    {
      "epoch": 2.6936058213345717,
      "grad_norm": 0.8542888760566711,
      "learning_rate": 0.0005388665221430784,
      "loss": 2.6839,
      "step": 8700
    },
    {
      "epoch": 2.6967022758941015,
      "grad_norm": 0.8937285542488098,
      "learning_rate": 0.0005394859089501394,
      "loss": 2.6911,
      "step": 8710
    },
    {
      "epoch": 2.6997987304536304,
      "grad_norm": 0.9001040458679199,
      "learning_rate": 0.0005401052957572003,
      "loss": 2.6785,
      "step": 8720
    },
    {
      "epoch": 2.70289518501316,
      "grad_norm": 0.9357818365097046,
      "learning_rate": 0.0005407246825642614,
      "loss": 2.6959,
      "step": 8730
    },
    {
      "epoch": 2.705991639572689,
      "grad_norm": 0.9065813422203064,
      "learning_rate": 0.0005413440693713224,
      "loss": 2.6838,
      "step": 8740
    },
    {
      "epoch": 2.709088094132219,
      "grad_norm": 0.8821165561676025,
      "learning_rate": 0.0005419634561783834,
      "loss": 2.6618,
      "step": 8750
    },
    {
      "epoch": 2.7121845486917477,
      "grad_norm": 0.8667876720428467,
      "learning_rate": 0.0005425828429854445,
      "loss": 2.6849,
      "step": 8760
    },
    {
      "epoch": 2.7152810032512775,
      "grad_norm": 0.8643457889556885,
      "learning_rate": 0.0005432022297925055,
      "loss": 2.6629,
      "step": 8770
    },
    {
      "epoch": 2.7183774578108064,
      "grad_norm": 0.8841952681541443,
      "learning_rate": 0.0005438216165995664,
      "loss": 2.6605,
      "step": 8780
    },
    {
      "epoch": 2.721473912370336,
      "grad_norm": 0.9219385385513306,
      "learning_rate": 0.0005444410034066275,
      "loss": 2.6594,
      "step": 8790
    },
    {
      "epoch": 2.724570366929865,
      "grad_norm": 0.9676291942596436,
      "learning_rate": 0.0005450603902136885,
      "loss": 2.6796,
      "step": 8800
    },
    {
      "epoch": 2.727666821489395,
      "grad_norm": 0.9405499696731567,
      "learning_rate": 0.0005456797770207495,
      "loss": 2.6928,
      "step": 8810
    },
    {
      "epoch": 2.7307632760489238,
      "grad_norm": 0.9420516490936279,
      "learning_rate": 0.0005462991638278106,
      "loss": 2.6699,
      "step": 8820
    },
    {
      "epoch": 2.7338597306084536,
      "grad_norm": 0.9792620539665222,
      "learning_rate": 0.0005469185506348715,
      "loss": 2.6666,
      "step": 8830
    },
    {
      "epoch": 2.7369561851679824,
      "grad_norm": 0.9726955890655518,
      "learning_rate": 0.0005475379374419325,
      "loss": 2.645,
      "step": 8840
    },
    {
      "epoch": 2.7400526397275122,
      "grad_norm": 1.020033359527588,
      "learning_rate": 0.0005481573242489936,
      "loss": 2.6614,
      "step": 8850
    },
    {
      "epoch": 2.743149094287041,
      "grad_norm": 1.0454789400100708,
      "learning_rate": 0.0005487767110560545,
      "loss": 2.6565,
      "step": 8860
    },
    {
      "epoch": 2.746245548846571,
      "grad_norm": 0.8889420628547668,
      "learning_rate": 0.0005493960978631155,
      "loss": 2.6916,
      "step": 8870
    },
    {
      "epoch": 2.7493420034061,
      "grad_norm": 0.9025602340698242,
      "learning_rate": 0.0005500154846701765,
      "loss": 2.6999,
      "step": 8880
    },
    {
      "epoch": 2.7524384579656296,
      "grad_norm": 0.8665561079978943,
      "learning_rate": 0.0005506348714772375,
      "loss": 2.6385,
      "step": 8890
    },
    {
      "epoch": 2.7555349125251585,
      "grad_norm": 0.9031399488449097,
      "learning_rate": 0.0005512542582842985,
      "loss": 2.6505,
      "step": 8900
    },
    {
      "epoch": 2.7586313670846883,
      "grad_norm": 0.9555135369300842,
      "learning_rate": 0.0005518736450913595,
      "loss": 2.6816,
      "step": 8910
    },
    {
      "epoch": 2.761727821644217,
      "grad_norm": 0.9307361245155334,
      "learning_rate": 0.0005524930318984206,
      "loss": 2.6715,
      "step": 8920
    },
    {
      "epoch": 2.764824276203747,
      "grad_norm": 0.9591286778450012,
      "learning_rate": 0.0005531124187054816,
      "loss": 2.6822,
      "step": 8930
    },
    {
      "epoch": 2.767920730763276,
      "grad_norm": 0.9070897698402405,
      "learning_rate": 0.0005537318055125425,
      "loss": 2.6702,
      "step": 8940
    },
    {
      "epoch": 2.7710171853228056,
      "grad_norm": 0.9256467819213867,
      "learning_rate": 0.0005543511923196036,
      "loss": 2.6555,
      "step": 8950
    },
    {
      "epoch": 2.7741136398823345,
      "grad_norm": 0.993756115436554,
      "learning_rate": 0.0005549705791266646,
      "loss": 2.6547,
      "step": 8960
    },
    {
      "epoch": 2.7772100944418643,
      "grad_norm": 0.9043955206871033,
      "learning_rate": 0.0005555899659337256,
      "loss": 2.6905,
      "step": 8970
    },
    {
      "epoch": 2.780306549001393,
      "grad_norm": 0.9000112414360046,
      "learning_rate": 0.0005562093527407867,
      "loss": 2.6534,
      "step": 8980
    },
    {
      "epoch": 2.783403003560923,
      "grad_norm": 0.9210097789764404,
      "learning_rate": 0.0005568287395478476,
      "loss": 2.6717,
      "step": 8990
    },
    {
      "epoch": 2.786499458120452,
      "grad_norm": 0.8958888053894043,
      "learning_rate": 0.0005574481263549086,
      "loss": 2.6856,
      "step": 9000
    },
    {
      "epoch": 2.7895959126799816,
      "grad_norm": 1.0156104564666748,
      "learning_rate": 0.0005580675131619697,
      "loss": 2.6794,
      "step": 9010
    },
    {
      "epoch": 2.7926923672395105,
      "grad_norm": 0.9581423997879028,
      "learning_rate": 0.0005586868999690307,
      "loss": 2.6576,
      "step": 9020
    },
    {
      "epoch": 2.7957888217990403,
      "grad_norm": 0.9721694588661194,
      "learning_rate": 0.0005593062867760917,
      "loss": 2.6569,
      "step": 9030
    },
    {
      "epoch": 2.798885276358569,
      "grad_norm": 0.9453576803207397,
      "learning_rate": 0.0005599256735831528,
      "loss": 2.6664,
      "step": 9040
    },
    {
      "epoch": 2.801981730918099,
      "grad_norm": 0.9473662972450256,
      "learning_rate": 0.0005605450603902137,
      "loss": 2.6604,
      "step": 9050
    },
    {
      "epoch": 2.805078185477628,
      "grad_norm": 0.9190026521682739,
      "learning_rate": 0.0005611644471972746,
      "loss": 2.6632,
      "step": 9060
    },
    {
      "epoch": 2.8081746400371577,
      "grad_norm": 0.9677988886833191,
      "learning_rate": 0.0005617838340043357,
      "loss": 2.6574,
      "step": 9070
    },
    {
      "epoch": 2.8112710945966866,
      "grad_norm": 0.9148370623588562,
      "learning_rate": 0.0005624032208113967,
      "loss": 2.6801,
      "step": 9080
    },
    {
      "epoch": 2.8143675491562163,
      "grad_norm": 0.908485472202301,
      "learning_rate": 0.0005630226076184577,
      "loss": 2.6614,
      "step": 9090
    },
    {
      "epoch": 2.8174640037157452,
      "grad_norm": 0.9479948878288269,
      "learning_rate": 0.0005636419944255187,
      "loss": 2.6426,
      "step": 9100
    },
    {
      "epoch": 2.820560458275275,
      "grad_norm": 1.0165117979049683,
      "learning_rate": 0.0005642613812325797,
      "loss": 2.6608,
      "step": 9110
    },
    {
      "epoch": 2.823656912834804,
      "grad_norm": 0.870343029499054,
      "learning_rate": 0.0005648807680396407,
      "loss": 2.6729,
      "step": 9120
    },
    {
      "epoch": 2.8267533673943337,
      "grad_norm": 0.9335671067237854,
      "learning_rate": 0.0005655001548467018,
      "loss": 2.6655,
      "step": 9130
    },
    {
      "epoch": 2.8298498219538626,
      "grad_norm": 0.9250266551971436,
      "learning_rate": 0.0005661195416537628,
      "loss": 2.6793,
      "step": 9140
    },
    {
      "epoch": 2.8329462765133924,
      "grad_norm": 0.8737602233886719,
      "learning_rate": 0.0005667389284608237,
      "loss": 2.6552,
      "step": 9150
    },
    {
      "epoch": 2.8360427310729213,
      "grad_norm": 0.9168223142623901,
      "learning_rate": 0.0005673583152678848,
      "loss": 2.6725,
      "step": 9160
    },
    {
      "epoch": 2.839139185632451,
      "grad_norm": 0.9240823984146118,
      "learning_rate": 0.0005679777020749458,
      "loss": 2.642,
      "step": 9170
    },
    {
      "epoch": 2.84223564019198,
      "grad_norm": 0.9061072468757629,
      "learning_rate": 0.0005685970888820068,
      "loss": 2.6746,
      "step": 9180
    },
    {
      "epoch": 2.8453320947515097,
      "grad_norm": 0.8670341968536377,
      "learning_rate": 0.0005692164756890679,
      "loss": 2.6693,
      "step": 9190
    },
    {
      "epoch": 2.8484285493110386,
      "grad_norm": 0.9250338673591614,
      "learning_rate": 0.0005698358624961289,
      "loss": 2.6755,
      "step": 9200
    },
    {
      "epoch": 2.8515250038705684,
      "grad_norm": 0.9369593262672424,
      "learning_rate": 0.0005704552493031898,
      "loss": 2.6794,
      "step": 9210
    },
    {
      "epoch": 2.8546214584300973,
      "grad_norm": 0.9392365217208862,
      "learning_rate": 0.0005710746361102509,
      "loss": 2.6644,
      "step": 9220
    },
    {
      "epoch": 2.857717912989627,
      "grad_norm": 0.9542964696884155,
      "learning_rate": 0.0005716940229173119,
      "loss": 2.6785,
      "step": 9230
    },
    {
      "epoch": 2.860814367549156,
      "grad_norm": 0.9194208979606628,
      "learning_rate": 0.0005723134097243729,
      "loss": 2.6743,
      "step": 9240
    },
    {
      "epoch": 2.8639108221086857,
      "grad_norm": 0.9285315275192261,
      "learning_rate": 0.000572932796531434,
      "loss": 2.6589,
      "step": 9250
    },
    {
      "epoch": 2.8670072766682146,
      "grad_norm": 0.9268024563789368,
      "learning_rate": 0.000573552183338495,
      "loss": 2.6552,
      "step": 9260
    },
    {
      "epoch": 2.8701037312277444,
      "grad_norm": 0.904656171798706,
      "learning_rate": 0.0005741715701455558,
      "loss": 2.6657,
      "step": 9270
    },
    {
      "epoch": 2.8732001857872733,
      "grad_norm": 0.9420167207717896,
      "learning_rate": 0.0005747909569526169,
      "loss": 2.6572,
      "step": 9280
    },
    {
      "epoch": 2.876296640346803,
      "grad_norm": 0.9118287563323975,
      "learning_rate": 0.0005754103437596779,
      "loss": 2.6629,
      "step": 9290
    },
    {
      "epoch": 2.879393094906332,
      "grad_norm": 0.940430223941803,
      "learning_rate": 0.0005760297305667389,
      "loss": 2.6518,
      "step": 9300
    },
    {
      "epoch": 2.8824895494658618,
      "grad_norm": 1.3163542747497559,
      "learning_rate": 0.0005766491173738,
      "loss": 2.652,
      "step": 9310
    },
    {
      "epoch": 2.8855860040253907,
      "grad_norm": 0.9466584324836731,
      "learning_rate": 0.0005772685041808609,
      "loss": 2.6809,
      "step": 9320
    },
    {
      "epoch": 2.8886824585849205,
      "grad_norm": 2.4098305702209473,
      "learning_rate": 0.0005778878909879219,
      "loss": 2.6616,
      "step": 9330
    },
    {
      "epoch": 2.8917789131444493,
      "grad_norm": 1.0643264055252075,
      "learning_rate": 0.000578507277794983,
      "loss": 2.6719,
      "step": 9340
    },
    {
      "epoch": 2.894875367703979,
      "grad_norm": 0.9846721887588501,
      "learning_rate": 0.000579126664602044,
      "loss": 2.6706,
      "step": 9350
    },
    {
      "epoch": 2.897971822263508,
      "grad_norm": 0.9832435250282288,
      "learning_rate": 0.000579746051409105,
      "loss": 2.6725,
      "step": 9360
    },
    {
      "epoch": 2.901068276823038,
      "grad_norm": 0.8981136083602905,
      "learning_rate": 0.000580365438216166,
      "loss": 2.6475,
      "step": 9370
    },
    {
      "epoch": 2.9041647313825667,
      "grad_norm": 0.8961195349693298,
      "learning_rate": 0.000580984825023227,
      "loss": 2.6705,
      "step": 9380
    },
    {
      "epoch": 2.9072611859420965,
      "grad_norm": 1.0543441772460938,
      "learning_rate": 0.000581604211830288,
      "loss": 2.6666,
      "step": 9390
    },
    {
      "epoch": 2.9103576405016254,
      "grad_norm": 0.9041043519973755,
      "learning_rate": 0.0005822235986373491,
      "loss": 2.6608,
      "step": 9400
    },
    {
      "epoch": 2.913454095061155,
      "grad_norm": 0.9475833773612976,
      "learning_rate": 0.0005828429854444101,
      "loss": 2.6453,
      "step": 9410
    },
    {
      "epoch": 2.916550549620684,
      "grad_norm": 0.9282538890838623,
      "learning_rate": 0.000583462372251471,
      "loss": 2.6531,
      "step": 9420
    },
    {
      "epoch": 2.919647004180214,
      "grad_norm": 0.936406672000885,
      "learning_rate": 0.0005840817590585321,
      "loss": 2.6594,
      "step": 9430
    },
    {
      "epoch": 2.9227434587397427,
      "grad_norm": 0.9766597747802734,
      "learning_rate": 0.0005847011458655931,
      "loss": 2.6698,
      "step": 9440
    },
    {
      "epoch": 2.9258399132992725,
      "grad_norm": 0.9606243968009949,
      "learning_rate": 0.0005853205326726541,
      "loss": 2.6819,
      "step": 9450
    },
    {
      "epoch": 2.9289363678588014,
      "grad_norm": 0.9478334784507751,
      "learning_rate": 0.0005859399194797152,
      "loss": 2.6589,
      "step": 9460
    },
    {
      "epoch": 2.932032822418331,
      "grad_norm": 0.9398000836372375,
      "learning_rate": 0.0005865593062867762,
      "loss": 2.6414,
      "step": 9470
    },
    {
      "epoch": 2.93512927697786,
      "grad_norm": 0.8788222074508667,
      "learning_rate": 0.000587178693093837,
      "loss": 2.6327,
      "step": 9480
    },
    {
      "epoch": 2.93822573153739,
      "grad_norm": 0.945261538028717,
      "learning_rate": 0.0005877980799008981,
      "loss": 2.6642,
      "step": 9490
    },
    {
      "epoch": 2.9413221860969188,
      "grad_norm": 0.9153859615325928,
      "learning_rate": 0.0005884174667079591,
      "loss": 2.6528,
      "step": 9500
    },
    {
      "epoch": 2.9444186406564485,
      "grad_norm": 1.6933245658874512,
      "learning_rate": 0.0005890368535150201,
      "loss": 2.6594,
      "step": 9510
    },
    {
      "epoch": 2.9475150952159774,
      "grad_norm": 1.0047813653945923,
      "learning_rate": 0.0005896562403220812,
      "loss": 2.6867,
      "step": 9520
    },
    {
      "epoch": 2.950611549775507,
      "grad_norm": 1.006410002708435,
      "learning_rate": 0.0005902756271291422,
      "loss": 2.6551,
      "step": 9530
    },
    {
      "epoch": 2.953708004335036,
      "grad_norm": 0.987974226474762,
      "learning_rate": 0.0005908950139362031,
      "loss": 2.6563,
      "step": 9540
    },
    {
      "epoch": 2.956804458894566,
      "grad_norm": 0.9611511826515198,
      "learning_rate": 0.0005915144007432642,
      "loss": 2.6677,
      "step": 9550
    },
    {
      "epoch": 2.959900913454095,
      "grad_norm": 0.9569249153137207,
      "learning_rate": 0.0005921337875503252,
      "loss": 2.6368,
      "step": 9560
    },
    {
      "epoch": 2.9629973680136246,
      "grad_norm": 0.909783124923706,
      "learning_rate": 0.0005927531743573862,
      "loss": 2.6353,
      "step": 9570
    },
    {
      "epoch": 2.966093822573154,
      "grad_norm": 0.9167472720146179,
      "learning_rate": 0.0005933725611644472,
      "loss": 2.6469,
      "step": 9580
    },
    {
      "epoch": 2.9691902771326832,
      "grad_norm": 0.9903345108032227,
      "learning_rate": 0.0005939919479715082,
      "loss": 2.6567,
      "step": 9590
    },
    {
      "epoch": 2.9722867316922126,
      "grad_norm": 0.9372828006744385,
      "learning_rate": 0.0005946113347785692,
      "loss": 2.6597,
      "step": 9600
    },
    {
      "epoch": 2.975383186251742,
      "grad_norm": 1.0080912113189697,
      "learning_rate": 0.0005952307215856302,
      "loss": 2.6425,
      "step": 9610
    },
    {
      "epoch": 2.9784796408112713,
      "grad_norm": 0.9167620539665222,
      "learning_rate": 0.0005958501083926913,
      "loss": 2.666,
      "step": 9620
    },
    {
      "epoch": 2.9815760953708006,
      "grad_norm": 0.9428613781929016,
      "learning_rate": 0.0005964694951997523,
      "loss": 2.6486,
      "step": 9630
    },
    {
      "epoch": 2.98467254993033,
      "grad_norm": 1.0144000053405762,
      "learning_rate": 0.0005970888820068132,
      "loss": 2.6382,
      "step": 9640
    },
    {
      "epoch": 2.9877690044898593,
      "grad_norm": 0.8944305777549744,
      "learning_rate": 0.0005977082688138743,
      "loss": 2.6406,
      "step": 9650
    },
    {
      "epoch": 2.9908654590493886,
      "grad_norm": 0.9113066792488098,
      "learning_rate": 0.0005983276556209353,
      "loss": 2.6514,
      "step": 9660
    },
    {
      "epoch": 2.993961913608918,
      "grad_norm": 0.9131670594215393,
      "learning_rate": 0.0005989470424279963,
      "loss": 2.6314,
      "step": 9670
    },
    {
      "epoch": 2.9970583681684473,
      "grad_norm": 0.9719523787498474,
      "learning_rate": 0.0005995664292350574,
      "loss": 2.6578,
      "step": 9680
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.8123937845230103,
      "learning_rate": 0.0006001858160421183,
      "loss": 2.5215,
      "step": 9690
    },
    {
      "epoch": 3.0030964545595293,
      "grad_norm": 1.055759310722351,
      "learning_rate": 0.0006008052028491792,
      "loss": 2.6481,
      "step": 9700
    },
    {
      "epoch": 3.0061929091190587,
      "grad_norm": 0.9894253611564636,
      "learning_rate": 0.0006014245896562403,
      "loss": 2.6389,
      "step": 9710
    },
    {
      "epoch": 3.009289363678588,
      "grad_norm": 0.9278469085693359,
      "learning_rate": 0.0006020439764633013,
      "loss": 2.6382,
      "step": 9720
    },
    {
      "epoch": 3.0123858182381174,
      "grad_norm": 0.9690927267074585,
      "learning_rate": 0.0006026633632703623,
      "loss": 2.6225,
      "step": 9730
    },
    {
      "epoch": 3.0154822727976467,
      "grad_norm": 0.8948525190353394,
      "learning_rate": 0.0006032827500774234,
      "loss": 2.6266,
      "step": 9740
    },
    {
      "epoch": 3.018578727357176,
      "grad_norm": 0.9562525749206543,
      "learning_rate": 0.0006039021368844843,
      "loss": 2.6251,
      "step": 9750
    },
    {
      "epoch": 3.0216751819167054,
      "grad_norm": 0.9463378190994263,
      "learning_rate": 0.0006045215236915453,
      "loss": 2.6405,
      "step": 9760
    },
    {
      "epoch": 3.0247716364762347,
      "grad_norm": 0.9799174070358276,
      "learning_rate": 0.0006051409104986064,
      "loss": 2.6381,
      "step": 9770
    },
    {
      "epoch": 3.027868091035764,
      "grad_norm": 0.9874619841575623,
      "learning_rate": 0.0006057602973056674,
      "loss": 2.6143,
      "step": 9780
    },
    {
      "epoch": 3.0309645455952934,
      "grad_norm": 1.083337426185608,
      "learning_rate": 0.0006063796841127284,
      "loss": 2.6153,
      "step": 9790
    },
    {
      "epoch": 3.0340610001548227,
      "grad_norm": 0.9509608745574951,
      "learning_rate": 0.0006069990709197895,
      "loss": 2.6379,
      "step": 9800
    },
    {
      "epoch": 3.037157454714352,
      "grad_norm": 0.9036940336227417,
      "learning_rate": 0.0006076184577268504,
      "loss": 2.6415,
      "step": 9810
    },
    {
      "epoch": 3.0402539092738814,
      "grad_norm": 0.9959449768066406,
      "learning_rate": 0.0006082378445339114,
      "loss": 2.6394,
      "step": 9820
    },
    {
      "epoch": 3.0433503638334107,
      "grad_norm": 0.9509766101837158,
      "learning_rate": 0.0006088572313409725,
      "loss": 2.6287,
      "step": 9830
    },
    {
      "epoch": 3.04644681839294,
      "grad_norm": 0.9667684435844421,
      "learning_rate": 0.0006094766181480335,
      "loss": 2.6518,
      "step": 9840
    },
    {
      "epoch": 3.0495432729524694,
      "grad_norm": 0.8897145986557007,
      "learning_rate": 0.0006100960049550945,
      "loss": 2.6333,
      "step": 9850
    },
    {
      "epoch": 3.0526397275119987,
      "grad_norm": 1.0284274816513062,
      "learning_rate": 0.0006107153917621555,
      "loss": 2.6348,
      "step": 9860
    },
    {
      "epoch": 3.055736182071528,
      "grad_norm": 0.9442754983901978,
      "learning_rate": 0.0006113347785692165,
      "loss": 2.6345,
      "step": 9870
    },
    {
      "epoch": 3.0588326366310574,
      "grad_norm": 0.9227479696273804,
      "learning_rate": 0.0006119541653762775,
      "loss": 2.6346,
      "step": 9880
    },
    {
      "epoch": 3.0619290911905868,
      "grad_norm": 0.9678612351417542,
      "learning_rate": 0.0006125735521833386,
      "loss": 2.6267,
      "step": 9890
    },
    {
      "epoch": 3.065025545750116,
      "grad_norm": 0.9622678160667419,
      "learning_rate": 0.0006131929389903995,
      "loss": 2.6205,
      "step": 9900
    },
    {
      "epoch": 3.0681220003096454,
      "grad_norm": 0.9785904288291931,
      "learning_rate": 0.0006138123257974604,
      "loss": 2.6316,
      "step": 9910
    },
    {
      "epoch": 3.0712184548691748,
      "grad_norm": 0.9019646644592285,
      "learning_rate": 0.0006144317126045215,
      "loss": 2.6322,
      "step": 9920
    },
    {
      "epoch": 3.074314909428704,
      "grad_norm": 0.9511599540710449,
      "learning_rate": 0.0006150510994115825,
      "loss": 2.6404,
      "step": 9930
    },
    {
      "epoch": 3.0774113639882335,
      "grad_norm": 1.1197845935821533,
      "learning_rate": 0.0006156704862186435,
      "loss": 2.6334,
      "step": 9940
    },
    {
      "epoch": 3.080507818547763,
      "grad_norm": 1.0321228504180908,
      "learning_rate": 0.0006162898730257046,
      "loss": 2.6578,
      "step": 9950
    },
    {
      "epoch": 3.083604273107292,
      "grad_norm": 0.933640718460083,
      "learning_rate": 0.0006169092598327656,
      "loss": 2.6498,
      "step": 9960
    },
    {
      "epoch": 3.0867007276668215,
      "grad_norm": 0.9308697581291199,
      "learning_rate": 0.0006175286466398265,
      "loss": 2.6403,
      "step": 9970
    },
    {
      "epoch": 3.089797182226351,
      "grad_norm": 1.0035881996154785,
      "learning_rate": 0.0006181480334468876,
      "loss": 2.6369,
      "step": 9980
    },
    {
      "epoch": 3.09289363678588,
      "grad_norm": 0.9733856916427612,
      "learning_rate": 0.0006187674202539486,
      "loss": 2.6434,
      "step": 9990
    },
    {
      "epoch": 3.0959900913454095,
      "grad_norm": 0.9512896537780762,
      "learning_rate": 0.0006193868070610096,
      "loss": 2.6433,
      "step": 10000
    },
    {
      "epoch": 3.099086545904939,
      "grad_norm": 1.1366065740585327,
      "learning_rate": 0.0006200061938680707,
      "loss": 2.6278,
      "step": 10010
    },
    {
      "epoch": 3.102183000464468,
      "grad_norm": 1.0089902877807617,
      "learning_rate": 0.0006206255806751317,
      "loss": 2.6198,
      "step": 10020
    },
    {
      "epoch": 3.1052794550239975,
      "grad_norm": 0.9710060358047485,
      "learning_rate": 0.0006212449674821926,
      "loss": 2.6299,
      "step": 10030
    },
    {
      "epoch": 3.108375909583527,
      "grad_norm": 1.0112597942352295,
      "learning_rate": 0.0006218643542892537,
      "loss": 2.629,
      "step": 10040
    },
    {
      "epoch": 3.111472364143056,
      "grad_norm": 0.8979578614234924,
      "learning_rate": 0.0006224837410963147,
      "loss": 2.6306,
      "step": 10050
    },
    {
      "epoch": 3.1145688187025855,
      "grad_norm": 0.985578715801239,
      "learning_rate": 0.0006231031279033757,
      "loss": 2.6214,
      "step": 10060
    },
    {
      "epoch": 3.117665273262115,
      "grad_norm": 1.0180467367172241,
      "learning_rate": 0.0006237225147104368,
      "loss": 2.6698,
      "step": 10070
    },
    {
      "epoch": 3.120761727821644,
      "grad_norm": 0.9561509490013123,
      "learning_rate": 0.0006243419015174977,
      "loss": 2.6295,
      "step": 10080
    },
    {
      "epoch": 3.1238581823811735,
      "grad_norm": 0.9035720229148865,
      "learning_rate": 0.0006249612883245587,
      "loss": 2.6356,
      "step": 10090
    },
    {
      "epoch": 3.126954636940703,
      "grad_norm": 0.9758944511413574,
      "learning_rate": 0.0006255806751316198,
      "loss": 2.6373,
      "step": 10100
    },
    {
      "epoch": 3.130051091500232,
      "grad_norm": 0.9201127290725708,
      "learning_rate": 0.0006262000619386807,
      "loss": 2.6354,
      "step": 10110
    },
    {
      "epoch": 3.1331475460597615,
      "grad_norm": 0.9586511850357056,
      "learning_rate": 0.0006268194487457417,
      "loss": 2.6286,
      "step": 10120
    },
    {
      "epoch": 3.136244000619291,
      "grad_norm": 1.3197758197784424,
      "learning_rate": 0.0006274388355528027,
      "loss": 2.6503,
      "step": 10130
    },
    {
      "epoch": 3.13934045517882,
      "grad_norm": 1.4489221572875977,
      "learning_rate": 0.0006280582223598637,
      "loss": 2.667,
      "step": 10140
    },
    {
      "epoch": 3.1424369097383495,
      "grad_norm": 1.1435356140136719,
      "learning_rate": 0.0006286776091669247,
      "loss": 2.6803,
      "step": 10150
    },
    {
      "epoch": 3.145533364297879,
      "grad_norm": 5.218364238739014,
      "learning_rate": 0.0006292969959739858,
      "loss": 2.7482,
      "step": 10160
    },
    {
      "epoch": 3.1486298188574082,
      "grad_norm": 1.0673755407333374,
      "learning_rate": 0.0006299163827810468,
      "loss": 2.6814,
      "step": 10170
    },
    {
      "epoch": 3.1517262734169376,
      "grad_norm": 0.9964536428451538,
      "learning_rate": 0.0006305357695881078,
      "loss": 2.6468,
      "step": 10180
    },
    {
      "epoch": 3.154822727976467,
      "grad_norm": 1.0818805694580078,
      "learning_rate": 0.0006311551563951688,
      "loss": 2.6687,
      "step": 10190
    },
    {
      "epoch": 3.1579191825359962,
      "grad_norm": 1.0229182243347168,
      "learning_rate": 0.0006317745432022298,
      "loss": 2.632,
      "step": 10200
    },
    {
      "epoch": 3.1610156370955256,
      "grad_norm": 0.9602491855621338,
      "learning_rate": 0.0006323939300092908,
      "loss": 2.6209,
      "step": 10210
    },
    {
      "epoch": 3.164112091655055,
      "grad_norm": 1.0441064834594727,
      "learning_rate": 0.0006330133168163518,
      "loss": 2.6421,
      "step": 10220
    },
    {
      "epoch": 3.1672085462145843,
      "grad_norm": 19.606216430664062,
      "learning_rate": 0.0006336327036234129,
      "loss": 2.6372,
      "step": 10230
    },
    {
      "epoch": 3.1703050007741136,
      "grad_norm": 1.115622878074646,
      "learning_rate": 0.0006342520904304738,
      "loss": 2.6775,
      "step": 10240
    },
    {
      "epoch": 3.173401455333643,
      "grad_norm": 1.1430797576904297,
      "learning_rate": 0.0006348714772375348,
      "loss": 2.6415,
      "step": 10250
    },
    {
      "epoch": 3.1764979098931723,
      "grad_norm": 7.035722255706787,
      "learning_rate": 0.0006354908640445959,
      "loss": 2.6995,
      "step": 10260
    },
    {
      "epoch": 3.1795943644527016,
      "grad_norm": 1.2375656366348267,
      "learning_rate": 0.0006361102508516569,
      "loss": 2.7278,
      "step": 10270
    },
    {
      "epoch": 3.182690819012231,
      "grad_norm": 1.0868054628372192,
      "learning_rate": 0.0006367296376587179,
      "loss": 2.6475,
      "step": 10280
    },
    {
      "epoch": 3.1857872735717603,
      "grad_norm": 1.0047295093536377,
      "learning_rate": 0.000637349024465779,
      "loss": 2.6195,
      "step": 10290
    },
    {
      "epoch": 3.1888837281312896,
      "grad_norm": 0.9876299500465393,
      "learning_rate": 0.0006379684112728399,
      "loss": 2.6392,
      "step": 10300
    },
    {
      "epoch": 3.191980182690819,
      "grad_norm": 1.021812081336975,
      "learning_rate": 0.0006385877980799008,
      "loss": 2.6468,
      "step": 10310
    },
    {
      "epoch": 3.1950766372503483,
      "grad_norm": 0.954329788684845,
      "learning_rate": 0.0006392071848869619,
      "loss": 2.6368,
      "step": 10320
    },
    {
      "epoch": 3.1981730918098776,
      "grad_norm": 0.9458587169647217,
      "learning_rate": 0.0006398265716940229,
      "loss": 2.6368,
      "step": 10330
    },
    {
      "epoch": 3.201269546369407,
      "grad_norm": 1.0526219606399536,
      "learning_rate": 0.0006404459585010839,
      "loss": 2.6389,
      "step": 10340
    },
    {
      "epoch": 3.2043660009289363,
      "grad_norm": 1.1330630779266357,
      "learning_rate": 0.0006410653453081449,
      "loss": 2.6666,
      "step": 10350
    },
    {
      "epoch": 3.2074624554884656,
      "grad_norm": 1.0522410869598389,
      "learning_rate": 0.0006416847321152059,
      "loss": 2.6405,
      "step": 10360
    },
    {
      "epoch": 3.210558910047995,
      "grad_norm": 0.973717451095581,
      "learning_rate": 0.0006423041189222669,
      "loss": 2.6198,
      "step": 10370
    },
    {
      "epoch": 3.2136553646075243,
      "grad_norm": 0.9188945889472961,
      "learning_rate": 0.000642923505729328,
      "loss": 2.6478,
      "step": 10380
    },
    {
      "epoch": 3.2167518191670537,
      "grad_norm": 0.9480977654457092,
      "learning_rate": 0.000643542892536389,
      "loss": 2.635,
      "step": 10390
    },
    {
      "epoch": 3.219848273726583,
      "grad_norm": 0.9224624633789062,
      "learning_rate": 0.0006441622793434499,
      "loss": 2.6362,
      "step": 10400
    },
    {
      "epoch": 3.2229447282861123,
      "grad_norm": 0.9448727965354919,
      "learning_rate": 0.000644781666150511,
      "loss": 2.6215,
      "step": 10410
    },
    {
      "epoch": 3.2260411828456417,
      "grad_norm": 0.9381209015846252,
      "learning_rate": 0.000645401052957572,
      "loss": 2.6305,
      "step": 10420
    },
    {
      "epoch": 3.229137637405171,
      "grad_norm": 1.0034310817718506,
      "learning_rate": 0.000646020439764633,
      "loss": 2.6344,
      "step": 10430
    },
    {
      "epoch": 3.2322340919647004,
      "grad_norm": 0.9512182474136353,
      "learning_rate": 0.0006466398265716941,
      "loss": 2.6397,
      "step": 10440
    },
    {
      "epoch": 3.2353305465242297,
      "grad_norm": 0.9563096761703491,
      "learning_rate": 0.0006472592133787551,
      "loss": 2.6354,
      "step": 10450
    },
    {
      "epoch": 3.238427001083759,
      "grad_norm": 1.0199220180511475,
      "learning_rate": 0.000647878600185816,
      "loss": 2.6379,
      "step": 10460
    },
    {
      "epoch": 3.2415234556432884,
      "grad_norm": 0.9473974108695984,
      "learning_rate": 0.0006484979869928771,
      "loss": 2.6262,
      "step": 10470
    },
    {
      "epoch": 3.2446199102028177,
      "grad_norm": 0.9869408011436462,
      "learning_rate": 0.0006491173737999381,
      "loss": 2.6495,
      "step": 10480
    },
    {
      "epoch": 3.247716364762347,
      "grad_norm": 0.9925758242607117,
      "learning_rate": 0.0006497367606069991,
      "loss": 2.631,
      "step": 10490
    },
    {
      "epoch": 3.2508128193218764,
      "grad_norm": 1.048644781112671,
      "learning_rate": 0.0006503561474140602,
      "loss": 2.6145,
      "step": 10500
    },
    {
      "epoch": 3.2539092738814057,
      "grad_norm": 0.9119939804077148,
      "learning_rate": 0.0006509755342211212,
      "loss": 2.6249,
      "step": 10510
    },
    {
      "epoch": 3.257005728440935,
      "grad_norm": 1.0462340116500854,
      "learning_rate": 0.000651594921028182,
      "loss": 2.6343,
      "step": 10520
    },
    {
      "epoch": 3.2601021830004644,
      "grad_norm": 0.9970148801803589,
      "learning_rate": 0.0006522143078352431,
      "loss": 2.6353,
      "step": 10530
    },
    {
      "epoch": 3.2631986375599937,
      "grad_norm": 0.9585279822349548,
      "learning_rate": 0.0006528336946423041,
      "loss": 2.6223,
      "step": 10540
    },
    {
      "epoch": 3.266295092119523,
      "grad_norm": 1.0489411354064941,
      "learning_rate": 0.0006534530814493651,
      "loss": 2.6246,
      "step": 10550
    },
    {
      "epoch": 3.2693915466790524,
      "grad_norm": 0.9942703247070312,
      "learning_rate": 0.0006540724682564262,
      "loss": 2.6163,
      "step": 10560
    },
    {
      "epoch": 3.2724880012385817,
      "grad_norm": 1.0939925909042358,
      "learning_rate": 0.0006546918550634871,
      "loss": 2.6485,
      "step": 10570
    },
    {
      "epoch": 3.275584455798111,
      "grad_norm": 0.9639611840248108,
      "learning_rate": 0.0006553112418705481,
      "loss": 2.6369,
      "step": 10580
    },
    {
      "epoch": 3.2786809103576404,
      "grad_norm": 1.003915786743164,
      "learning_rate": 0.0006559306286776092,
      "loss": 2.6324,
      "step": 10590
    },
    {
      "epoch": 3.2817773649171698,
      "grad_norm": 1.07323157787323,
      "learning_rate": 0.0006565500154846702,
      "loss": 2.6239,
      "step": 10600
    },
    {
      "epoch": 3.284873819476699,
      "grad_norm": 0.9782385230064392,
      "learning_rate": 0.0006571694022917312,
      "loss": 2.6276,
      "step": 10610
    },
    {
      "epoch": 3.2879702740362284,
      "grad_norm": 0.9947441816329956,
      "learning_rate": 0.0006577887890987922,
      "loss": 2.6258,
      "step": 10620
    },
    {
      "epoch": 3.2910667285957578,
      "grad_norm": 0.9401261806488037,
      "learning_rate": 0.0006584081759058532,
      "loss": 2.6054,
      "step": 10630
    },
    {
      "epoch": 3.294163183155287,
      "grad_norm": 0.9426921606063843,
      "learning_rate": 0.0006590275627129142,
      "loss": 2.634,
      "step": 10640
    },
    {
      "epoch": 3.2972596377148164,
      "grad_norm": 0.9457327127456665,
      "learning_rate": 0.0006596469495199753,
      "loss": 2.6319,
      "step": 10650
    },
    {
      "epoch": 3.300356092274346,
      "grad_norm": 1.1993708610534668,
      "learning_rate": 0.0006602663363270363,
      "loss": 2.6365,
      "step": 10660
    },
    {
      "epoch": 3.303452546833875,
      "grad_norm": 0.9889876842498779,
      "learning_rate": 0.0006608857231340973,
      "loss": 2.6503,
      "step": 10670
    },
    {
      "epoch": 3.3065490013934045,
      "grad_norm": 0.9788354635238647,
      "learning_rate": 0.0006615051099411583,
      "loss": 2.641,
      "step": 10680
    },
    {
      "epoch": 3.309645455952934,
      "grad_norm": 0.9262669682502747,
      "learning_rate": 0.0006621244967482193,
      "loss": 2.6473,
      "step": 10690
    },
    {
      "epoch": 3.312741910512463,
      "grad_norm": 0.9675087332725525,
      "learning_rate": 0.0006627438835552803,
      "loss": 2.6425,
      "step": 10700
    },
    {
      "epoch": 3.3158383650719925,
      "grad_norm": 0.9308109879493713,
      "learning_rate": 0.0006633632703623414,
      "loss": 2.6425,
      "step": 10710
    },
    {
      "epoch": 3.318934819631522,
      "grad_norm": 0.9837930202484131,
      "learning_rate": 0.0006639826571694024,
      "loss": 2.6309,
      "step": 10720
    },
    {
      "epoch": 3.322031274191051,
      "grad_norm": 0.9883390069007874,
      "learning_rate": 0.0006646020439764632,
      "loss": 2.5976,
      "step": 10730
    },
    {
      "epoch": 3.3251277287505805,
      "grad_norm": 0.9393827319145203,
      "learning_rate": 0.0006652214307835243,
      "loss": 2.6229,
      "step": 10740
    },
    {
      "epoch": 3.32822418331011,
      "grad_norm": 0.9329293370246887,
      "learning_rate": 0.0006658408175905853,
      "loss": 2.6102,
      "step": 10750
    },
    {
      "epoch": 3.331320637869639,
      "grad_norm": 0.8954689502716064,
      "learning_rate": 0.0006664602043976463,
      "loss": 2.6578,
      "step": 10760
    },
    {
      "epoch": 3.3344170924291685,
      "grad_norm": 0.92784583568573,
      "learning_rate": 0.0006670795912047074,
      "loss": 2.6127,
      "step": 10770
    },
    {
      "epoch": 3.337513546988698,
      "grad_norm": 0.9678082466125488,
      "learning_rate": 0.0006676989780117683,
      "loss": 2.6097,
      "step": 10780
    },
    {
      "epoch": 3.340610001548227,
      "grad_norm": 0.9594787955284119,
      "learning_rate": 0.0006683183648188293,
      "loss": 2.6068,
      "step": 10790
    },
    {
      "epoch": 3.3437064561077565,
      "grad_norm": 0.9914245009422302,
      "learning_rate": 0.0006689377516258904,
      "loss": 2.6173,
      "step": 10800
    },
    {
      "epoch": 3.346802910667286,
      "grad_norm": 0.9944581985473633,
      "learning_rate": 0.0006695571384329514,
      "loss": 2.6229,
      "step": 10810
    },
    {
      "epoch": 3.349899365226815,
      "grad_norm": 1.0383622646331787,
      "learning_rate": 0.0006701765252400124,
      "loss": 2.6341,
      "step": 10820
    },
    {
      "epoch": 3.3529958197863445,
      "grad_norm": 1.034728765487671,
      "learning_rate": 0.0006707959120470735,
      "loss": 2.637,
      "step": 10830
    },
    {
      "epoch": 3.356092274345874,
      "grad_norm": 1.0271577835083008,
      "learning_rate": 0.0006714152988541344,
      "loss": 2.6387,
      "step": 10840
    },
    {
      "epoch": 3.359188728905403,
      "grad_norm": 0.9783453345298767,
      "learning_rate": 0.0006720346856611954,
      "loss": 2.5978,
      "step": 10850
    },
    {
      "epoch": 3.3622851834649325,
      "grad_norm": 0.9792416095733643,
      "learning_rate": 0.0006726540724682565,
      "loss": 2.6349,
      "step": 10860
    },
    {
      "epoch": 3.365381638024462,
      "grad_norm": 0.9500912427902222,
      "learning_rate": 0.0006732734592753175,
      "loss": 2.6087,
      "step": 10870
    },
    {
      "epoch": 3.3684780925839912,
      "grad_norm": 0.9641538262367249,
      "learning_rate": 0.0006738928460823785,
      "loss": 2.613,
      "step": 10880
    },
    {
      "epoch": 3.3715745471435206,
      "grad_norm": 0.957671582698822,
      "learning_rate": 0.0006745122328894394,
      "loss": 2.6215,
      "step": 10890
    },
    {
      "epoch": 3.37467100170305,
      "grad_norm": 1.0475072860717773,
      "learning_rate": 0.0006751316196965005,
      "loss": 2.6092,
      "step": 10900
    },
    {
      "epoch": 3.3777674562625792,
      "grad_norm": 0.96811842918396,
      "learning_rate": 0.0006757510065035615,
      "loss": 2.6134,
      "step": 10910
    },
    {
      "epoch": 3.3808639108221086,
      "grad_norm": 1.0156564712524414,
      "learning_rate": 0.0006763703933106225,
      "loss": 2.6112,
      "step": 10920
    },
    {
      "epoch": 3.383960365381638,
      "grad_norm": 1.0434483289718628,
      "learning_rate": 0.0006769897801176836,
      "loss": 2.6183,
      "step": 10930
    },
    {
      "epoch": 3.3870568199411673,
      "grad_norm": 0.9763379096984863,
      "learning_rate": 0.0006776091669247445,
      "loss": 2.6063,
      "step": 10940
    },
    {
      "epoch": 3.3901532745006966,
      "grad_norm": 1.0185160636901855,
      "learning_rate": 0.0006782285537318054,
      "loss": 2.6491,
      "step": 10950
    },
    {
      "epoch": 3.393249729060226,
      "grad_norm": 0.9660173058509827,
      "learning_rate": 0.0006788479405388665,
      "loss": 2.6164,
      "step": 10960
    },
    {
      "epoch": 3.3963461836197553,
      "grad_norm": 0.9487093091011047,
      "learning_rate": 0.0006794673273459275,
      "loss": 2.614,
      "step": 10970
    },
    {
      "epoch": 3.3994426381792846,
      "grad_norm": 0.9912219643592834,
      "learning_rate": 0.0006800867141529885,
      "loss": 2.6369,
      "step": 10980
    },
    {
      "epoch": 3.402539092738814,
      "grad_norm": 0.9763176441192627,
      "learning_rate": 0.0006807061009600496,
      "loss": 2.6003,
      "step": 10990
    },
    {
      "epoch": 3.4056355472983433,
      "grad_norm": 1.007444977760315,
      "learning_rate": 0.0006813254877671105,
      "loss": 2.6294,
      "step": 11000
    }
  ],
  "logging_steps": 10,
  "max_steps": 161450,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3128782178793882e+18,
  "train_batch_size": 24,
  "trial_name": null,
  "trial_params": null
}