{
  "best_metric": 0.3242824375629425,
  "best_model_checkpoint": "/workspace/plateer_classifier_v0.1_result/checkpoint-110000",
  "epoch": 0.6441270979878347,
  "eval_steps": 55000,
  "global_step": 110000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0014640195241643742,
      "grad_norm": 50.05304718017578,
      "learning_rate": 4.880000000000001e-06,
      "loss": 4.3958,
      "step": 250
    },
    {
      "epoch": 0.0029280390483287485,
      "grad_norm": 48.363304138183594,
      "learning_rate": 9.88e-06,
      "loss": 1.6496,
      "step": 500
    },
    {
      "epoch": 0.004392058572493123,
      "grad_norm": 54.546974182128906,
      "learning_rate": 1.488e-05,
      "loss": 0.8787,
      "step": 750
    },
    {
      "epoch": 0.005856078096657497,
      "grad_norm": 50.317874908447266,
      "learning_rate": 1.9880000000000003e-05,
      "loss": 0.7721,
      "step": 1000
    },
    {
      "epoch": 0.007320097620821872,
      "grad_norm": 62.48823928833008,
      "learning_rate": 2.488e-05,
      "loss": 0.7047,
      "step": 1250
    },
    {
      "epoch": 0.008784117144986246,
      "grad_norm": 44.35001754760742,
      "learning_rate": 2.9880000000000002e-05,
      "loss": 0.6749,
      "step": 1500
    },
    {
      "epoch": 0.01024813666915062,
      "grad_norm": 36.486793518066406,
      "learning_rate": 3.4880000000000005e-05,
      "loss": 0.6409,
      "step": 1750
    },
    {
      "epoch": 0.011712156193314994,
      "grad_norm": 47.03588104248047,
      "learning_rate": 3.988e-05,
      "loss": 0.6406,
      "step": 2000
    },
    {
      "epoch": 0.013176175717479368,
      "grad_norm": 31.227832794189453,
      "learning_rate": 4.488e-05,
      "loss": 0.6149,
      "step": 2250
    },
    {
      "epoch": 0.014640195241643743,
      "grad_norm": 39.8408317565918,
      "learning_rate": 4.9880000000000004e-05,
      "loss": 0.5956,
      "step": 2500
    },
    {
      "epoch": 0.016104214765808117,
      "grad_norm": 41.118736267089844,
      "learning_rate": 5.4879999999999996e-05,
      "loss": 0.5905,
      "step": 2750
    },
    {
      "epoch": 0.017568234289972492,
      "grad_norm": 29.624338150024414,
      "learning_rate": 5.988e-05,
      "loss": 0.5608,
      "step": 3000
    },
    {
      "epoch": 0.019032253814136865,
      "grad_norm": 22.993818283081055,
      "learning_rate": 6.488e-05,
      "loss": 0.5614,
      "step": 3250
    },
    {
      "epoch": 0.02049627333830124,
      "grad_norm": 19.964269638061523,
      "learning_rate": 6.988e-05,
      "loss": 0.5569,
      "step": 3500
    },
    {
      "epoch": 0.021960292862465612,
      "grad_norm": 36.538047790527344,
      "learning_rate": 7.488e-05,
      "loss": 0.5316,
      "step": 3750
    },
    {
      "epoch": 0.023424312386629988,
      "grad_norm": 37.63505935668945,
      "learning_rate": 7.988e-05,
      "loss": 0.5364,
      "step": 4000
    },
    {
      "epoch": 0.024888331910794363,
      "grad_norm": 25.934967041015625,
      "learning_rate": 8.486000000000001e-05,
      "loss": 0.5234,
      "step": 4250
    },
    {
      "epoch": 0.026352351434958735,
      "grad_norm": 24.810028076171875,
      "learning_rate": 8.986e-05,
      "loss": 0.5155,
      "step": 4500
    },
    {
      "epoch": 0.02781637095912311,
      "grad_norm": 32.76811981201172,
      "learning_rate": 9.484e-05,
      "loss": 0.5022,
      "step": 4750
    },
    {
      "epoch": 0.029280390483287486,
      "grad_norm": 27.094772338867188,
      "learning_rate": 9.984e-05,
      "loss": 0.5023,
      "step": 5000
    },
    {
      "epoch": 0.029280390483287486,
      "eval_accuracy": 0.8572352668691132,
      "eval_loss": 0.5044249296188354,
      "eval_runtime": 11541.1431,
      "eval_samples_per_second": 210.432,
      "eval_steps_per_second": 6.576,
      "step": 5000
    },
    {
      "epoch": 0.03074441000745186,
      "grad_norm": 24.74563217163086,
      "learning_rate": 0.00010484,
      "loss": 0.5073,
      "step": 5250
    },
    {
      "epoch": 0.032208429531616234,
      "grad_norm": 17.229019165039062,
      "learning_rate": 0.00010984,
      "loss": 0.4932,
      "step": 5500
    },
    {
      "epoch": 0.03367244905578061,
      "grad_norm": 23.318979263305664,
      "learning_rate": 0.00011484000000000002,
      "loss": 0.504,
      "step": 5750
    },
    {
      "epoch": 0.035136468579944985,
      "grad_norm": 22.271846771240234,
      "learning_rate": 0.00011983999999999999,
      "loss": 0.4817,
      "step": 6000
    },
    {
      "epoch": 0.036600488104109354,
      "grad_norm": 24.304887771606445,
      "learning_rate": 0.00012484,
      "loss": 0.4966,
      "step": 6250
    },
    {
      "epoch": 0.03806450762827373,
      "grad_norm": 23.76158905029297,
      "learning_rate": 0.00012984000000000002,
      "loss": 0.4899,
      "step": 6500
    },
    {
      "epoch": 0.039528527152438105,
      "grad_norm": 20.765274047851562,
      "learning_rate": 0.00013484,
      "loss": 0.4773,
      "step": 6750
    },
    {
      "epoch": 0.04099254667660248,
      "grad_norm": 12.793950080871582,
      "learning_rate": 0.00013982000000000003,
      "loss": 0.4781,
      "step": 7000
    },
    {
      "epoch": 0.042456566200766856,
      "grad_norm": 14.128210067749023,
      "learning_rate": 0.00014482,
      "loss": 0.4687,
      "step": 7250
    },
    {
      "epoch": 0.043920585724931224,
      "grad_norm": 22.348928451538086,
      "learning_rate": 0.00014982,
      "loss": 0.4722,
      "step": 7500
    },
    {
      "epoch": 0.0453846052490956,
      "grad_norm": 17.29800796508789,
      "learning_rate": 0.00015480000000000002,
      "loss": 0.4692,
      "step": 7750
    },
    {
      "epoch": 0.046848624773259975,
      "grad_norm": 11.0147066116333,
      "learning_rate": 0.0001598,
      "loss": 0.4689,
      "step": 8000
    },
    {
      "epoch": 0.04831264429742435,
      "grad_norm": 11.713265419006348,
      "learning_rate": 0.0001648,
      "loss": 0.4788,
      "step": 8250
    },
    {
      "epoch": 0.049776663821588726,
      "grad_norm": 12.367693901062012,
      "learning_rate": 0.0001698,
      "loss": 0.4697,
      "step": 8500
    },
    {
      "epoch": 0.0512406833457531,
      "grad_norm": 8.11889934539795,
      "learning_rate": 0.00017480000000000002,
      "loss": 0.4696,
      "step": 8750
    },
    {
      "epoch": 0.05270470286991747,
      "grad_norm": 12.321019172668457,
      "learning_rate": 0.0001798,
      "loss": 0.461,
      "step": 9000
    },
    {
      "epoch": 0.054168722394081846,
      "grad_norm": 15.612183570861816,
      "learning_rate": 0.00018480000000000002,
      "loss": 0.4646,
      "step": 9250
    },
    {
      "epoch": 0.05563274191824622,
      "grad_norm": 10.72978687286377,
      "learning_rate": 0.0001898,
      "loss": 0.4673,
      "step": 9500
    },
    {
      "epoch": 0.0570967614424106,
      "grad_norm": 8.815441131591797,
      "learning_rate": 0.0001948,
      "loss": 0.4472,
      "step": 9750
    },
    {
      "epoch": 0.05856078096657497,
      "grad_norm": 8.681705474853516,
      "learning_rate": 0.0001998,
      "loss": 0.4629,
      "step": 10000
    },
    {
      "epoch": 0.05856078096657497,
      "eval_accuracy": 0.8688706572649133,
      "eval_loss": 0.457188218832016,
      "eval_runtime": 11537.8227,
      "eval_samples_per_second": 210.492,
      "eval_steps_per_second": 6.578,
      "step": 10000
    },
    {
      "epoch": 0.06002480049073934,
      "grad_norm": 13.643828392028809,
      "learning_rate": 0.0001997014219778306,
      "loss": 0.456,
      "step": 10250
    },
    {
      "epoch": 0.06148882001490372,
      "grad_norm": 13.211404800415039,
      "learning_rate": 0.00019939040320473745,
      "loss": 0.4666,
      "step": 10500
    },
    {
      "epoch": 0.06295283953906809,
      "grad_norm": 11.1001615524292,
      "learning_rate": 0.00019907938443164432,
      "loss": 0.4495,
      "step": 10750
    },
    {
      "epoch": 0.06441685906323247,
      "grad_norm": 8.222249984741211,
      "learning_rate": 0.00019876836565855117,
      "loss": 0.4483,
      "step": 11000
    },
    {
      "epoch": 0.06588087858739684,
      "grad_norm": 13.589752197265625,
      "learning_rate": 0.0001984585909605504,
      "loss": 0.4438,
      "step": 11250
    },
    {
      "epoch": 0.06734489811156122,
      "grad_norm": 9.988068580627441,
      "learning_rate": 0.00019814757218745724,
      "loss": 0.447,
      "step": 11500
    },
    {
      "epoch": 0.0688089176357256,
      "grad_norm": 8.311960220336914,
      "learning_rate": 0.0001978365534143641,
      "loss": 0.4476,
      "step": 11750
    },
    {
      "epoch": 0.07027293715988997,
      "grad_norm": 8.099685668945312,
      "learning_rate": 0.00019752553464127094,
      "loss": 0.4477,
      "step": 12000
    },
    {
      "epoch": 0.07173695668405435,
      "grad_norm": 8.23130989074707,
      "learning_rate": 0.00019721451586817782,
      "loss": 0.4385,
      "step": 12250
    },
    {
      "epoch": 0.07320097620821871,
      "grad_norm": 10.875362396240234,
      "learning_rate": 0.00019690349709508467,
      "loss": 0.4345,
      "step": 12500
    },
    {
      "epoch": 0.07466499573238308,
      "grad_norm": 9.479572296142578,
      "learning_rate": 0.00019659247832199152,
      "loss": 0.4345,
      "step": 12750
    },
    {
      "epoch": 0.07612901525654746,
      "grad_norm": 11.883151054382324,
      "learning_rate": 0.0001962814595488984,
      "loss": 0.4241,
      "step": 13000
    },
    {
      "epoch": 0.07759303478071183,
      "grad_norm": 8.15208911895752,
      "learning_rate": 0.00019597044077580524,
      "loss": 0.4335,
      "step": 13250
    },
    {
      "epoch": 0.07905705430487621,
      "grad_norm": 9.323240280151367,
      "learning_rate": 0.0001956594220027121,
      "loss": 0.4396,
      "step": 13500
    },
    {
      "epoch": 0.08052107382904058,
      "grad_norm": 7.250824928283691,
      "learning_rate": 0.00019534840322961897,
      "loss": 0.4376,
      "step": 13750
    },
    {
      "epoch": 0.08198509335320496,
      "grad_norm": 12.220071792602539,
      "learning_rate": 0.0001950373844565258,
      "loss": 0.4323,
      "step": 14000
    },
    {
      "epoch": 0.08344911287736934,
      "grad_norm": 8.460916519165039,
      "learning_rate": 0.00019472636568343266,
      "loss": 0.4271,
      "step": 14250
    },
    {
      "epoch": 0.08491313240153371,
      "grad_norm": 6.110500812530518,
      "learning_rate": 0.0001944153469103395,
      "loss": 0.4253,
      "step": 14500
    },
    {
      "epoch": 0.08637715192569809,
      "grad_norm": 10.618386268615723,
      "learning_rate": 0.00019410432813724636,
      "loss": 0.427,
      "step": 14750
    },
    {
      "epoch": 0.08784117144986245,
      "grad_norm": 9.827556610107422,
      "learning_rate": 0.00019379330936415324,
      "loss": 0.4254,
      "step": 15000
    },
    {
      "epoch": 0.08784117144986245,
      "eval_accuracy": 0.877075711565186,
      "eval_loss": 0.4201970100402832,
      "eval_runtime": 11537.2443,
      "eval_samples_per_second": 210.503,
      "eval_steps_per_second": 6.578,
      "step": 15000
    },
    {
      "epoch": 0.0892994385846771,
      "grad_norm": 10.84184455871582,
      "learning_rate": 0.00019349020046898423,
      "loss": 0.4211,
      "step": 15250
    },
    {
      "epoch": 0.09076336380737672,
      "grad_norm": 7.9568657875061035,
      "learning_rate": 0.00019317920297562402,
      "loss": 0.4203,
      "step": 15500
    },
    {
      "epoch": 0.09222728903007635,
      "grad_norm": 12.237702369689941,
      "learning_rate": 0.00019286820548226384,
      "loss": 0.4181,
      "step": 15750
    },
    {
      "epoch": 0.09369121425277596,
      "grad_norm": 25.739120483398438,
      "learning_rate": 0.00019255720798890363,
      "loss": 0.4143,
      "step": 16000
    },
    {
      "epoch": 0.09515513947547559,
      "grad_norm": 8.341870307922363,
      "learning_rate": 0.00019224621049554342,
      "loss": 0.4171,
      "step": 16250
    },
    {
      "epoch": 0.09661906469817522,
      "grad_norm": 10.707802772521973,
      "learning_rate": 0.0001919352130021832,
      "loss": 0.4058,
      "step": 16500
    },
    {
      "epoch": 0.09808298992087484,
      "grad_norm": 7.021149158477783,
      "learning_rate": 0.00019162421550882302,
      "loss": 0.4211,
      "step": 16750
    },
    {
      "epoch": 0.09954691514357447,
      "grad_norm": 11.840470314025879,
      "learning_rate": 0.0001913132180154628,
      "loss": 0.4093,
      "step": 17000
    },
    {
      "epoch": 0.10101084036627409,
      "grad_norm": 7.401727676391602,
      "learning_rate": 0.0001910022205221026,
      "loss": 0.4281,
      "step": 17250
    },
    {
      "epoch": 0.10247476558897371,
      "grad_norm": 7.601231575012207,
      "learning_rate": 0.00019069246701871584,
      "loss": 0.4044,
      "step": 17500
    },
    {
      "epoch": 0.10393869081167334,
      "grad_norm": 6.85632848739624,
      "learning_rate": 0.00019038146952535563,
      "loss": 0.4244,
      "step": 17750
    },
    {
      "epoch": 0.10540261603437297,
      "grad_norm": 10.810693740844727,
      "learning_rate": 0.00019007171602196887,
      "loss": 0.4216,
      "step": 18000
    },
    {
      "epoch": 0.1068665412570726,
      "grad_norm": 9.758743286132812,
      "learning_rate": 0.00018976071852860865,
      "loss": 0.417,
      "step": 18250
    },
    {
      "epoch": 0.10833046647977221,
      "grad_norm": 10.75692367553711,
      "learning_rate": 0.00018944972103524847,
      "loss": 0.4143,
      "step": 18500
    },
    {
      "epoch": 0.10979439170247184,
      "grad_norm": 10.375711441040039,
      "learning_rate": 0.00018913872354188826,
      "loss": 0.4075,
      "step": 18750
    },
    {
      "epoch": 0.11125831692517146,
      "grad_norm": 8.414403915405273,
      "learning_rate": 0.00018882772604852805,
      "loss": 0.4148,
      "step": 19000
    },
    {
      "epoch": 0.11272224214787109,
      "grad_norm": 9.86490249633789,
      "learning_rate": 0.00018851672855516786,
      "loss": 0.4074,
      "step": 19250
    },
    {
      "epoch": 0.11418616737057072,
      "grad_norm": 7.522060394287109,
      "learning_rate": 0.00018820573106180765,
      "loss": 0.4106,
      "step": 19500
    },
    {
      "epoch": 0.11565009259327033,
      "grad_norm": 7.423270225524902,
      "learning_rate": 0.00018789473356844744,
      "loss": 0.4034,
      "step": 19750
    },
    {
      "epoch": 0.11711401781596996,
      "grad_norm": 8.761688232421875,
      "learning_rate": 0.00018758373607508723,
      "loss": 0.4025,
      "step": 20000
    },
    {
      "epoch": 0.11711401781596996,
      "eval_accuracy": 0.8823756104911845,
      "eval_loss": 0.4016551673412323,
      "eval_runtime": 11547.1595,
      "eval_samples_per_second": 210.336,
      "eval_steps_per_second": 6.573,
      "step": 20000
    },
    {
      "epoch": 0.11857794303866959,
      "grad_norm": 9.6015043258667,
      "learning_rate": 0.0001872802025215677,
      "loss": 0.4087,
      "step": 20250
    },
    {
      "epoch": 0.12004186826136921,
      "grad_norm": 6.658656120300293,
      "learning_rate": 0.00018696920502820748,
      "loss": 0.408,
      "step": 20500
    },
    {
      "epoch": 0.12150579348406883,
      "grad_norm": 6.935655117034912,
      "learning_rate": 0.00018665820753484727,
      "loss": 0.3983,
      "step": 20750
    },
    {
      "epoch": 0.12296971870676845,
      "grad_norm": 7.918155193328857,
      "learning_rate": 0.00018634721004148706,
      "loss": 0.3994,
      "step": 21000
    },
    {
      "epoch": 0.12443364392946808,
      "grad_norm": 7.246758937835693,
      "learning_rate": 0.00018603621254812688,
      "loss": 0.4111,
      "step": 21250
    },
    {
      "epoch": 0.1258975691521677,
      "grad_norm": 8.375380516052246,
      "learning_rate": 0.00018572521505476667,
      "loss": 0.4006,
      "step": 21500
    },
    {
      "epoch": 0.12736149437486732,
      "grad_norm": 6.993825435638428,
      "learning_rate": 0.0001854154615513799,
      "loss": 0.4113,
      "step": 21750
    },
    {
      "epoch": 0.12882541959756696,
      "grad_norm": 8.703255653381348,
      "learning_rate": 0.00018510446405801972,
      "loss": 0.3977,
      "step": 22000
    },
    {
      "epoch": 0.13028934482026658,
      "grad_norm": 6.940033912658691,
      "learning_rate": 0.0001847934665646595,
      "loss": 0.4005,
      "step": 22250
    },
    {
      "epoch": 0.1317532700429662,
      "grad_norm": 6.712055683135986,
      "learning_rate": 0.0001844824690712993,
      "loss": 0.41,
      "step": 22500
    },
    {
      "epoch": 0.13321719526566583,
      "grad_norm": 6.171209812164307,
      "learning_rate": 0.0001841714715779391,
      "loss": 0.3971,
      "step": 22750
    },
    {
      "epoch": 0.13468112048836545,
      "grad_norm": 10.764921188354492,
      "learning_rate": 0.0001838604740845789,
      "loss": 0.4105,
      "step": 23000
    },
    {
      "epoch": 0.1361450457110651,
      "grad_norm": 8.0676908493042,
      "learning_rate": 0.0001835494765912187,
      "loss": 0.3958,
      "step": 23250
    },
    {
      "epoch": 0.1376089709337647,
      "grad_norm": 5.20599365234375,
      "learning_rate": 0.00018323847909785848,
      "loss": 0.3946,
      "step": 23500
    },
    {
      "epoch": 0.13907289615646432,
      "grad_norm": 5.9439239501953125,
      "learning_rate": 0.0001829274816044983,
      "loss": 0.3951,
      "step": 23750
    },
    {
      "epoch": 0.14053682137916396,
      "grad_norm": 9.821541786193848,
      "learning_rate": 0.0001826164841111381,
      "loss": 0.3906,
      "step": 24000
    },
    {
      "epoch": 0.14200074660186357,
      "grad_norm": 6.659691333770752,
      "learning_rate": 0.00018230673060775133,
      "loss": 0.4009,
      "step": 24250
    },
    {
      "epoch": 0.1434646718245632,
      "grad_norm": 6.624240398406982,
      "learning_rate": 0.00018199573311439112,
      "loss": 0.3975,
      "step": 24500
    },
    {
      "epoch": 0.14492859704726282,
      "grad_norm": 7.993641376495361,
      "learning_rate": 0.0001816847356210309,
      "loss": 0.3925,
      "step": 24750
    },
    {
      "epoch": 0.14639252226996244,
      "grad_norm": 6.6386613845825195,
      "learning_rate": 0.0001813737381276707,
      "loss": 0.3975,
      "step": 25000
    },
    {
      "epoch": 0.14785644749266208,
      "grad_norm": 9.204560279846191,
      "learning_rate": 0.0001810627406343105,
      "loss": 0.3997,
      "step": 25250
    },
    {
      "epoch": 0.1493203727153617,
      "grad_norm": 8.072566986083984,
      "learning_rate": 0.0001807517431409503,
      "loss": 0.4022,
      "step": 25500
    },
    {
      "epoch": 0.15078429793806133,
      "grad_norm": 10.15225601196289,
      "learning_rate": 0.0001804407456475901,
      "loss": 0.392,
      "step": 25750
    },
    {
      "epoch": 0.15224822316076095,
      "grad_norm": 7.751401901245117,
      "learning_rate": 0.0001801297481542299,
      "loss": 0.3946,
      "step": 26000
    },
    {
      "epoch": 0.15371214838346056,
      "grad_norm": 8.481501579284668,
      "learning_rate": 0.0001798187506608697,
      "loss": 0.3883,
      "step": 26250
    },
    {
      "epoch": 0.1551760736061602,
      "grad_norm": 9.861278533935547,
      "learning_rate": 0.00017950775316750948,
      "loss": 0.3824,
      "step": 26500
    },
    {
      "epoch": 0.15663999882885982,
      "grad_norm": 6.405235290527344,
      "learning_rate": 0.0001791967556741493,
      "loss": 0.4006,
      "step": 26750
    },
    {
      "epoch": 0.15810392405155946,
      "grad_norm": 9.90355110168457,
      "learning_rate": 0.00017888575818078909,
      "loss": 0.3881,
      "step": 27000
    },
    {
      "epoch": 0.15956784927425907,
      "grad_norm": 9.354215621948242,
      "learning_rate": 0.00017857476068742887,
      "loss": 0.3965,
      "step": 27250
    },
    {
      "epoch": 0.16103177449695869,
      "grad_norm": 9.162219047546387,
      "learning_rate": 0.00017826376319406866,
      "loss": 0.3933,
      "step": 27500
    },
    {
      "epoch": 0.16249569971965833,
      "grad_norm": 6.755202770233154,
      "learning_rate": 0.00017795276570070848,
      "loss": 0.3874,
      "step": 27750
    },
    {
      "epoch": 0.16395962494235794,
      "grad_norm": 8.385200500488281,
      "learning_rate": 0.00017764176820734827,
      "loss": 0.3873,
      "step": 28000
    },
    {
      "epoch": 0.16542355016505758,
      "grad_norm": 6.508645057678223,
      "learning_rate": 0.00017733077071398806,
      "loss": 0.3895,
      "step": 28250
    },
    {
      "epoch": 0.1668874753877572,
      "grad_norm": 8.241129875183105,
      "learning_rate": 0.00017702226120057472,
      "loss": 0.3912,
      "step": 28500
    },
    {
      "epoch": 0.1683514006104568,
      "grad_norm": 7.879597187042236,
      "learning_rate": 0.00017671126370721454,
      "loss": 0.3929,
      "step": 28750
    },
    {
      "epoch": 0.16981532583315645,
      "grad_norm": 12.0702486038208,
      "learning_rate": 0.00017640026621385432,
      "loss": 0.404,
      "step": 29000
    },
    {
      "epoch": 0.17127925105585606,
      "grad_norm": 8.789772033691406,
      "learning_rate": 0.0001760892687204941,
      "loss": 0.3823,
      "step": 29250
    },
    {
      "epoch": 0.1727431762785557,
      "grad_norm": 11.022305488586426,
      "learning_rate": 0.00017577827122713393,
      "loss": 0.3887,
      "step": 29500
    },
    {
      "epoch": 0.17420710150125532,
      "grad_norm": 7.665167331695557,
      "learning_rate": 0.00017546727373377372,
      "loss": 0.394,
      "step": 29750
    },
    {
      "epoch": 0.17567102672395493,
      "grad_norm": 11.05783748626709,
      "learning_rate": 0.0001751562762404135,
      "loss": 0.3938,
      "step": 30000
    },
    {
      "epoch": 0.17713495194665457,
      "grad_norm": 8.389631271362305,
      "learning_rate": 0.0001748452787470533,
      "loss": 0.39,
      "step": 30250
    },
    {
      "epoch": 0.1785988771693542,
      "grad_norm": 8.158947944641113,
      "learning_rate": 0.0001745342812536931,
      "loss": 0.3818,
      "step": 30500
    },
    {
      "epoch": 0.1800628023920538,
      "grad_norm": 7.684356689453125,
      "learning_rate": 0.0001742232837603329,
      "loss": 0.3905,
      "step": 30750
    },
    {
      "epoch": 0.18152672761475344,
      "grad_norm": 10.129668235778809,
      "learning_rate": 0.00017391353025694614,
      "loss": 0.3886,
      "step": 31000
    },
    {
      "epoch": 0.18299065283745305,
      "grad_norm": 6.924737453460693,
      "learning_rate": 0.00017360253276358593,
      "loss": 0.3892,
      "step": 31250
    },
    {
      "epoch": 0.1844545780601527,
      "grad_norm": 5.863354206085205,
      "learning_rate": 0.00017329153527022572,
      "loss": 0.3822,
      "step": 31500
    },
    {
      "epoch": 0.1859185032828523,
      "grad_norm": 9.10240650177002,
      "learning_rate": 0.00017298053777686553,
      "loss": 0.3895,
      "step": 31750
    },
    {
      "epoch": 0.18738242850555192,
      "grad_norm": 9.565494537353516,
      "learning_rate": 0.00017266954028350532,
      "loss": 0.383,
      "step": 32000
    },
    {
      "epoch": 0.18884635372825156,
      "grad_norm": 8.238012313842773,
      "learning_rate": 0.0001723585427901451,
      "loss": 0.3854,
      "step": 32250
    },
    {
      "epoch": 0.19031027895095118,
      "grad_norm": 9.350130081176758,
      "learning_rate": 0.0001720475452967849,
      "loss": 0.3922,
      "step": 32500
    },
    {
      "epoch": 0.19177420417365082,
      "grad_norm": 6.337550163269043,
      "learning_rate": 0.00017173654780342472,
      "loss": 0.3778,
      "step": 32750
    },
    {
      "epoch": 0.19323812939635043,
      "grad_norm": 8.421921730041504,
      "learning_rate": 0.00017142679430003793,
      "loss": 0.3929,
      "step": 33000
    },
    {
      "epoch": 0.19470205461905005,
      "grad_norm": 8.888238906860352,
      "learning_rate": 0.00017111579680667774,
      "loss": 0.3844,
      "step": 33250
    },
    {
      "epoch": 0.1961659798417497,
      "grad_norm": 10.774327278137207,
      "learning_rate": 0.00017080479931331753,
      "loss": 0.3804,
      "step": 33500
    },
    {
      "epoch": 0.1976299050644493,
      "grad_norm": 7.07879114151001,
      "learning_rate": 0.00017049380181995732,
      "loss": 0.3954,
      "step": 33750
    },
    {
      "epoch": 0.19909383028714894,
      "grad_norm": 7.102870941162109,
      "learning_rate": 0.00017018280432659714,
      "loss": 0.3815,
      "step": 34000
    },
    {
      "epoch": 0.20055775550984856,
      "grad_norm": 5.815110206604004,
      "learning_rate": 0.00016987180683323693,
      "loss": 0.3907,
      "step": 34250
    },
    {
      "epoch": 0.20202168073254817,
      "grad_norm": 7.749156475067139,
      "learning_rate": 0.00016956080933987672,
      "loss": 0.3798,
      "step": 34500
    },
    {
      "epoch": 0.2034856059552478,
      "grad_norm": 7.0530476570129395,
      "learning_rate": 0.0001692498118465165,
      "loss": 0.3947,
      "step": 34750
    },
    {
      "epoch": 0.20494953117794742,
      "grad_norm": 6.623088836669922,
      "learning_rate": 0.00016893881435315632,
      "loss": 0.3816,
      "step": 35000
    },
    {
      "epoch": 0.20641345640064707,
      "grad_norm": 8.431561470031738,
      "learning_rate": 0.0001686278168597961,
      "loss": 0.3815,
      "step": 35250
    },
    {
      "epoch": 0.20787738162334668,
      "grad_norm": 11.600255012512207,
      "learning_rate": 0.00016831806335640935,
      "loss": 0.3782,
      "step": 35500
    },
    {
      "epoch": 0.2093413068460463,
      "grad_norm": 5.186095237731934,
      "learning_rate": 0.00016800706586304914,
      "loss": 0.3828,
      "step": 35750
    },
    {
      "epoch": 0.21080523206874593,
      "grad_norm": 12.819711685180664,
      "learning_rate": 0.00016769606836968895,
      "loss": 0.3902,
      "step": 36000
    },
    {
      "epoch": 0.21226915729144555,
      "grad_norm": 7.843264579772949,
      "learning_rate": 0.00016738507087632874,
      "loss": 0.3716,
      "step": 36250
    },
    {
      "epoch": 0.2137330825141452,
      "grad_norm": 8.602349281311035,
      "learning_rate": 0.00016707407338296853,
      "loss": 0.3791,
      "step": 36500
    },
    {
      "epoch": 0.2151970077368448,
      "grad_norm": 7.939485549926758,
      "learning_rate": 0.00016676307588960832,
      "loss": 0.3752,
      "step": 36750
    },
    {
      "epoch": 0.21666093295954442,
      "grad_norm": 6.328729629516602,
      "learning_rate": 0.00016645207839624814,
      "loss": 0.3761,
      "step": 37000
    },
    {
      "epoch": 0.21812485818224406,
      "grad_norm": 6.196065902709961,
      "learning_rate": 0.00016614108090288793,
      "loss": 0.3817,
      "step": 37250
    },
    {
      "epoch": 0.21958878340494367,
      "grad_norm": 10.096115112304688,
      "learning_rate": 0.00016583008340952771,
      "loss": 0.3828,
      "step": 37500
    },
    {
      "epoch": 0.2210527086276433,
      "grad_norm": 6.120075702667236,
      "learning_rate": 0.0001655190859161675,
      "loss": 0.3774,
      "step": 37750
    },
    {
      "epoch": 0.22251663385034293,
      "grad_norm": 6.575611114501953,
      "learning_rate": 0.00016520808842280732,
      "loss": 0.3823,
      "step": 38000
    },
    {
      "epoch": 0.22398055907304254,
      "grad_norm": 7.636918067932129,
      "learning_rate": 0.0001648970909294471,
      "loss": 0.3846,
      "step": 38250
    },
    {
      "epoch": 0.22544448429574218,
      "grad_norm": 15.759072303771973,
      "learning_rate": 0.00016458733742606037,
      "loss": 0.3842,
      "step": 38500
    },
    {
      "epoch": 0.2269084095184418,
      "grad_norm": 10.398168563842773,
      "learning_rate": 0.0001642775839226736,
      "loss": 0.3794,
      "step": 38750
    },
    {
      "epoch": 0.22837233474114144,
      "grad_norm": 6.939914703369141,
      "learning_rate": 0.0001639665864293134,
      "loss": 0.3763,
      "step": 39000
    },
    {
      "epoch": 0.22983625996384105,
      "grad_norm": 11.021454811096191,
      "learning_rate": 0.0001636555889359532,
      "loss": 0.368,
      "step": 39250
    },
    {
      "epoch": 0.23130018518654066,
      "grad_norm": 7.381429195404053,
      "learning_rate": 0.00016334459144259298,
      "loss": 0.3783,
      "step": 39500
    },
    {
      "epoch": 0.2327641104092403,
      "grad_norm": 9.803789138793945,
      "learning_rate": 0.0001630335939492328,
      "loss": 0.3828,
      "step": 39750
    },
    {
      "epoch": 0.23422803563193992,
      "grad_norm": 7.722465991973877,
      "learning_rate": 0.00016272259645587259,
      "loss": 0.3764,
      "step": 40000
    },
    {
      "epoch": 0.23569196085463953,
      "grad_norm": 8.471487998962402,
      "learning_rate": 0.00016241159896251237,
      "loss": 0.3879,
      "step": 40250
    },
    {
      "epoch": 0.23715588607733917,
      "grad_norm": 9.46483039855957,
      "learning_rate": 0.00016210060146915216,
      "loss": 0.3772,
      "step": 40500
    },
    {
      "epoch": 0.2386198113000388,
      "grad_norm": 11.850425720214844,
      "learning_rate": 0.00016178960397579198,
      "loss": 0.3688,
      "step": 40750
    },
    {
      "epoch": 0.24008373652273843,
      "grad_norm": 7.718139171600342,
      "learning_rate": 0.00016147860648243177,
      "loss": 0.3728,
      "step": 41000
    },
    {
      "epoch": 0.24154766174543804,
      "grad_norm": 7.039102077484131,
      "learning_rate": 0.00016116760898907156,
      "loss": 0.3718,
      "step": 41250
    },
    {
      "epoch": 0.24301158696813766,
      "grad_norm": 6.891547679901123,
      "learning_rate": 0.00016085661149571137,
      "loss": 0.3713,
      "step": 41500
    },
    {
      "epoch": 0.2444755121908373,
      "grad_norm": 8.54554271697998,
      "learning_rate": 0.00016054561400235116,
      "loss": 0.3818,
      "step": 41750
    },
    {
      "epoch": 0.2459394374135369,
      "grad_norm": 6.554268836975098,
      "learning_rate": 0.00016023461650899095,
      "loss": 0.3706,
      "step": 42000
    },
    {
      "epoch": 0.24740336263623655,
      "grad_norm": 6.389885902404785,
      "learning_rate": 0.00015992361901563074,
      "loss": 0.3577,
      "step": 42250
    },
    {
      "epoch": 0.24886728785893616,
      "grad_norm": 6.833805561065674,
      "learning_rate": 0.00015961262152227056,
      "loss": 0.3722,
      "step": 42500
    },
    {
      "epoch": 0.2503312130816358,
      "grad_norm": 9.135841369628906,
      "learning_rate": 0.00015930162402891034,
      "loss": 0.3747,
      "step": 42750
    },
    {
      "epoch": 0.2517951383043354,
      "grad_norm": 7.466910362243652,
      "learning_rate": 0.00015899187052552358,
      "loss": 0.378,
      "step": 43000
    },
    {
      "epoch": 0.25325906352703503,
      "grad_norm": 14.597432136535645,
      "learning_rate": 0.00015868087303216337,
      "loss": 0.3743,
      "step": 43250
    },
    {
      "epoch": 0.25472298874973465,
      "grad_norm": 6.523279190063477,
      "learning_rate": 0.00015836987553880316,
      "loss": 0.3728,
      "step": 43500
    },
    {
      "epoch": 0.25618691397243426,
      "grad_norm": 5.352029800415039,
      "learning_rate": 0.00015805887804544298,
      "loss": 0.367,
      "step": 43750
    },
    {
      "epoch": 0.25765083919513393,
      "grad_norm": 8.408788681030273,
      "learning_rate": 0.00015774788055208277,
      "loss": 0.3694,
      "step": 44000
    },
    {
      "epoch": 0.25911476441783354,
      "grad_norm": 7.64408016204834,
      "learning_rate": 0.00015743688305872256,
      "loss": 0.3664,
      "step": 44250
    },
    {
      "epoch": 0.26057868964053316,
      "grad_norm": 4.888110637664795,
      "learning_rate": 0.00015712588556536234,
      "loss": 0.3637,
      "step": 44500
    },
    {
      "epoch": 0.26204261486323277,
      "grad_norm": 5.068843841552734,
      "learning_rate": 0.00015681488807200216,
      "loss": 0.369,
      "step": 44750
    },
    {
      "epoch": 0.2635065400859324,
      "grad_norm": 6.427637577056885,
      "learning_rate": 0.00015650389057864195,
      "loss": 0.3788,
      "step": 45000
    },
    {
      "epoch": 0.26497046530863205,
      "grad_norm": 8.00766658782959,
      "learning_rate": 0.00015619289308528174,
      "loss": 0.3638,
      "step": 45250
    },
    {
      "epoch": 0.26643439053133167,
      "grad_norm": 8.729680061340332,
      "learning_rate": 0.00015588189559192155,
      "loss": 0.3736,
      "step": 45500
    },
    {
      "epoch": 0.2678983157540313,
      "grad_norm": 10.317773818969727,
      "learning_rate": 0.00015557089809856134,
      "loss": 0.3618,
      "step": 45750
    },
    {
      "epoch": 0.2693622409767309,
      "grad_norm": 7.715869903564453,
      "learning_rate": 0.00015525990060520113,
      "loss": 0.3741,
      "step": 46000
    },
    {
      "epoch": 0.2708261661994305,
      "grad_norm": 5.711330890655518,
      "learning_rate": 0.00015494890311184092,
      "loss": 0.3745,
      "step": 46250
    },
    {
      "epoch": 0.2722900914221302,
      "grad_norm": 9.835432052612305,
      "learning_rate": 0.00015463790561848074,
      "loss": 0.3693,
      "step": 46500
    },
    {
      "epoch": 0.2737540166448298,
      "grad_norm": 6.019217014312744,
      "learning_rate": 0.00015432815211509395,
      "loss": 0.3674,
      "step": 46750
    },
    {
      "epoch": 0.2752179418675294,
      "grad_norm": 7.813283443450928,
      "learning_rate": 0.00015401715462173376,
      "loss": 0.3674,
      "step": 47000
    },
    {
      "epoch": 0.276681867090229,
      "grad_norm": 7.319979190826416,
      "learning_rate": 0.00015370615712837355,
      "loss": 0.3675,
      "step": 47250
    },
    {
      "epoch": 0.27814579231292863,
      "grad_norm": 8.74886703491211,
      "learning_rate": 0.00015339515963501334,
      "loss": 0.3633,
      "step": 47500
    },
    {
      "epoch": 0.2796097175356283,
      "grad_norm": 9.456360816955566,
      "learning_rate": 0.00015308416214165316,
      "loss": 0.379,
      "step": 47750
    },
    {
      "epoch": 0.2810736427583279,
      "grad_norm": 10.024221420288086,
      "learning_rate": 0.00015277316464829295,
      "loss": 0.375,
      "step": 48000
    },
    {
      "epoch": 0.2825375679810275,
      "grad_norm": 6.477073669433594,
      "learning_rate": 0.00015246216715493274,
      "loss": 0.3634,
      "step": 48250
    },
    {
      "epoch": 0.28400149320372714,
      "grad_norm": 8.587589263916016,
      "learning_rate": 0.00015215116966157255,
      "loss": 0.3693,
      "step": 48500
    },
    {
      "epoch": 0.28546541842642675,
      "grad_norm": 10.675822257995605,
      "learning_rate": 0.00015184017216821234,
      "loss": 0.3668,
      "step": 48750
    },
    {
      "epoch": 0.2869293436491264,
      "grad_norm": 10.77786636352539,
      "learning_rate": 0.00015153041866482558,
      "loss": 0.3711,
      "step": 49000
    },
    {
      "epoch": 0.28839326887182604,
      "grad_norm": 7.768797874450684,
      "learning_rate": 0.00015121942117146537,
      "loss": 0.3692,
      "step": 49250
    },
    {
      "epoch": 0.28985719409452565,
      "grad_norm": 6.11573600769043,
      "learning_rate": 0.00015090842367810516,
      "loss": 0.3618,
      "step": 49500
    },
    {
      "epoch": 0.29132111931722526,
      "grad_norm": 7.369346618652344,
      "learning_rate": 0.00015059742618474495,
      "loss": 0.365,
      "step": 49750
    },
    {
      "epoch": 0.2927850445399249,
      "grad_norm": 10.559876441955566,
      "learning_rate": 0.00015028642869138476,
      "loss": 0.369,
      "step": 50000
    },
    {
      "epoch": 0.29424896976262455,
      "grad_norm": 6.763681888580322,
      "learning_rate": 0.00014997543119802455,
      "loss": 0.3723,
      "step": 50250
    },
    {
      "epoch": 0.29571289498532416,
      "grad_norm": 14.075911521911621,
      "learning_rate": 0.00014966443370466434,
      "loss": 0.3656,
      "step": 50500
    },
    {
      "epoch": 0.2971768202080238,
      "grad_norm": 7.817617893218994,
      "learning_rate": 0.00014935343621130416,
      "loss": 0.3745,
      "step": 50750
    },
    {
      "epoch": 0.2986407454307234,
      "grad_norm": 5.018287181854248,
      "learning_rate": 0.00014904243871794395,
      "loss": 0.3664,
      "step": 51000
    },
    {
      "epoch": 0.300104670653423,
      "grad_norm": 9.846301078796387,
      "learning_rate": 0.00014873144122458373,
      "loss": 0.3644,
      "step": 51250
    },
    {
      "epoch": 0.30156859587612267,
      "grad_norm": 8.65786361694336,
      "learning_rate": 0.00014842044373122352,
      "loss": 0.3698,
      "step": 51500
    },
    {
      "epoch": 0.3030325210988223,
      "grad_norm": 6.303979873657227,
      "learning_rate": 0.00014810944623786334,
      "loss": 0.3707,
      "step": 51750
    },
    {
      "epoch": 0.3044964463215219,
      "grad_norm": 39.32520294189453,
      "learning_rate": 0.00014779844874450313,
      "loss": 0.3617,
      "step": 52000
    },
    {
      "epoch": 0.3059603715442215,
      "grad_norm": 6.535865306854248,
      "learning_rate": 0.00014748869524111637,
      "loss": 0.3642,
      "step": 52250
    },
    {
      "epoch": 0.3074242967669211,
      "grad_norm": 6.031300067901611,
      "learning_rate": 0.00014717769774775616,
      "loss": 0.363,
      "step": 52500
    },
    {
      "epoch": 0.3088882219896208,
      "grad_norm": 7.255093097686768,
      "learning_rate": 0.00014686670025439595,
      "loss": 0.3594,
      "step": 52750
    },
    {
      "epoch": 0.3103521472123204,
      "grad_norm": 7.491271018981934,
      "learning_rate": 0.00014655570276103576,
      "loss": 0.3697,
      "step": 53000
    },
    {
      "epoch": 0.31181607243502,
      "grad_norm": 8.154767036437988,
      "learning_rate": 0.00014624470526767555,
      "loss": 0.3667,
      "step": 53250
    },
    {
      "epoch": 0.31327999765771963,
      "grad_norm": 7.7836384773254395,
      "learning_rate": 0.00014593370777431534,
      "loss": 0.3756,
      "step": 53500
    },
    {
      "epoch": 0.31474392288041925,
      "grad_norm": 7.439420223236084,
      "learning_rate": 0.00014562271028095513,
      "loss": 0.3734,
      "step": 53750
    },
    {
      "epoch": 0.3162078481031189,
      "grad_norm": 7.654810428619385,
      "learning_rate": 0.00014531171278759494,
      "loss": 0.3689,
      "step": 54000
    },
    {
      "epoch": 0.31767177332581853,
      "grad_norm": 4.918389320373535,
      "learning_rate": 0.00014500195928420816,
      "loss": 0.3688,
      "step": 54250
    },
    {
      "epoch": 0.31913569854851814,
      "grad_norm": 6.2310895919799805,
      "learning_rate": 0.00014469096179084797,
      "loss": 0.3711,
      "step": 54500
    },
    {
      "epoch": 0.32059962377121776,
      "grad_norm": 7.458713054656982,
      "learning_rate": 0.00014437996429748776,
      "loss": 0.3614,
      "step": 54750
    },
    {
      "epoch": 0.32206354899391737,
      "grad_norm": 6.790125370025635,
      "learning_rate": 0.00014406896680412755,
      "loss": 0.3635,
      "step": 55000
    },
    {
      "epoch": 0.32206354899391737,
      "eval_accuracy": 0.8905084935576763,
      "eval_loss": 0.362331748008728,
      "eval_runtime": 11551.2138,
      "eval_samples_per_second": 210.262,
      "eval_steps_per_second": 6.571,
      "step": 55000
    },
    {
      "epoch": 0.32352747421661704,
      "grad_norm": 7.128218650817871,
      "learning_rate": 0.00014375796931076737,
      "loss": 0.357,
      "step": 55250
    },
    {
      "epoch": 0.32499139943931665,
      "grad_norm": 4.943136692047119,
      "learning_rate": 0.00014344697181740715,
      "loss": 0.3576,
      "step": 55500
    },
    {
      "epoch": 0.32645532466201627,
      "grad_norm": 7.633016109466553,
      "learning_rate": 0.00014313597432404694,
      "loss": 0.3655,
      "step": 55750
    },
    {
      "epoch": 0.3279192498847159,
      "grad_norm": 9.49149227142334,
      "learning_rate": 0.00014282497683068673,
      "loss": 0.3687,
      "step": 56000
    },
    {
      "epoch": 0.3293831751074155,
      "grad_norm": 7.4215521812438965,
      "learning_rate": 0.00014251397933732655,
      "loss": 0.3705,
      "step": 56250
    },
    {
      "epoch": 0.33084710033011516,
      "grad_norm": 5.638499736785889,
      "learning_rate": 0.00014220298184396634,
      "loss": 0.3709,
      "step": 56500
    },
    {
      "epoch": 0.3323110255528148,
      "grad_norm": 9.440450668334961,
      "learning_rate": 0.00014189198435060613,
      "loss": 0.35,
      "step": 56750
    },
    {
      "epoch": 0.3337749507755144,
      "grad_norm": 7.706991195678711,
      "learning_rate": 0.00014158098685724594,
      "loss": 0.3601,
      "step": 57000
    },
    {
      "epoch": 0.335238875998214,
      "grad_norm": 8.154605865478516,
      "learning_rate": 0.00014126998936388573,
      "loss": 0.3625,
      "step": 57250
    },
    {
      "epoch": 0.3367028012209136,
      "grad_norm": 7.608438491821289,
      "learning_rate": 0.00014095899187052552,
      "loss": 0.3588,
      "step": 57500
    },
    {
      "epoch": 0.3381667264436133,
      "grad_norm": 5.466573715209961,
      "learning_rate": 0.00014064799437716534,
      "loss": 0.3528,
      "step": 57750
    },
    {
      "epoch": 0.3396306516663129,
      "grad_norm": 7.514803409576416,
      "learning_rate": 0.00014033699688380512,
      "loss": 0.3624,
      "step": 58000
    },
    {
      "epoch": 0.3410945768890125,
      "grad_norm": 4.846391677856445,
      "learning_rate": 0.00014002599939044491,
      "loss": 0.3525,
      "step": 58250
    },
    {
      "epoch": 0.3425585021117121,
      "grad_norm": 6.116271018981934,
      "learning_rate": 0.0001397150018970847,
      "loss": 0.3556,
      "step": 58500
    },
    {
      "epoch": 0.34402242733441174,
      "grad_norm": 7.234938621520996,
      "learning_rate": 0.00013940400440372452,
      "loss": 0.3723,
      "step": 58750
    },
    {
      "epoch": 0.3454863525571114,
      "grad_norm": 8.690266609191895,
      "learning_rate": 0.0001390930069103643,
      "loss": 0.3671,
      "step": 59000
    },
    {
      "epoch": 0.346950277779811,
      "grad_norm": 5.558066368103027,
      "learning_rate": 0.0001387820094170041,
      "loss": 0.3563,
      "step": 59250
    },
    {
      "epoch": 0.34841420300251064,
      "grad_norm": 5.277857303619385,
      "learning_rate": 0.0001384710119236439,
      "loss": 0.3633,
      "step": 59500
    },
    {
      "epoch": 0.34987812822521025,
      "grad_norm": 4.810859680175781,
      "learning_rate": 0.00013816125842025712,
      "loss": 0.3615,
      "step": 59750
    },
    {
      "epoch": 0.35134205344790986,
      "grad_norm": 6.860721111297607,
      "learning_rate": 0.00013785026092689694,
      "loss": 0.3561,
      "step": 60000
    },
    {
      "epoch": 0.35280597867060953,
      "grad_norm": 6.673612117767334,
      "learning_rate": 0.00013753926343353673,
      "loss": 0.3513,
      "step": 60250
    },
    {
      "epoch": 0.35426990389330915,
      "grad_norm": 6.9296956062316895,
      "learning_rate": 0.00013722826594017652,
      "loss": 0.3563,
      "step": 60500
    },
    {
      "epoch": 0.35573382911600876,
      "grad_norm": 6.235531806945801,
      "learning_rate": 0.0001369172684468163,
      "loss": 0.3586,
      "step": 60750
    },
    {
      "epoch": 0.3571977543387084,
      "grad_norm": 6.549998760223389,
      "learning_rate": 0.00013660627095345612,
      "loss": 0.3572,
      "step": 61000
    },
    {
      "epoch": 0.358661679561408,
      "grad_norm": 6.800797939300537,
      "learning_rate": 0.0001362952734600959,
      "loss": 0.3687,
      "step": 61250
    },
    {
      "epoch": 0.3601256047841076,
      "grad_norm": 5.545276641845703,
      "learning_rate": 0.0001359842759667357,
      "loss": 0.3539,
      "step": 61500
    },
    {
      "epoch": 0.36158953000680727,
      "grad_norm": 8.63070011138916,
      "learning_rate": 0.00013567327847337552,
      "loss": 0.3605,
      "step": 61750
    },
    {
      "epoch": 0.3630534552295069,
      "grad_norm": 5.199543476104736,
      "learning_rate": 0.0001353622809800153,
      "loss": 0.3559,
      "step": 62000
    },
    {
      "epoch": 0.3645173804522065,
      "grad_norm": 27.297420501708984,
      "learning_rate": 0.0001350512834866551,
      "loss": 0.3676,
      "step": 62250
    },
    {
      "epoch": 0.3659813056749061,
      "grad_norm": 8.235854148864746,
      "learning_rate": 0.00013474152998326833,
      "loss": 0.3583,
      "step": 62500
    },
    {
      "epoch": 0.3674452308976057,
      "grad_norm": 6.224372386932373,
      "learning_rate": 0.00013443053248990812,
      "loss": 0.3623,
      "step": 62750
    },
    {
      "epoch": 0.3689091561203054,
      "grad_norm": 8.013957977294922,
      "learning_rate": 0.0001341195349965479,
      "loss": 0.3619,
      "step": 63000
    },
    {
      "epoch": 0.370373081343005,
      "grad_norm": 6.442314147949219,
      "learning_rate": 0.00013380853750318773,
      "loss": 0.3586,
      "step": 63250
    },
    {
      "epoch": 0.3718370065657046,
      "grad_norm": 6.883063793182373,
      "learning_rate": 0.00013349754000982752,
      "loss": 0.3635,
      "step": 63500
    },
    {
      "epoch": 0.37330093178840423,
      "grad_norm": 5.502562999725342,
      "learning_rate": 0.0001331865425164673,
      "loss": 0.3525,
      "step": 63750
    },
    {
      "epoch": 0.37476485701110385,
      "grad_norm": 6.841543197631836,
      "learning_rate": 0.00013287554502310712,
      "loss": 0.3564,
      "step": 64000
    },
    {
      "epoch": 0.3762287822338035,
      "grad_norm": 6.850903034210205,
      "learning_rate": 0.0001325645475297469,
      "loss": 0.3549,
      "step": 64250
    },
    {
      "epoch": 0.37769270745650313,
      "grad_norm": 5.823826313018799,
      "learning_rate": 0.00013225479402636015,
      "loss": 0.3488,
      "step": 64500
    },
    {
      "epoch": 0.37915663267920274,
      "grad_norm": 9.849250793457031,
      "learning_rate": 0.00013194379653299997,
      "loss": 0.3526,
      "step": 64750
    },
    {
      "epoch": 0.38062055790190236,
      "grad_norm": 7.8498992919921875,
      "learning_rate": 0.00013163279903963975,
      "loss": 0.3596,
      "step": 65000
    },
    {
      "epoch": 0.38208448312460197,
      "grad_norm": 7.845436096191406,
      "learning_rate": 0.00013132180154627954,
      "loss": 0.3497,
      "step": 65250
    },
    {
      "epoch": 0.38354840834730164,
      "grad_norm": 10.533845901489258,
      "learning_rate": 0.00013101080405291933,
      "loss": 0.3523,
      "step": 65500
    },
    {
      "epoch": 0.38501233357000125,
      "grad_norm": 9.09399127960205,
      "learning_rate": 0.00013069980655955912,
      "loss": 0.347,
      "step": 65750
    },
    {
      "epoch": 0.38647625879270087,
      "grad_norm": 7.205333232879639,
      "learning_rate": 0.00013038880906619894,
      "loss": 0.355,
      "step": 66000
    },
    {
      "epoch": 0.3879401840154005,
      "grad_norm": 6.770249843597412,
      "learning_rate": 0.00013007781157283873,
      "loss": 0.3549,
      "step": 66250
    },
    {
      "epoch": 0.3894041092381001,
      "grad_norm": 8.14482593536377,
      "learning_rate": 0.00012976681407947851,
      "loss": 0.3537,
      "step": 66500
    },
    {
      "epoch": 0.39086803446079976,
      "grad_norm": 5.998184680938721,
      "learning_rate": 0.0001294558165861183,
      "loss": 0.3562,
      "step": 66750
    },
    {
      "epoch": 0.3923319596834994,
      "grad_norm": 5.583696365356445,
      "learning_rate": 0.00012914481909275812,
      "loss": 0.3499,
      "step": 67000
    },
    {
      "epoch": 0.393795884906199,
      "grad_norm": 6.899207592010498,
      "learning_rate": 0.0001288338215993979,
      "loss": 0.3506,
      "step": 67250
    },
    {
      "epoch": 0.3952598101288986,
      "grad_norm": 6.205395221710205,
      "learning_rate": 0.0001285228241060377,
      "loss": 0.3512,
      "step": 67500
    },
    {
      "epoch": 0.3967237353515982,
      "grad_norm": 9.125551223754883,
      "learning_rate": 0.0001282118266126775,
      "loss": 0.3585,
      "step": 67750
    },
    {
      "epoch": 0.3981876605742979,
      "grad_norm": 6.943772792816162,
      "learning_rate": 0.0001279008291193173,
      "loss": 0.362,
      "step": 68000
    },
    {
      "epoch": 0.3996515857969975,
      "grad_norm": 6.106304168701172,
      "learning_rate": 0.0001275898316259571,
      "loss": 0.3545,
      "step": 68250
    },
    {
      "epoch": 0.4011155110196971,
      "grad_norm": 6.197811126708984,
      "learning_rate": 0.00012728007812257036,
      "loss": 0.3524,
      "step": 68500
    },
    {
      "epoch": 0.4025794362423967,
      "grad_norm": 8.07652759552002,
      "learning_rate": 0.00012696908062921015,
      "loss": 0.3467,
      "step": 68750
    },
    {
      "epoch": 0.40404336146509634,
      "grad_norm": 7.444363117218018,
      "learning_rate": 0.00012665808313584994,
      "loss": 0.3541,
      "step": 69000
    },
    {
      "epoch": 0.405507286687796,
      "grad_norm": 6.2395782470703125,
      "learning_rate": 0.00012634708564248972,
      "loss": 0.3488,
      "step": 69250
    },
    {
      "epoch": 0.4069712119104956,
      "grad_norm": 7.489956378936768,
      "learning_rate": 0.00012603608814912954,
      "loss": 0.3595,
      "step": 69500
    },
    {
      "epoch": 0.40843513713319524,
      "grad_norm": 6.762283802032471,
      "learning_rate": 0.00012572509065576933,
      "loss": 0.3555,
      "step": 69750
    },
    {
      "epoch": 0.40989906235589485,
      "grad_norm": 10.423229217529297,
      "learning_rate": 0.00012541409316240912,
      "loss": 0.3474,
      "step": 70000
    },
    {
      "epoch": 0.41136298757859446,
      "grad_norm": 7.812709331512451,
      "learning_rate": 0.0001251030956690489,
      "loss": 0.3588,
      "step": 70250
    },
    {
      "epoch": 0.41282691280129413,
      "grad_norm": 8.506246566772461,
      "learning_rate": 0.00012479334216566215,
      "loss": 0.3473,
      "step": 70500
    },
    {
      "epoch": 0.41429083802399375,
      "grad_norm": 6.0005784034729,
      "learning_rate": 0.00012448234467230196,
      "loss": 0.3423,
      "step": 70750
    },
    {
      "epoch": 0.41575476324669336,
      "grad_norm": 7.6112494468688965,
      "learning_rate": 0.00012417134717894175,
      "loss": 0.3469,
      "step": 71000
    },
    {
      "epoch": 0.417218688469393,
      "grad_norm": 6.460068225860596,
      "learning_rate": 0.00012386034968558154,
      "loss": 0.3514,
      "step": 71250
    },
    {
      "epoch": 0.4186826136920926,
      "grad_norm": 25.509037017822266,
      "learning_rate": 0.00012354935219222136,
      "loss": 0.3538,
      "step": 71500
    },
    {
      "epoch": 0.42014653891479226,
      "grad_norm": 5.778562068939209,
      "learning_rate": 0.00012323835469886114,
      "loss": 0.3409,
      "step": 71750
    },
    {
      "epoch": 0.42161046413749187,
      "grad_norm": 10.19543170928955,
      "learning_rate": 0.00012292735720550093,
      "loss": 0.3487,
      "step": 72000
    },
    {
      "epoch": 0.4230743893601915,
      "grad_norm": 7.6341633796691895,
      "learning_rate": 0.00012261635971214072,
      "loss": 0.3477,
      "step": 72250
    },
    {
      "epoch": 0.4245383145828911,
      "grad_norm": 5.656210422515869,
      "learning_rate": 0.00012230536221878054,
      "loss": 0.353,
      "step": 72500
    },
    {
      "epoch": 0.4260022398055907,
      "grad_norm": 7.81094217300415,
      "learning_rate": 0.00012199436472542031,
      "loss": 0.3589,
      "step": 72750
    },
    {
      "epoch": 0.4274661650282904,
      "grad_norm": 5.924116611480713,
      "learning_rate": 0.0001216833672320601,
      "loss": 0.346,
      "step": 73000
    },
    {
      "epoch": 0.42893009025099,
      "grad_norm": 6.293444633483887,
      "learning_rate": 0.00012137236973869992,
      "loss": 0.3496,
      "step": 73250
    },
    {
      "epoch": 0.4303940154736896,
      "grad_norm": 9.766921997070312,
      "learning_rate": 0.00012106137224533971,
      "loss": 0.347,
      "step": 73500
    },
    {
      "epoch": 0.4318579406963892,
      "grad_norm": 5.998900890350342,
      "learning_rate": 0.0001207503747519795,
      "loss": 0.3465,
      "step": 73750
    },
    {
      "epoch": 0.43332186591908883,
      "grad_norm": 8.364704132080078,
      "learning_rate": 0.00012043937725861929,
      "loss": 0.3429,
      "step": 74000
    },
    {
      "epoch": 0.4347857911417885,
      "grad_norm": 5.508989334106445,
      "learning_rate": 0.0001201283797652591,
      "loss": 0.355,
      "step": 74250
    },
    {
      "epoch": 0.4362497163644881,
      "grad_norm": 6.357595443725586,
      "learning_rate": 0.00011981738227189889,
      "loss": 0.3504,
      "step": 74500
    },
    {
      "epoch": 0.43771364158718773,
      "grad_norm": 8.691376686096191,
      "learning_rate": 0.00011950762876851213,
      "loss": 0.3471,
      "step": 74750
    },
    {
      "epoch": 0.43917756680988734,
      "grad_norm": 11.246256828308105,
      "learning_rate": 0.00011919663127515193,
      "loss": 0.3487,
      "step": 75000
    },
    {
      "epoch": 0.44064149203258696,
      "grad_norm": 6.3526811599731445,
      "learning_rate": 0.00011888563378179172,
      "loss": 0.3414,
      "step": 75250
    },
    {
      "epoch": 0.4421054172552866,
      "grad_norm": 9.6268310546875,
      "learning_rate": 0.00011857463628843152,
      "loss": 0.3457,
      "step": 75500
    },
    {
      "epoch": 0.44356934247798624,
      "grad_norm": 8.093045234680176,
      "learning_rate": 0.00011826363879507131,
      "loss": 0.3515,
      "step": 75750
    },
    {
      "epoch": 0.44503326770068585,
      "grad_norm": 7.497385025024414,
      "learning_rate": 0.00011795264130171111,
      "loss": 0.3361,
      "step": 76000
    },
    {
      "epoch": 0.44649719292338547,
      "grad_norm": 8.374622344970703,
      "learning_rate": 0.00011764164380835092,
      "loss": 0.3552,
      "step": 76250
    },
    {
      "epoch": 0.4479611181460851,
      "grad_norm": 8.583603858947754,
      "learning_rate": 0.0001173306463149907,
      "loss": 0.3395,
      "step": 76500
    },
    {
      "epoch": 0.44942504336878475,
      "grad_norm": 5.933279991149902,
      "learning_rate": 0.0001170196488216305,
      "loss": 0.3539,
      "step": 76750
    },
    {
      "epoch": 0.45088896859148436,
      "grad_norm": 7.1400556564331055,
      "learning_rate": 0.00011670989531824375,
      "loss": 0.3556,
      "step": 77000
    },
    {
      "epoch": 0.452352893814184,
      "grad_norm": 6.4177374839782715,
      "learning_rate": 0.00011639889782488354,
      "loss": 0.34,
      "step": 77250
    },
    {
      "epoch": 0.4538168190368836,
      "grad_norm": 8.248872756958008,
      "learning_rate": 0.00011608790033152333,
      "loss": 0.3454,
      "step": 77500
    },
    {
      "epoch": 0.4552807442595832,
      "grad_norm": 6.789691925048828,
      "learning_rate": 0.00011577690283816314,
      "loss": 0.3506,
      "step": 77750
    },
    {
      "epoch": 0.4567446694822829,
      "grad_norm": 7.519604206085205,
      "learning_rate": 0.00011546590534480293,
      "loss": 0.3438,
      "step": 78000
    },
    {
      "epoch": 0.4582085947049825,
      "grad_norm": 11.287620544433594,
      "learning_rate": 0.00011515490785144272,
      "loss": 0.3536,
      "step": 78250
    },
    {
      "epoch": 0.4596725199276821,
      "grad_norm": 5.6864914894104,
      "learning_rate": 0.00011484391035808254,
      "loss": 0.348,
      "step": 78500
    },
    {
      "epoch": 0.4611364451503817,
      "grad_norm": 7.405890941619873,
      "learning_rate": 0.00011453291286472232,
      "loss": 0.3395,
      "step": 78750
    },
    {
      "epoch": 0.4626003703730813,
      "grad_norm": 5.379487991333008,
      "learning_rate": 0.00011422315936133556,
      "loss": 0.3463,
      "step": 79000
    },
    {
      "epoch": 0.46406429559578094,
      "grad_norm": 7.769617080688477,
      "learning_rate": 0.00011391216186797535,
      "loss": 0.3458,
      "step": 79250
    },
    {
      "epoch": 0.4655282208184806,
      "grad_norm": 9.26171875,
      "learning_rate": 0.00011360116437461514,
      "loss": 0.3394,
      "step": 79500
    },
    {
      "epoch": 0.4669921460411802,
      "grad_norm": 9.037941932678223,
      "learning_rate": 0.00011329016688125493,
      "loss": 0.349,
      "step": 79750
    },
    {
      "epoch": 0.46845607126387984,
      "grad_norm": 8.776792526245117,
      "learning_rate": 0.00011297916938789475,
      "loss": 0.3384,
      "step": 80000
    },
    {
      "epoch": 0.46991999648657945,
      "grad_norm": 6.737313270568848,
      "learning_rate": 0.00011266817189453454,
      "loss": 0.3472,
      "step": 80250
    },
    {
      "epoch": 0.47138392170927906,
      "grad_norm": 7.2374114990234375,
      "learning_rate": 0.00011235717440117432,
      "loss": 0.3434,
      "step": 80500
    },
    {
      "epoch": 0.47284784693197873,
      "grad_norm": 6.939677715301514,
      "learning_rate": 0.00011204617690781414,
      "loss": 0.3451,
      "step": 80750
    },
    {
      "epoch": 0.47431177215467835,
      "grad_norm": 4.702803611755371,
      "learning_rate": 0.00011173517941445393,
      "loss": 0.3508,
      "step": 81000
    },
    {
      "epoch": 0.47577569737737796,
      "grad_norm": 7.359582901000977,
      "learning_rate": 0.00011142418192109372,
      "loss": 0.3415,
      "step": 81250
    },
    {
      "epoch": 0.4772396226000776,
      "grad_norm": 8.404651641845703,
      "learning_rate": 0.00011111442841770696,
      "loss": 0.3438,
      "step": 81500
    },
    {
      "epoch": 0.4787035478227772,
      "grad_norm": 6.176925182342529,
      "learning_rate": 0.00011080343092434675,
      "loss": 0.3484,
      "step": 81750
    },
    {
      "epoch": 0.48016747304547686,
      "grad_norm": 8.614276885986328,
      "learning_rate": 0.00011049243343098655,
      "loss": 0.3525,
      "step": 82000
    },
    {
      "epoch": 0.48163139826817647,
      "grad_norm": 5.756929874420166,
      "learning_rate": 0.00011018143593762635,
      "loss": 0.3432,
      "step": 82250
    },
    {
      "epoch": 0.4830953234908761,
      "grad_norm": 7.686267852783203,
      "learning_rate": 0.00010987043844426614,
      "loss": 0.3508,
      "step": 82500
    },
    {
      "epoch": 0.4845592487135757,
      "grad_norm": 6.590146541595459,
      "learning_rate": 0.00010955944095090593,
      "loss": 0.3357,
      "step": 82750
    },
    {
      "epoch": 0.4860231739362753,
      "grad_norm": 7.363981246948242,
      "learning_rate": 0.00010924968744751918,
      "loss": 0.3469,
      "step": 83000
    },
    {
      "epoch": 0.487487099158975,
      "grad_norm": 5.942411422729492,
      "learning_rate": 0.00010893868995415897,
      "loss": 0.3464,
      "step": 83250
    },
    {
      "epoch": 0.4889510243816746,
      "grad_norm": 8.531744003295898,
      "learning_rate": 0.00010862769246079879,
      "loss": 0.3349,
      "step": 83500
    },
    {
      "epoch": 0.4904149496043742,
      "grad_norm": 20.821125030517578,
      "learning_rate": 0.00010831669496743858,
      "loss": 0.3434,
      "step": 83750
    },
    {
      "epoch": 0.4918788748270738,
      "grad_norm": 9.569067001342773,
      "learning_rate": 0.00010800569747407836,
      "loss": 0.3421,
      "step": 84000
    },
    {
      "epoch": 0.49334280004977343,
      "grad_norm": 7.6851725578308105,
      "learning_rate": 0.00010769469998071815,
      "loss": 0.3407,
      "step": 84250
    },
    {
      "epoch": 0.4948067252724731,
      "grad_norm": 9.591890335083008,
      "learning_rate": 0.00010738370248735797,
      "loss": 0.347,
      "step": 84500
    },
    {
      "epoch": 0.4962706504951727,
      "grad_norm": 5.16259765625,
      "learning_rate": 0.00010707270499399776,
      "loss": 0.3383,
      "step": 84750
    },
    {
      "epoch": 0.49773457571787233,
      "grad_norm": 4.6993794441223145,
      "learning_rate": 0.00010676170750063755,
      "loss": 0.3392,
      "step": 85000
    },
    {
      "epoch": 0.49919850094057194,
      "grad_norm": 6.331507682800293,
      "learning_rate": 0.00010645071000727735,
      "loss": 0.351,
      "step": 85250
    },
    {
      "epoch": 0.5006624261632716,
      "grad_norm": 7.329137325286865,
      "learning_rate": 0.00010613971251391714,
      "loss": 0.3486,
      "step": 85500
    },
    {
      "epoch": 0.5021263513859712,
      "grad_norm": 6.907947540283203,
      "learning_rate": 0.00010582871502055694,
      "loss": 0.3443,
      "step": 85750
    },
    {
      "epoch": 0.5035902766086708,
      "grad_norm": 4.780885696411133,
      "learning_rate": 0.00010551771752719674,
      "loss": 0.3401,
      "step": 86000
    },
    {
      "epoch": 0.5050542018313705,
      "grad_norm": 9.042526245117188,
      "learning_rate": 0.00010520672003383653,
      "loss": 0.3402,
      "step": 86250
    },
    {
      "epoch": 0.5065181270540701,
      "grad_norm": 5.397533416748047,
      "learning_rate": 0.00010489572254047632,
      "loss": 0.3392,
      "step": 86500
    },
    {
      "epoch": 0.5079820522767697,
      "grad_norm": 7.72251033782959,
      "learning_rate": 0.00010458472504711612,
      "loss": 0.3337,
      "step": 86750
    },
    {
      "epoch": 0.5094459774994693,
      "grad_norm": 7.379674434661865,
      "learning_rate": 0.00010427497154372936,
      "loss": 0.3457,
      "step": 87000
    },
    {
      "epoch": 0.510909902722169,
      "grad_norm": 7.123027801513672,
      "learning_rate": 0.00010396397405036915,
      "loss": 0.3311,
      "step": 87250
    },
    {
      "epoch": 0.5123738279448685,
      "grad_norm": 6.388451099395752,
      "learning_rate": 0.00010365297655700897,
      "loss": 0.3386,
      "step": 87500
    },
    {
      "epoch": 0.5138377531675682,
      "grad_norm": 8.933717727661133,
      "learning_rate": 0.00010334197906364876,
      "loss": 0.3377,
      "step": 87750
    },
    {
      "epoch": 0.5153016783902679,
      "grad_norm": 5.813757419586182,
      "learning_rate": 0.000103032225560262,
      "loss": 0.3368,
      "step": 88000
    },
    {
      "epoch": 0.5167656036129674,
      "grad_norm": 10.707741737365723,
      "learning_rate": 0.00010272122806690178,
      "loss": 0.3429,
      "step": 88250
    },
    {
      "epoch": 0.5182295288356671,
      "grad_norm": 7.433245658874512,
      "learning_rate": 0.00010241023057354157,
      "loss": 0.3457,
      "step": 88500
    },
    {
      "epoch": 0.5196934540583666,
      "grad_norm": 6.408331394195557,
      "learning_rate": 0.00010209923308018139,
      "loss": 0.3409,
      "step": 88750
    },
    {
      "epoch": 0.5211573792810663,
      "grad_norm": 7.5843987464904785,
      "learning_rate": 0.00010178823558682118,
      "loss": 0.3347,
      "step": 89000
    },
    {
      "epoch": 0.522621304503766,
      "grad_norm": 9.049858093261719,
      "learning_rate": 0.00010147723809346097,
      "loss": 0.3392,
      "step": 89250
    },
    {
      "epoch": 0.5240852297264655,
      "grad_norm": 8.207107543945312,
      "learning_rate": 0.00010116624060010076,
      "loss": 0.334,
      "step": 89500
    },
    {
      "epoch": 0.5255491549491652,
      "grad_norm": 6.511790752410889,
      "learning_rate": 0.00010085648709671401,
      "loss": 0.3462,
      "step": 89750
    },
    {
      "epoch": 0.5270130801718648,
      "grad_norm": 5.541443824768066,
      "learning_rate": 0.0001005454896033538,
      "loss": 0.3318,
      "step": 90000
    },
    {
      "epoch": 0.5284770053945644,
      "grad_norm": 6.216821670532227,
      "learning_rate": 0.0001002344921099936,
      "loss": 0.338,
      "step": 90250
    },
    {
      "epoch": 0.5299409306172641,
      "grad_norm": 5.138360977172852,
      "learning_rate": 9.992349461663339e-05,
      "loss": 0.3457,
      "step": 90500
    },
    {
      "epoch": 0.5314048558399637,
      "grad_norm": 8.401073455810547,
      "learning_rate": 9.961249712327319e-05,
      "loss": 0.3523,
      "step": 90750
    },
    {
      "epoch": 0.5328687810626633,
      "grad_norm": 8.749157905578613,
      "learning_rate": 9.930149962991298e-05,
      "loss": 0.3391,
      "step": 91000
    },
    {
      "epoch": 0.5343327062853629,
      "grad_norm": 7.809004783630371,
      "learning_rate": 9.899050213655278e-05,
      "loss": 0.3422,
      "step": 91250
    },
    {
      "epoch": 0.5357966315080626,
      "grad_norm": 7.649618148803711,
      "learning_rate": 9.867950464319257e-05,
      "loss": 0.3512,
      "step": 91500
    },
    {
      "epoch": 0.5372605567307622,
      "grad_norm": 8.770468711853027,
      "learning_rate": 9.836850714983237e-05,
      "loss": 0.3367,
      "step": 91750
    },
    {
      "epoch": 0.5387244819534618,
      "grad_norm": 8.32112979888916,
      "learning_rate": 9.805750965647216e-05,
      "loss": 0.3384,
      "step": 92000
    },
    {
      "epoch": 0.5401884071761615,
      "grad_norm": 9.602888107299805,
      "learning_rate": 9.774651216311197e-05,
      "loss": 0.3344,
      "step": 92250
    },
    {
      "epoch": 0.541652332398861,
      "grad_norm": 3.2295093536376953,
      "learning_rate": 9.743551466975177e-05,
      "loss": 0.3314,
      "step": 92500
    },
    {
      "epoch": 0.5431162576215607,
      "grad_norm": 5.456012725830078,
      "learning_rate": 9.712451717639156e-05,
      "loss": 0.3313,
      "step": 92750
    },
    {
      "epoch": 0.5445801828442604,
      "grad_norm": 7.777164936065674,
      "learning_rate": 9.681351968303136e-05,
      "loss": 0.3417,
      "step": 93000
    },
    {
      "epoch": 0.5460441080669599,
      "grad_norm": 10.10175895690918,
      "learning_rate": 9.650252218967115e-05,
      "loss": 0.3357,
      "step": 93250
    },
    {
      "epoch": 0.5475080332896596,
      "grad_norm": 8.296233177185059,
      "learning_rate": 9.619152469631095e-05,
      "loss": 0.3368,
      "step": 93500
    },
    {
      "epoch": 0.5489719585123591,
      "grad_norm": 5.55683708190918,
      "learning_rate": 9.588052720295075e-05,
      "loss": 0.3338,
      "step": 93750
    },
    {
      "epoch": 0.5504358837350588,
      "grad_norm": 5.92700719833374,
      "learning_rate": 9.556952970959054e-05,
      "loss": 0.3431,
      "step": 94000
    },
    {
      "epoch": 0.5518998089577585,
      "grad_norm": 5.411899089813232,
      "learning_rate": 9.525853221623034e-05,
      "loss": 0.3393,
      "step": 94250
    },
    {
      "epoch": 0.553363734180458,
      "grad_norm": 6.517271995544434,
      "learning_rate": 9.494753472287013e-05,
      "loss": 0.3332,
      "step": 94500
    },
    {
      "epoch": 0.5548276594031577,
      "grad_norm": 9.099715232849121,
      "learning_rate": 9.463653722950994e-05,
      "loss": 0.3343,
      "step": 94750
    },
    {
      "epoch": 0.5562915846258573,
      "grad_norm": 4.845067501068115,
      "learning_rate": 9.432553973614972e-05,
      "loss": 0.3344,
      "step": 95000
    },
    {
      "epoch": 0.5577555098485569,
      "grad_norm": 8.56153392791748,
      "learning_rate": 9.401454224278953e-05,
      "loss": 0.33,
      "step": 95250
    },
    {
      "epoch": 0.5592194350712566,
      "grad_norm": 7.1542439460754395,
      "learning_rate": 9.370354474942933e-05,
      "loss": 0.3186,
      "step": 95500
    },
    {
      "epoch": 0.5606833602939562,
      "grad_norm": 7.00217342376709,
      "learning_rate": 9.339254725606912e-05,
      "loss": 0.335,
      "step": 95750
    },
    {
      "epoch": 0.5621472855166558,
      "grad_norm": 7.365664482116699,
      "learning_rate": 9.308279375268236e-05,
      "loss": 0.3303,
      "step": 96000
    },
    {
      "epoch": 0.5636112107393554,
      "grad_norm": 8.063042640686035,
      "learning_rate": 9.277179625932215e-05,
      "loss": 0.3441,
      "step": 96250
    },
    {
      "epoch": 0.565075135962055,
      "grad_norm": 5.403791904449463,
      "learning_rate": 9.246079876596195e-05,
      "loss": 0.3318,
      "step": 96500
    },
    {
      "epoch": 0.5665390611847547,
      "grad_norm": 5.911950588226318,
      "learning_rate": 9.215104526257519e-05,
      "loss": 0.3327,
      "step": 96750
    },
    {
      "epoch": 0.5680029864074543,
      "grad_norm": 5.484018802642822,
      "learning_rate": 9.184004776921499e-05,
      "loss": 0.3384,
      "step": 97000
    },
    {
      "epoch": 0.569466911630154,
      "grad_norm": 4.785627365112305,
      "learning_rate": 9.152905027585478e-05,
      "loss": 0.3437,
      "step": 97250
    },
    {
      "epoch": 0.5709308368528535,
      "grad_norm": 7.17230749130249,
      "learning_rate": 9.121805278249458e-05,
      "loss": 0.3331,
      "step": 97500
    },
    {
      "epoch": 0.5723947620755532,
      "grad_norm": 7.777104377746582,
      "learning_rate": 9.090705528913437e-05,
      "loss": 0.3371,
      "step": 97750
    },
    {
      "epoch": 0.5738586872982528,
      "grad_norm": 6.8572001457214355,
      "learning_rate": 9.059605779577417e-05,
      "loss": 0.3397,
      "step": 98000
    },
    {
      "epoch": 0.5753226125209524,
      "grad_norm": 9.132293701171875,
      "learning_rate": 9.028506030241398e-05,
      "loss": 0.3421,
      "step": 98250
    },
    {
      "epoch": 0.5767865377436521,
      "grad_norm": 7.351444244384766,
      "learning_rate": 8.997406280905376e-05,
      "loss": 0.3315,
      "step": 98500
    },
    {
      "epoch": 0.5782504629663516,
      "grad_norm": 5.444695949554443,
      "learning_rate": 8.966306531569357e-05,
      "loss": 0.3313,
      "step": 98750
    },
    {
      "epoch": 0.5797143881890513,
      "grad_norm": 6.229501724243164,
      "learning_rate": 8.935206782233336e-05,
      "loss": 0.3321,
      "step": 99000
    },
    {
      "epoch": 0.581178313411751,
      "grad_norm": 4.431236743927002,
      "learning_rate": 8.904107032897316e-05,
      "loss": 0.3326,
      "step": 99250
    },
    {
      "epoch": 0.5826422386344505,
      "grad_norm": 4.78348445892334,
      "learning_rate": 8.873007283561296e-05,
      "loss": 0.3362,
      "step": 99500
    },
    {
      "epoch": 0.5841061638571502,
      "grad_norm": 5.964051723480225,
      "learning_rate": 8.841907534225275e-05,
      "loss": 0.3408,
      "step": 99750
    },
    {
      "epoch": 0.5855700890798498,
      "grad_norm": 5.310559272766113,
      "learning_rate": 8.810807784889255e-05,
      "loss": 0.3328,
      "step": 100000
    },
    {
      "epoch": 0.5870340143025494,
      "grad_norm": 4.985818862915039,
      "learning_rate": 8.779708035553234e-05,
      "loss": 0.337,
      "step": 100250
    },
    {
      "epoch": 0.5884979395252491,
      "grad_norm": 4.851356506347656,
      "learning_rate": 8.748608286217213e-05,
      "loss": 0.3314,
      "step": 100500
    },
    {
      "epoch": 0.5899618647479486,
      "grad_norm": 6.863201141357422,
      "learning_rate": 8.717508536881193e-05,
      "loss": 0.3231,
      "step": 100750
    },
    {
      "epoch": 0.5914257899706483,
      "grad_norm": 6.387337684631348,
      "learning_rate": 8.686533186542517e-05,
      "loss": 0.322,
      "step": 101000
    },
    {
      "epoch": 0.5928897151933479,
      "grad_norm": 7.897363662719727,
      "learning_rate": 8.655433437206496e-05,
      "loss": 0.3361,
      "step": 101250
    },
    {
      "epoch": 0.5943536404160475,
      "grad_norm": 5.876019477844238,
      "learning_rate": 8.624333687870476e-05,
      "loss": 0.3211,
      "step": 101500
    },
    {
      "epoch": 0.5958175656387472,
      "grad_norm": 4.175768852233887,
      "learning_rate": 8.593233938534457e-05,
      "loss": 0.3317,
      "step": 101750
    },
    {
      "epoch": 0.5972814908614468,
      "grad_norm": 6.496226787567139,
      "learning_rate": 8.562134189198435e-05,
      "loss": 0.3289,
      "step": 102000
    },
    {
      "epoch": 0.5987454160841464,
      "grad_norm": 7.092103004455566,
      "learning_rate": 8.531034439862416e-05,
      "loss": 0.3329,
      "step": 102250
    },
    {
      "epoch": 0.600209341306846,
      "grad_norm": 7.335963726043701,
      "learning_rate": 8.499934690526395e-05,
      "loss": 0.3305,
      "step": 102500
    },
    {
      "epoch": 0.6016732665295457,
      "grad_norm": 6.620415687561035,
      "learning_rate": 8.468834941190375e-05,
      "loss": 0.3324,
      "step": 102750
    },
    {
      "epoch": 0.6031371917522453,
      "grad_norm": 6.866759777069092,
      "learning_rate": 8.437735191854355e-05,
      "loss": 0.3395,
      "step": 103000
    },
    {
      "epoch": 0.6046011169749449,
      "grad_norm": 7.7242045402526855,
      "learning_rate": 8.406759841515678e-05,
      "loss": 0.3368,
      "step": 103250
    },
    {
      "epoch": 0.6060650421976446,
      "grad_norm": 6.402958869934082,
      "learning_rate": 8.375660092179658e-05,
      "loss": 0.3366,
      "step": 103500
    },
    {
      "epoch": 0.6075289674203441,
      "grad_norm": 6.456150531768799,
      "learning_rate": 8.344560342843637e-05,
      "loss": 0.3372,
      "step": 103750
    },
    {
      "epoch": 0.6089928926430438,
      "grad_norm": 7.6825971603393555,
      "learning_rate": 8.313460593507617e-05,
      "loss": 0.3331,
      "step": 104000
    },
    {
      "epoch": 0.6104568178657435,
      "grad_norm": 11.974824905395508,
      "learning_rate": 8.282360844171596e-05,
      "loss": 0.3317,
      "step": 104250
    },
    {
      "epoch": 0.611920743088443,
      "grad_norm": 5.445409774780273,
      "learning_rate": 8.251261094835576e-05,
      "loss": 0.3303,
      "step": 104500
    },
    {
      "epoch": 0.6133846683111427,
      "grad_norm": 8.099034309387207,
      "learning_rate": 8.220161345499555e-05,
      "loss": 0.3317,
      "step": 104750
    },
    {
      "epoch": 0.6148485935338422,
      "grad_norm": 21.789043426513672,
      "learning_rate": 8.189061596163535e-05,
      "loss": 0.3146,
      "step": 105000
    },
    {
      "epoch": 0.6163125187565419,
      "grad_norm": 6.879361152648926,
      "learning_rate": 8.158086245824859e-05,
      "loss": 0.3346,
      "step": 105250
    },
    {
      "epoch": 0.6177764439792416,
      "grad_norm": 5.477085113525391,
      "learning_rate": 8.126986496488838e-05,
      "loss": 0.3274,
      "step": 105500
    },
    {
      "epoch": 0.6192403692019411,
      "grad_norm": 6.2816667556762695,
      "learning_rate": 8.095886747152818e-05,
      "loss": 0.3271,
      "step": 105750
    },
    {
      "epoch": 0.6207042944246408,
      "grad_norm": 9.089285850524902,
      "learning_rate": 8.064786997816797e-05,
      "loss": 0.3351,
      "step": 106000
    },
    {
      "epoch": 0.6221682196473404,
      "grad_norm": 6.114886283874512,
      "learning_rate": 8.033687248480777e-05,
      "loss": 0.3296,
      "step": 106250
    },
    {
      "epoch": 0.62363214487004,
      "grad_norm": 7.2542548179626465,
      "learning_rate": 8.002587499144756e-05,
      "loss": 0.3246,
      "step": 106500
    },
    {
      "epoch": 0.6250960700927397,
      "grad_norm": 5.58528995513916,
      "learning_rate": 7.971487749808737e-05,
      "loss": 0.3327,
      "step": 106750
    },
    {
      "epoch": 0.6265599953154393,
      "grad_norm": 3.898178815841675,
      "learning_rate": 7.940388000472715e-05,
      "loss": 0.3291,
      "step": 107000
    },
    {
      "epoch": 0.6280239205381389,
      "grad_norm": 5.644820690155029,
      "learning_rate": 7.909288251136696e-05,
      "loss": 0.3281,
      "step": 107250
    },
    {
      "epoch": 0.6294878457608385,
      "grad_norm": 6.363776206970215,
      "learning_rate": 7.878188501800676e-05,
      "loss": 0.3304,
      "step": 107500
    },
    {
      "epoch": 0.6309517709835382,
      "grad_norm": 5.209687232971191,
      "learning_rate": 7.847213151462e-05,
      "loss": 0.3224,
      "step": 107750
    },
    {
      "epoch": 0.6324156962062378,
      "grad_norm": 6.911553382873535,
      "learning_rate": 7.81611340212598e-05,
      "loss": 0.3246,
      "step": 108000
    },
    {
      "epoch": 0.6338796214289374,
      "grad_norm": 7.6557111740112305,
      "learning_rate": 7.785013652789959e-05,
      "loss": 0.322,
      "step": 108250
    },
    {
      "epoch": 0.6353435466516371,
      "grad_norm": 7.857481002807617,
      "learning_rate": 7.753913903453939e-05,
      "loss": 0.3318,
      "step": 108500
    },
    {
      "epoch": 0.6368074718743366,
      "grad_norm": 5.911120891571045,
      "learning_rate": 7.722814154117918e-05,
      "loss": 0.325,
      "step": 108750
    },
    {
      "epoch": 0.6382713970970363,
      "grad_norm": 8.592209815979004,
      "learning_rate": 7.691714404781898e-05,
      "loss": 0.3209,
      "step": 109000
    },
    {
      "epoch": 0.639735322319736,
      "grad_norm": 6.824602127075195,
      "learning_rate": 7.660614655445879e-05,
      "loss": 0.3331,
      "step": 109250
    },
    {
      "epoch": 0.6411992475424355,
      "grad_norm": 6.813981056213379,
      "learning_rate": 7.629514906109858e-05,
      "loss": 0.3313,
      "step": 109500
    },
    {
      "epoch": 0.6426631727651352,
      "grad_norm": 5.7169671058654785,
      "learning_rate": 7.598539555771181e-05,
      "loss": 0.3206,
      "step": 109750
    },
    {
      "epoch": 0.6441270979878347,
      "grad_norm": 5.429720401763916,
      "learning_rate": 7.56743980643516e-05,
      "loss": 0.3192,
      "step": 110000
    },
    {
      "epoch": 0.6441270979878347,
      "eval_accuracy": 0.8997983351325891,
      "eval_loss": 0.3242824375629425,
      "eval_runtime": 11546.6804,
      "eval_samples_per_second": 210.345,
      "eval_steps_per_second": 6.573,
      "step": 110000
    }
  ],
  "logging_steps": 250,
  "max_steps": 170773,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 55000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.8505890873482936e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}