{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 288,
  "global_step": 1152,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0008680555555555555,
      "grad_norm": 2.427870458632242e-05,
      "learning_rate": 2e-05,
      "loss": 11.5,
      "step": 1
    },
    {
      "epoch": 0.001736111111111111,
      "grad_norm": 3.497386205708608e-05,
      "learning_rate": 4e-05,
      "loss": 11.5,
      "step": 2
    },
    {
      "epoch": 0.0026041666666666665,
      "grad_norm": 2.935989869001787e-05,
      "learning_rate": 6e-05,
      "loss": 11.5,
      "step": 3
    },
    {
      "epoch": 0.003472222222222222,
      "grad_norm": 4.573616388370283e-05,
      "learning_rate": 8e-05,
      "loss": 11.5,
      "step": 4
    },
    {
      "epoch": 0.004340277777777778,
      "grad_norm": 4.788367368746549e-05,
      "learning_rate": 0.0001,
      "loss": 11.5,
      "step": 5
    },
    {
      "epoch": 0.005208333333333333,
      "grad_norm": 6.533489795401692e-05,
      "learning_rate": 0.00012,
      "loss": 11.5,
      "step": 6
    },
    {
      "epoch": 0.006076388888888889,
      "grad_norm": 6.926088099135086e-05,
      "learning_rate": 0.00014,
      "loss": 11.5,
      "step": 7
    },
    {
      "epoch": 0.006944444444444444,
      "grad_norm": 0.00011966958845732734,
      "learning_rate": 0.00016,
      "loss": 11.5,
      "step": 8
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 0.00010045518138213083,
      "learning_rate": 0.00018,
      "loss": 11.5,
      "step": 9
    },
    {
      "epoch": 0.008680555555555556,
      "grad_norm": 0.00010257917165290564,
      "learning_rate": 0.0002,
      "loss": 11.5,
      "step": 10
    },
    {
      "epoch": 0.009548611111111112,
      "grad_norm": 4.992749745724723e-05,
      "learning_rate": 0.00019999962161207577,
      "loss": 11.5,
      "step": 11
    },
    {
      "epoch": 0.010416666666666666,
      "grad_norm": 7.033575093373656e-05,
      "learning_rate": 0.00019999848645116654,
      "loss": 11.5,
      "step": 12
    },
    {
      "epoch": 0.011284722222222222,
      "grad_norm": 8.33756203064695e-05,
      "learning_rate": 0.000199996594525863,
      "loss": 11.5,
      "step": 13
    },
    {
      "epoch": 0.012152777777777778,
      "grad_norm": 6.4292129536625e-05,
      "learning_rate": 0.0001999939458504828,
      "loss": 11.5,
      "step": 14
    },
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 5.46809023944661e-05,
      "learning_rate": 0.00019999054044507038,
      "loss": 11.5,
      "step": 15
    },
    {
      "epoch": 0.013888888888888888,
      "grad_norm": 7.301427103811875e-05,
      "learning_rate": 0.00019998637833539714,
      "loss": 11.5,
      "step": 16
    },
    {
      "epoch": 0.014756944444444444,
      "grad_norm": 7.327750063268468e-05,
      "learning_rate": 0.00019998145955296083,
      "loss": 11.5,
      "step": 17
    },
    {
      "epoch": 0.015625,
      "grad_norm": 0.00012143632920924574,
      "learning_rate": 0.00019997578413498564,
      "loss": 11.5,
      "step": 18
    },
    {
      "epoch": 0.016493055555555556,
      "grad_norm": 5.18972119607497e-05,
      "learning_rate": 0.0001999693521244218,
      "loss": 11.5,
      "step": 19
    },
    {
      "epoch": 0.017361111111111112,
      "grad_norm": 3.0924900784157217e-05,
      "learning_rate": 0.00019996216356994517,
      "loss": 11.5,
      "step": 20
    },
    {
      "epoch": 0.018229166666666668,
      "grad_norm": 4.689383786171675e-05,
      "learning_rate": 0.000199954218525957,
      "loss": 11.5,
      "step": 21
    },
    {
      "epoch": 0.019097222222222224,
      "grad_norm": 5.5443822930101305e-05,
      "learning_rate": 0.00019994551705258343,
      "loss": 11.5,
      "step": 22
    },
    {
      "epoch": 0.019965277777777776,
      "grad_norm": 6.837772525614128e-05,
      "learning_rate": 0.0001999360592156752,
      "loss": 11.5,
      "step": 23
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 7.389568781945854e-05,
      "learning_rate": 0.00019992584508680684,
      "loss": 11.5,
      "step": 24
    },
    {
      "epoch": 0.021701388888888888,
      "grad_norm": 9.45330539252609e-05,
      "learning_rate": 0.00019991487474327647,
      "loss": 11.5,
      "step": 25
    },
    {
      "epoch": 0.022569444444444444,
      "grad_norm": 4.83942567370832e-05,
      "learning_rate": 0.000199903148268105,
      "loss": 11.5,
      "step": 26
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 0.00015577374142594635,
      "learning_rate": 0.0001998906657500355,
      "loss": 11.5,
      "step": 27
    },
    {
      "epoch": 0.024305555555555556,
      "grad_norm": 7.330025982810184e-05,
      "learning_rate": 0.00019987742728353274,
      "loss": 11.5,
      "step": 28
    },
    {
      "epoch": 0.025173611111111112,
      "grad_norm": 0.00011488924792502075,
      "learning_rate": 0.00019986343296878216,
      "loss": 11.5,
      "step": 29
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 5.5297106882790104e-05,
      "learning_rate": 0.0001998486829116894,
      "loss": 11.5,
      "step": 30
    },
    {
      "epoch": 0.026909722222222224,
      "grad_norm": 0.00012793952191714197,
      "learning_rate": 0.0001998331772238793,
      "loss": 11.5,
      "step": 31
    },
    {
      "epoch": 0.027777777777777776,
      "grad_norm": 0.0001589530729688704,
      "learning_rate": 0.0001998169160226952,
      "loss": 11.5,
      "step": 32
    },
    {
      "epoch": 0.028645833333333332,
      "grad_norm": 0.00014374652528204024,
      "learning_rate": 0.0001997998994311979,
      "loss": 11.5,
      "step": 33
    },
    {
      "epoch": 0.029513888888888888,
      "grad_norm": 0.00012715841876342893,
      "learning_rate": 0.00019978212757816493,
      "loss": 11.5,
      "step": 34
    },
    {
      "epoch": 0.030381944444444444,
      "grad_norm": 0.00013287339243106544,
      "learning_rate": 0.00019976360059808927,
      "loss": 11.5,
      "step": 35
    },
    {
      "epoch": 0.03125,
      "grad_norm": 7.946457481011748e-05,
      "learning_rate": 0.0001997443186311787,
      "loss": 11.5,
      "step": 36
    },
    {
      "epoch": 0.03211805555555555,
      "grad_norm": 0.00014009048754815012,
      "learning_rate": 0.0001997242818233545,
      "loss": 11.5,
      "step": 37
    },
    {
      "epoch": 0.03298611111111111,
      "grad_norm": 0.00014334720617625862,
      "learning_rate": 0.00019970349032625035,
      "loss": 11.5,
      "step": 38
    },
    {
      "epoch": 0.033854166666666664,
      "grad_norm": 9.399633563589305e-05,
      "learning_rate": 0.0001996819442972113,
      "loss": 11.5,
      "step": 39
    },
    {
      "epoch": 0.034722222222222224,
      "grad_norm": 6.12641524639912e-05,
      "learning_rate": 0.0001996596438992925,
      "loss": 11.5,
      "step": 40
    },
    {
      "epoch": 0.035590277777777776,
      "grad_norm": 7.096005720086396e-05,
      "learning_rate": 0.00019963658930125794,
      "loss": 11.5,
      "step": 41
    },
    {
      "epoch": 0.036458333333333336,
      "grad_norm": 0.0002994157839566469,
      "learning_rate": 0.0001996127806775793,
      "loss": 11.5,
      "step": 42
    },
    {
      "epoch": 0.03732638888888889,
      "grad_norm": 0.00024509691866114736,
      "learning_rate": 0.00019958821820843448,
      "loss": 11.5,
      "step": 43
    },
    {
      "epoch": 0.03819444444444445,
      "grad_norm": 0.00011552878277143463,
      "learning_rate": 0.0001995629020797063,
      "loss": 11.5,
      "step": 44
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 0.00014426576672121882,
      "learning_rate": 0.00019953683248298106,
      "loss": 11.5,
      "step": 45
    },
    {
      "epoch": 0.03993055555555555,
      "grad_norm": 0.0001652882929192856,
      "learning_rate": 0.00019951000961554728,
      "loss": 11.5,
      "step": 46
    },
    {
      "epoch": 0.04079861111111111,
      "grad_norm": 0.00023473978217225522,
      "learning_rate": 0.0001994824336803939,
      "loss": 11.5,
      "step": 47
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.00013228892930783331,
      "learning_rate": 0.0001994541048862089,
      "loss": 11.5,
      "step": 48
    },
    {
      "epoch": 0.042534722222222224,
      "grad_norm": 0.0002390023582847789,
      "learning_rate": 0.00019942502344737778,
      "loss": 11.5,
      "step": 49
    },
    {
      "epoch": 0.043402777777777776,
      "grad_norm": 0.0002644443011377007,
      "learning_rate": 0.00019939518958398184,
      "loss": 11.5,
      "step": 50
    },
    {
      "epoch": 0.044270833333333336,
      "grad_norm": 4.972580063622445e-05,
      "learning_rate": 0.00019936460352179655,
      "loss": 11.5,
      "step": 51
    },
    {
      "epoch": 0.04513888888888889,
      "grad_norm": 0.0002236717991763726,
      "learning_rate": 0.00019933326549228988,
      "loss": 11.5,
      "step": 52
    },
    {
      "epoch": 0.04600694444444445,
      "grad_norm": 0.0002864816633518785,
      "learning_rate": 0.0001993011757326204,
      "loss": 11.5,
      "step": 53
    },
    {
      "epoch": 0.046875,
      "grad_norm": 0.00012198855984024704,
      "learning_rate": 0.00019926833448563573,
      "loss": 11.5,
      "step": 54
    },
    {
      "epoch": 0.04774305555555555,
      "grad_norm": 0.00012318609515205026,
      "learning_rate": 0.00019923474199987044,
      "loss": 11.5,
      "step": 55
    },
    {
      "epoch": 0.04861111111111111,
      "grad_norm": 0.0001320939336437732,
      "learning_rate": 0.00019920039852954434,
      "loss": 11.5,
      "step": 56
    },
    {
      "epoch": 0.049479166666666664,
      "grad_norm": 0.00036120679578743875,
      "learning_rate": 0.00019916530433456063,
      "loss": 11.5,
      "step": 57
    },
    {
      "epoch": 0.050347222222222224,
      "grad_norm": 0.00010086256952490658,
      "learning_rate": 0.00019912945968050355,
      "loss": 11.5,
      "step": 58
    },
    {
      "epoch": 0.051215277777777776,
      "grad_norm": 9.1090019850526e-05,
      "learning_rate": 0.0001990928648386369,
      "loss": 11.5,
      "step": 59
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 0.00015504135808441788,
      "learning_rate": 0.00019905552008590155,
      "loss": 11.5,
      "step": 60
    },
    {
      "epoch": 0.05295138888888889,
      "grad_norm": 0.0004783876647707075,
      "learning_rate": 0.00019901742570491358,
      "loss": 11.5,
      "step": 61
    },
    {
      "epoch": 0.05381944444444445,
      "grad_norm": 0.00031347782351076603,
      "learning_rate": 0.00019897858198396207,
      "loss": 11.5,
      "step": 62
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 0.00028136075707152486,
      "learning_rate": 0.0001989389892170069,
      "loss": 11.5,
      "step": 63
    },
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 0.0003066314966417849,
      "learning_rate": 0.00019889864770367661,
      "loss": 11.5,
      "step": 64
    },
    {
      "epoch": 0.05642361111111111,
      "grad_norm": 0.00040058555896393955,
      "learning_rate": 0.000198857557749266,
      "loss": 11.5,
      "step": 65
    },
    {
      "epoch": 0.057291666666666664,
      "grad_norm": 0.0003001776640303433,
      "learning_rate": 0.00019881571966473392,
      "loss": 11.5,
      "step": 66
    },
    {
      "epoch": 0.058159722222222224,
      "grad_norm": 0.00034899197635240853,
      "learning_rate": 0.00019877313376670088,
      "loss": 11.5,
      "step": 67
    },
    {
      "epoch": 0.059027777777777776,
      "grad_norm": 0.00026452148449607193,
      "learning_rate": 0.0001987298003774467,
      "loss": 11.5,
      "step": 68
    },
    {
      "epoch": 0.059895833333333336,
      "grad_norm": 0.0005291689885780215,
      "learning_rate": 0.00019868571982490797,
      "loss": 11.5,
      "step": 69
    },
    {
      "epoch": 0.06076388888888889,
      "grad_norm": 0.0005170354852452874,
      "learning_rate": 0.0001986408924426757,
      "loss": 11.5,
      "step": 70
    },
    {
      "epoch": 0.06163194444444445,
      "grad_norm": 0.000302119180560112,
      "learning_rate": 0.00019859531856999268,
      "loss": 11.5,
      "step": 71
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.0005070717306807637,
      "learning_rate": 0.00019854899855175097,
      "loss": 11.5,
      "step": 72
    },
    {
      "epoch": 0.06336805555555555,
      "grad_norm": 0.00023283511109184474,
      "learning_rate": 0.00019850193273848927,
      "loss": 11.5,
      "step": 73
    },
    {
      "epoch": 0.0642361111111111,
      "grad_norm": 0.0005839483928866684,
      "learning_rate": 0.00019845412148639032,
      "loss": 11.5,
      "step": 74
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 0.0005219640443101525,
      "learning_rate": 0.0001984055651572781,
      "loss": 11.5,
      "step": 75
    },
    {
      "epoch": 0.06597222222222222,
      "grad_norm": 0.00013941807264927775,
      "learning_rate": 0.00019835626411861514,
      "loss": 11.5,
      "step": 76
    },
    {
      "epoch": 0.06684027777777778,
      "grad_norm": 0.0005494278157129884,
      "learning_rate": 0.0001983062187434999,
      "loss": 11.5,
      "step": 77
    },
    {
      "epoch": 0.06770833333333333,
      "grad_norm": 0.0006378053803928196,
      "learning_rate": 0.0001982554294106636,
      "loss": 11.5,
      "step": 78
    },
    {
      "epoch": 0.0685763888888889,
      "grad_norm": 0.00021359189122449607,
      "learning_rate": 0.00019820389650446768,
      "loss": 11.5,
      "step": 79
    },
    {
      "epoch": 0.06944444444444445,
      "grad_norm": 0.0003283385594841093,
      "learning_rate": 0.00019815162041490075,
      "loss": 11.5,
      "step": 80
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 0.00034120382042601705,
      "learning_rate": 0.0001980986015375756,
      "loss": 11.5,
      "step": 81
    },
    {
      "epoch": 0.07118055555555555,
      "grad_norm": 0.0003738080558832735,
      "learning_rate": 0.0001980448402737263,
      "loss": 11.5,
      "step": 82
    },
    {
      "epoch": 0.0720486111111111,
      "grad_norm": 0.000582347740419209,
      "learning_rate": 0.00019799033703020512,
      "loss": 11.5,
      "step": 83
    },
    {
      "epoch": 0.07291666666666667,
      "grad_norm": 0.0003914512344636023,
      "learning_rate": 0.00019793509221947936,
      "loss": 11.5,
      "step": 84
    },
    {
      "epoch": 0.07378472222222222,
      "grad_norm": 0.00043169799027964473,
      "learning_rate": 0.00019787910625962854,
      "loss": 11.5,
      "step": 85
    },
    {
      "epoch": 0.07465277777777778,
      "grad_norm": 0.0007617941591888666,
      "learning_rate": 0.0001978223795743408,
      "loss": 11.5,
      "step": 86
    },
    {
      "epoch": 0.07552083333333333,
      "grad_norm": 0.00035883754026144743,
      "learning_rate": 0.00019776491259291,
      "loss": 11.5,
      "step": 87
    },
    {
      "epoch": 0.0763888888888889,
      "grad_norm": 0.0004590997123159468,
      "learning_rate": 0.00019770670575023242,
      "loss": 11.5,
      "step": 88
    },
    {
      "epoch": 0.07725694444444445,
      "grad_norm": 0.0007251990609802306,
      "learning_rate": 0.00019764775948680332,
      "loss": 11.5,
      "step": 89
    },
    {
      "epoch": 0.078125,
      "grad_norm": 0.0010491227731108665,
      "learning_rate": 0.00019758807424871385,
      "loss": 11.5,
      "step": 90
    },
    {
      "epoch": 0.07899305555555555,
      "grad_norm": 0.0009588096872903407,
      "learning_rate": 0.0001975276504876474,
      "loss": 11.5,
      "step": 91
    },
    {
      "epoch": 0.0798611111111111,
      "grad_norm": 0.00040703508420847356,
      "learning_rate": 0.0001974664886608765,
      "loss": 11.5,
      "step": 92
    },
    {
      "epoch": 0.08072916666666667,
      "grad_norm": 0.0005052539054304361,
      "learning_rate": 0.000197404589231259,
      "loss": 11.5,
      "step": 93
    },
    {
      "epoch": 0.08159722222222222,
      "grad_norm": 0.0006149113178253174,
      "learning_rate": 0.0001973419526672349,
      "loss": 11.5,
      "step": 94
    },
    {
      "epoch": 0.08246527777777778,
      "grad_norm": 0.001491577597334981,
      "learning_rate": 0.00019727857944282253,
      "loss": 11.5,
      "step": 95
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.00033181667095050216,
      "learning_rate": 0.00019721447003761517,
      "loss": 11.5,
      "step": 96
    },
    {
      "epoch": 0.0842013888888889,
      "grad_norm": 0.0002968813350889832,
      "learning_rate": 0.00019714962493677733,
      "loss": 11.5,
      "step": 97
    },
    {
      "epoch": 0.08506944444444445,
      "grad_norm": 0.0007643349817954004,
      "learning_rate": 0.00019708404463104104,
      "loss": 11.5,
      "step": 98
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 0.0007923843804746866,
      "learning_rate": 0.00019701772961670225,
      "loss": 11.5,
      "step": 99
    },
    {
      "epoch": 0.08680555555555555,
      "grad_norm": 0.0019595958292484283,
      "learning_rate": 0.00019695068039561695,
      "loss": 11.5,
      "step": 100
    },
    {
      "epoch": 0.0876736111111111,
      "grad_norm": 0.000711524800863117,
      "learning_rate": 0.00019688289747519746,
      "loss": 11.5,
      "step": 101
    },
    {
      "epoch": 0.08854166666666667,
      "grad_norm": 0.00104917970020324,
      "learning_rate": 0.00019681438136840852,
      "loss": 11.5,
      "step": 102
    },
    {
      "epoch": 0.08940972222222222,
      "grad_norm": 0.0004291789955459535,
      "learning_rate": 0.00019674513259376354,
      "loss": 11.5,
      "step": 103
    },
    {
      "epoch": 0.09027777777777778,
      "grad_norm": 0.0006778741953894496,
      "learning_rate": 0.0001966751516753205,
      "loss": 11.5,
      "step": 104
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 0.00026866854750551283,
      "learning_rate": 0.00019660443914267805,
      "loss": 11.5,
      "step": 105
    },
    {
      "epoch": 0.0920138888888889,
      "grad_norm": 0.0009172813734039664,
      "learning_rate": 0.0001965329955309716,
      "loss": 11.5,
      "step": 106
    },
    {
      "epoch": 0.09288194444444445,
      "grad_norm": 0.00028345343889668584,
      "learning_rate": 0.00019646082138086914,
      "loss": 11.5,
      "step": 107
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.0015185566153377295,
      "learning_rate": 0.0001963879172385672,
      "loss": 11.5,
      "step": 108
    },
    {
      "epoch": 0.09461805555555555,
      "grad_norm": 0.0008212089305743575,
      "learning_rate": 0.0001963142836557867,
      "loss": 11.5,
      "step": 109
    },
    {
      "epoch": 0.0954861111111111,
      "grad_norm": 0.0006101247272454202,
      "learning_rate": 0.00019623992118976888,
      "loss": 11.5,
      "step": 110
    },
    {
      "epoch": 0.09635416666666667,
      "grad_norm": 0.0012916657142341137,
      "learning_rate": 0.00019616483040327083,
      "loss": 11.5,
      "step": 111
    },
    {
      "epoch": 0.09722222222222222,
      "grad_norm": 0.00044013079605065286,
      "learning_rate": 0.00019608901186456156,
      "loss": 11.5,
      "step": 112
    },
    {
      "epoch": 0.09809027777777778,
      "grad_norm": 0.000711727945599705,
      "learning_rate": 0.00019601246614741745,
      "loss": 11.5,
      "step": 113
    },
    {
      "epoch": 0.09895833333333333,
      "grad_norm": 0.0012650740100070834,
      "learning_rate": 0.00019593519383111799,
      "loss": 11.5,
      "step": 114
    },
    {
      "epoch": 0.0998263888888889,
      "grad_norm": 0.0016627603909000754,
      "learning_rate": 0.00019585719550044138,
      "loss": 11.5,
      "step": 115
    },
    {
      "epoch": 0.10069444444444445,
      "grad_norm": 0.00041493019671179354,
      "learning_rate": 0.00019577847174566016,
      "loss": 11.5,
      "step": 116
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 0.0012620514025911689,
      "learning_rate": 0.00019569902316253672,
      "loss": 11.5,
      "step": 117
    },
    {
      "epoch": 0.10243055555555555,
      "grad_norm": 0.001058910507708788,
      "learning_rate": 0.00019561885035231872,
      "loss": 11.5,
      "step": 118
    },
    {
      "epoch": 0.1032986111111111,
      "grad_norm": 0.0011096149682998657,
      "learning_rate": 0.00019553795392173468,
      "loss": 11.5,
      "step": 119
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 0.0015575280413031578,
      "learning_rate": 0.00019545633448298918,
      "loss": 11.5,
      "step": 120
    },
    {
      "epoch": 0.10503472222222222,
      "grad_norm": 0.0008557070977985859,
      "learning_rate": 0.00019537399265375844,
      "loss": 11.5,
      "step": 121
    },
    {
      "epoch": 0.10590277777777778,
      "grad_norm": 0.0012159732868894935,
      "learning_rate": 0.00019529092905718555,
      "loss": 11.5,
      "step": 122
    },
    {
      "epoch": 0.10677083333333333,
      "grad_norm": 0.0008523415308445692,
      "learning_rate": 0.00019520714432187574,
      "loss": 11.5,
      "step": 123
    },
    {
      "epoch": 0.1076388888888889,
      "grad_norm": 0.0015770855825394392,
      "learning_rate": 0.00019512263908189165,
      "loss": 11.5,
      "step": 124
    },
    {
      "epoch": 0.10850694444444445,
      "grad_norm": 0.000862257496919483,
      "learning_rate": 0.00019503741397674856,
      "loss": 11.5,
      "step": 125
    },
    {
      "epoch": 0.109375,
      "grad_norm": 0.003838304430246353,
      "learning_rate": 0.00019495146965140943,
      "loss": 11.5,
      "step": 126
    },
    {
      "epoch": 0.11024305555555555,
      "grad_norm": 0.0019366187043488026,
      "learning_rate": 0.00019486480675628019,
      "loss": 11.5,
      "step": 127
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 0.001259268494322896,
      "learning_rate": 0.00019477742594720468,
      "loss": 11.5,
      "step": 128
    },
    {
      "epoch": 0.11197916666666667,
      "grad_norm": 0.0016421729233115911,
      "learning_rate": 0.00019468932788545978,
      "loss": 11.5,
      "step": 129
    },
    {
      "epoch": 0.11284722222222222,
      "grad_norm": 0.0008053167257457972,
      "learning_rate": 0.00019460051323775033,
      "loss": 11.5,
      "step": 130
    },
    {
      "epoch": 0.11371527777777778,
      "grad_norm": 0.0005101275746710598,
      "learning_rate": 0.00019451098267620411,
      "loss": 11.5,
      "step": 131
    },
    {
      "epoch": 0.11458333333333333,
      "grad_norm": 0.0017785789677873254,
      "learning_rate": 0.00019442073687836686,
      "loss": 11.5,
      "step": 132
    },
    {
      "epoch": 0.1154513888888889,
      "grad_norm": 0.001415914623066783,
      "learning_rate": 0.00019432977652719693,
      "loss": 11.5,
      "step": 133
    },
    {
      "epoch": 0.11631944444444445,
      "grad_norm": 0.001241027726791799,
      "learning_rate": 0.00019423810231106026,
      "loss": 11.5,
      "step": 134
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 0.0013136710040271282,
      "learning_rate": 0.00019414571492372523,
      "loss": 11.5,
      "step": 135
    },
    {
      "epoch": 0.11805555555555555,
      "grad_norm": 0.0008104750886559486,
      "learning_rate": 0.00019405261506435728,
      "loss": 11.5,
      "step": 136
    },
    {
      "epoch": 0.1189236111111111,
      "grad_norm": 0.0012937813298776746,
      "learning_rate": 0.00019395880343751364,
      "loss": 11.5,
      "step": 137
    },
    {
      "epoch": 0.11979166666666667,
      "grad_norm": 0.002039765240624547,
      "learning_rate": 0.000193864280753138,
      "loss": 11.5,
      "step": 138
    },
    {
      "epoch": 0.12065972222222222,
      "grad_norm": 0.0010038147447630763,
      "learning_rate": 0.0001937690477265553,
      "loss": 11.5,
      "step": 139
    },
    {
      "epoch": 0.12152777777777778,
      "grad_norm": 0.0012283625546842813,
      "learning_rate": 0.000193673105078466,
      "loss": 11.5,
      "step": 140
    },
    {
      "epoch": 0.12239583333333333,
      "grad_norm": 0.0013862745836377144,
      "learning_rate": 0.00019357645353494093,
      "loss": 11.5,
      "step": 141
    },
    {
      "epoch": 0.1232638888888889,
      "grad_norm": 0.0016302271978929639,
      "learning_rate": 0.00019347909382741563,
      "loss": 11.5,
      "step": 142
    },
    {
      "epoch": 0.12413194444444445,
      "grad_norm": 0.001431547454558313,
      "learning_rate": 0.00019338102669268486,
      "loss": 11.5,
      "step": 143
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.0012122620828449726,
      "learning_rate": 0.000193282252872897,
      "loss": 11.5,
      "step": 144
    },
    {
      "epoch": 0.12586805555555555,
      "grad_norm": 0.0036138417199254036,
      "learning_rate": 0.0001931827731155484,
      "loss": 11.5,
      "step": 145
    },
    {
      "epoch": 0.1267361111111111,
      "grad_norm": 0.0012594432337209582,
      "learning_rate": 0.00019308258817347796,
      "loss": 11.5,
      "step": 146
    },
    {
      "epoch": 0.12760416666666666,
      "grad_norm": 0.004456968978047371,
      "learning_rate": 0.00019298169880486104,
      "loss": 11.5,
      "step": 147
    },
    {
      "epoch": 0.1284722222222222,
      "grad_norm": 0.0005652760155498981,
      "learning_rate": 0.00019288010577320406,
      "loss": 11.5,
      "step": 148
    },
    {
      "epoch": 0.1293402777777778,
      "grad_norm": 0.001120343105867505,
      "learning_rate": 0.00019277780984733848,
      "loss": 11.5,
      "step": 149
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 0.001482671475969255,
      "learning_rate": 0.00019267481180141525,
      "loss": 11.5,
      "step": 150
    },
    {
      "epoch": 0.1310763888888889,
      "grad_norm": 0.0006015402032062411,
      "learning_rate": 0.00019257111241489865,
      "loss": 11.5,
      "step": 151
    },
    {
      "epoch": 0.13194444444444445,
      "grad_norm": 0.002863151952624321,
      "learning_rate": 0.00019246671247256057,
      "loss": 11.5,
      "step": 152
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 0.0015647286782041192,
      "learning_rate": 0.00019236161276447463,
      "loss": 11.5,
      "step": 153
    },
    {
      "epoch": 0.13368055555555555,
      "grad_norm": 0.0011481104884296656,
      "learning_rate": 0.00019225581408601,
      "loss": 11.5,
      "step": 154
    },
    {
      "epoch": 0.1345486111111111,
      "grad_norm": 0.0031496204901486635,
      "learning_rate": 0.00019214931723782552,
      "loss": 11.5,
      "step": 155
    },
    {
      "epoch": 0.13541666666666666,
      "grad_norm": 0.0015141068724915385,
      "learning_rate": 0.00019204212302586363,
      "loss": 11.5,
      "step": 156
    },
    {
      "epoch": 0.1362847222222222,
      "grad_norm": 0.002312655095010996,
      "learning_rate": 0.00019193423226134424,
      "loss": 11.5,
      "step": 157
    },
    {
      "epoch": 0.1371527777777778,
      "grad_norm": 0.0007913121371529996,
      "learning_rate": 0.0001918256457607586,
      "loss": 11.5,
      "step": 158
    },
    {
      "epoch": 0.13802083333333334,
      "grad_norm": 0.0010486578103154898,
      "learning_rate": 0.00019171636434586308,
      "loss": 11.5,
      "step": 159
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 0.0020139096304774284,
      "learning_rate": 0.0001916063888436731,
      "loss": 11.5,
      "step": 160
    },
    {
      "epoch": 0.13975694444444445,
      "grad_norm": 0.0019042862113565207,
      "learning_rate": 0.00019149572008645663,
      "loss": 11.5,
      "step": 161
    },
    {
      "epoch": 0.140625,
      "grad_norm": 0.0006890228250995278,
      "learning_rate": 0.00019138435891172812,
      "loss": 11.5,
      "step": 162
    },
    {
      "epoch": 0.14149305555555555,
      "grad_norm": 0.002375284442678094,
      "learning_rate": 0.00019127230616224213,
      "loss": 11.5,
      "step": 163
    },
    {
      "epoch": 0.1423611111111111,
      "grad_norm": 0.0018001394346356392,
      "learning_rate": 0.00019115956268598664,
      "loss": 11.5,
      "step": 164
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 0.0017460393719375134,
      "learning_rate": 0.0001910461293361772,
      "loss": 11.5,
      "step": 165
    },
    {
      "epoch": 0.1440972222222222,
      "grad_norm": 0.0016516620526090264,
      "learning_rate": 0.00019093200697124996,
      "loss": 11.5,
      "step": 166
    },
    {
      "epoch": 0.1449652777777778,
      "grad_norm": 0.001399379107169807,
      "learning_rate": 0.0001908171964548554,
      "loss": 11.5,
      "step": 167
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 0.0020660480950027704,
      "learning_rate": 0.00019070169865585175,
      "loss": 11.5,
      "step": 168
    },
    {
      "epoch": 0.1467013888888889,
      "grad_norm": 0.0032087964937090874,
      "learning_rate": 0.0001905855144482985,
      "loss": 11.5,
      "step": 169
    },
    {
      "epoch": 0.14756944444444445,
      "grad_norm": 0.0033732678275555372,
      "learning_rate": 0.0001904686447114497,
      "loss": 11.5,
      "step": 170
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 0.0019294206285849214,
      "learning_rate": 0.00019035109032974722,
      "loss": 11.5,
      "step": 171
    },
    {
      "epoch": 0.14930555555555555,
      "grad_norm": 0.002652819035574794,
      "learning_rate": 0.00019023285219281429,
      "loss": 11.5,
      "step": 172
    },
    {
      "epoch": 0.1501736111111111,
      "grad_norm": 0.002065881621092558,
      "learning_rate": 0.00019011393119544852,
      "loss": 11.5,
      "step": 173
    },
    {
      "epoch": 0.15104166666666666,
      "grad_norm": 0.002231254242360592,
      "learning_rate": 0.00018999432823761534,
      "loss": 11.5,
      "step": 174
    },
    {
      "epoch": 0.1519097222222222,
      "grad_norm": 0.0015467837220057845,
      "learning_rate": 0.00018987404422444104,
      "loss": 11.5,
      "step": 175
    },
    {
      "epoch": 0.1527777777777778,
      "grad_norm": 0.0025864734780043364,
      "learning_rate": 0.00018975308006620597,
      "loss": 11.5,
      "step": 176
    },
    {
      "epoch": 0.15364583333333334,
      "grad_norm": 0.002337423153221607,
      "learning_rate": 0.0001896314366783377,
      "loss": 11.5,
      "step": 177
    },
    {
      "epoch": 0.1545138888888889,
      "grad_norm": 0.00213730544783175,
      "learning_rate": 0.00018950911498140396,
      "loss": 11.5,
      "step": 178
    },
    {
      "epoch": 0.15538194444444445,
      "grad_norm": 0.0019094524905085564,
      "learning_rate": 0.00018938611590110584,
      "loss": 11.5,
      "step": 179
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.0015898087294772267,
      "learning_rate": 0.00018926244036827065,
      "loss": 11.5,
      "step": 180
    },
    {
      "epoch": 0.15711805555555555,
      "grad_norm": 0.0014751970302313566,
      "learning_rate": 0.00018913808931884498,
      "loss": 11.5,
      "step": 181
    },
    {
      "epoch": 0.1579861111111111,
      "grad_norm": 0.0015719275688752532,
      "learning_rate": 0.00018901306369388754,
      "loss": 11.5,
      "step": 182
    },
    {
      "epoch": 0.15885416666666666,
      "grad_norm": 0.001781360013410449,
      "learning_rate": 0.00018888736443956202,
      "loss": 11.5,
      "step": 183
    },
    {
      "epoch": 0.1597222222222222,
      "grad_norm": 0.0025165886618196964,
      "learning_rate": 0.00018876099250713011,
      "loss": 11.5,
      "step": 184
    },
    {
      "epoch": 0.1605902777777778,
      "grad_norm": 0.002310993615537882,
      "learning_rate": 0.00018863394885294398,
      "loss": 11.5,
      "step": 185
    },
    {
      "epoch": 0.16145833333333334,
      "grad_norm": 0.001458172220736742,
      "learning_rate": 0.00018850623443843935,
      "loss": 11.5,
      "step": 186
    },
    {
      "epoch": 0.1623263888888889,
      "grad_norm": 0.0013904237421229482,
      "learning_rate": 0.00018837785023012807,
      "loss": 11.5,
      "step": 187
    },
    {
      "epoch": 0.16319444444444445,
      "grad_norm": 0.0019516567699611187,
      "learning_rate": 0.00018824879719959086,
      "loss": 11.5,
      "step": 188
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 0.0014879708178341389,
      "learning_rate": 0.0001881190763234698,
      "loss": 11.5,
      "step": 189
    },
    {
      "epoch": 0.16493055555555555,
      "grad_norm": 0.001853549969382584,
      "learning_rate": 0.00018798868858346124,
      "loss": 11.5,
      "step": 190
    },
    {
      "epoch": 0.1657986111111111,
      "grad_norm": 0.002334968652576208,
      "learning_rate": 0.00018785763496630806,
      "loss": 11.5,
      "step": 191
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.0017816221807152033,
      "learning_rate": 0.00018772591646379238,
      "loss": 11.5,
      "step": 192
    },
    {
      "epoch": 0.1675347222222222,
      "grad_norm": 0.0023153680376708508,
      "learning_rate": 0.00018759353407272805,
      "loss": 11.5,
      "step": 193
    },
    {
      "epoch": 0.1684027777777778,
      "grad_norm": 0.00299869105219841,
      "learning_rate": 0.00018746048879495297,
      "loss": 11.5,
      "step": 194
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 0.0018837234238162637,
      "learning_rate": 0.0001873267816373217,
      "loss": 11.5,
      "step": 195
    },
    {
      "epoch": 0.1701388888888889,
      "grad_norm": 0.0030240670312196016,
      "learning_rate": 0.00018719241361169777,
      "loss": 11.5,
      "step": 196
    },
    {
      "epoch": 0.17100694444444445,
      "grad_norm": 0.002300889464095235,
      "learning_rate": 0.00018705738573494588,
      "loss": 11.5,
      "step": 197
    },
    {
      "epoch": 0.171875,
      "grad_norm": 0.004538905806839466,
      "learning_rate": 0.00018692169902892442,
      "loss": 11.5,
      "step": 198
    },
    {
      "epoch": 0.17274305555555555,
      "grad_norm": 0.0012917125131934881,
      "learning_rate": 0.00018678535452047759,
      "loss": 11.5,
      "step": 199
    },
    {
      "epoch": 0.1736111111111111,
      "grad_norm": 0.001995428930968046,
      "learning_rate": 0.0001866483532414277,
      "loss": 11.5,
      "step": 200
    },
    {
      "epoch": 0.17447916666666666,
      "grad_norm": 0.0012382959248498082,
      "learning_rate": 0.0001865106962285674,
      "loss": 11.5,
      "step": 201
    },
    {
      "epoch": 0.1753472222222222,
      "grad_norm": 0.0014762632781639695,
      "learning_rate": 0.00018637238452365163,
      "loss": 11.5,
      "step": 202
    },
    {
      "epoch": 0.1762152777777778,
      "grad_norm": 0.0013728743651881814,
      "learning_rate": 0.00018623341917339,
      "loss": 11.5,
      "step": 203
    },
    {
      "epoch": 0.17708333333333334,
      "grad_norm": 0.0022514283191412687,
      "learning_rate": 0.00018609380122943875,
      "loss": 11.5,
      "step": 204
    },
    {
      "epoch": 0.1779513888888889,
      "grad_norm": 0.0016184686683118343,
      "learning_rate": 0.00018595353174839273,
      "loss": 11.5,
      "step": 205
    },
    {
      "epoch": 0.17881944444444445,
      "grad_norm": 0.002236591652035713,
      "learning_rate": 0.00018581261179177752,
      "loss": 11.5,
      "step": 206
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 0.0026949776802212,
      "learning_rate": 0.0001856710424260413,
      "loss": 11.5,
      "step": 207
    },
    {
      "epoch": 0.18055555555555555,
      "grad_norm": 0.0019979504868388176,
      "learning_rate": 0.00018552882472254684,
      "loss": 11.5,
      "step": 208
    },
    {
      "epoch": 0.1814236111111111,
      "grad_norm": 0.0022183049004524946,
      "learning_rate": 0.00018538595975756334,
      "loss": 11.5,
      "step": 209
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 0.0012858470436185598,
      "learning_rate": 0.0001852424486122584,
      "loss": 11.5,
      "step": 210
    },
    {
      "epoch": 0.1831597222222222,
      "grad_norm": 0.0024356802459806204,
      "learning_rate": 0.00018509829237268975,
      "loss": 11.5,
      "step": 211
    },
    {
      "epoch": 0.1840277777777778,
      "grad_norm": 0.001752355950884521,
      "learning_rate": 0.00018495349212979684,
      "loss": 11.5,
      "step": 212
    },
    {
      "epoch": 0.18489583333333334,
      "grad_norm": 0.0016823733458295465,
      "learning_rate": 0.0001848080489793931,
      "loss": 11.5,
      "step": 213
    },
    {
      "epoch": 0.1857638888888889,
      "grad_norm": 0.0016810290981084108,
      "learning_rate": 0.00018466196402215708,
      "loss": 11.5,
      "step": 214
    },
    {
      "epoch": 0.18663194444444445,
      "grad_norm": 0.002034944947808981,
      "learning_rate": 0.00018451523836362447,
      "loss": 11.5,
      "step": 215
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.0009837135439738631,
      "learning_rate": 0.00018436787311417962,
      "loss": 11.5,
      "step": 216
    },
    {
      "epoch": 0.18836805555555555,
      "grad_norm": 0.0014789934502914548,
      "learning_rate": 0.00018421986938904714,
      "loss": 11.5,
      "step": 217
    },
    {
      "epoch": 0.1892361111111111,
      "grad_norm": 0.0015635915333405137,
      "learning_rate": 0.0001840712283082835,
      "loss": 11.5,
      "step": 218
    },
    {
      "epoch": 0.19010416666666666,
      "grad_norm": 0.0027212610002607107,
      "learning_rate": 0.00018392195099676845,
      "loss": 11.5,
      "step": 219
    },
    {
      "epoch": 0.1909722222222222,
      "grad_norm": 0.0015043141320347786,
      "learning_rate": 0.0001837720385841967,
      "loss": 11.5,
      "step": 220
    },
    {
      "epoch": 0.1918402777777778,
      "grad_norm": 0.0015028815250843763,
      "learning_rate": 0.00018362149220506915,
      "loss": 11.5,
      "step": 221
    },
    {
      "epoch": 0.19270833333333334,
      "grad_norm": 0.001729757059365511,
      "learning_rate": 0.00018347031299868443,
      "loss": 11.5,
      "step": 222
    },
    {
      "epoch": 0.1935763888888889,
      "grad_norm": 0.001294547924771905,
      "learning_rate": 0.00018331850210913023,
      "loss": 11.5,
      "step": 223
    },
    {
      "epoch": 0.19444444444444445,
      "grad_norm": 0.0022912134882062674,
      "learning_rate": 0.00018316606068527477,
      "loss": 11.5,
      "step": 224
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 0.0017170929349958897,
      "learning_rate": 0.0001830129898807579,
      "loss": 11.5,
      "step": 225
    },
    {
      "epoch": 0.19618055555555555,
      "grad_norm": 0.0016632043989375234,
      "learning_rate": 0.00018285929085398248,
      "loss": 11.5,
      "step": 226
    },
    {
      "epoch": 0.1970486111111111,
      "grad_norm": 0.0022857494186609983,
      "learning_rate": 0.00018270496476810563,
      "loss": 11.5,
      "step": 227
    },
    {
      "epoch": 0.19791666666666666,
      "grad_norm": 0.0024052788503468037,
      "learning_rate": 0.00018255001279102992,
      "loss": 11.5,
      "step": 228
    },
    {
      "epoch": 0.1987847222222222,
      "grad_norm": 0.002093462273478508,
      "learning_rate": 0.00018239443609539447,
      "loss": 11.5,
      "step": 229
    },
    {
      "epoch": 0.1996527777777778,
      "grad_norm": 0.00225424999371171,
      "learning_rate": 0.00018223823585856614,
      "loss": 11.5,
      "step": 230
    },
    {
      "epoch": 0.20052083333333334,
      "grad_norm": 0.0019619318190962076,
      "learning_rate": 0.00018208141326263059,
      "loss": 11.5,
      "step": 231
    },
    {
      "epoch": 0.2013888888888889,
      "grad_norm": 0.0016686015296727419,
      "learning_rate": 0.00018192396949438336,
      "loss": 11.5,
      "step": 232
    },
    {
      "epoch": 0.20225694444444445,
      "grad_norm": 0.001492908108048141,
      "learning_rate": 0.00018176590574532083,
      "loss": 11.5,
      "step": 233
    },
    {
      "epoch": 0.203125,
      "grad_norm": 0.0011713297571986914,
      "learning_rate": 0.00018160722321163136,
      "loss": 11.5,
      "step": 234
    },
    {
      "epoch": 0.20399305555555555,
      "grad_norm": 0.002364499494433403,
      "learning_rate": 0.000181447923094186,
      "loss": 11.5,
      "step": 235
    },
    {
      "epoch": 0.2048611111111111,
      "grad_norm": 0.0018426135648041964,
      "learning_rate": 0.00018128800659852952,
      "loss": 11.5,
      "step": 236
    },
    {
      "epoch": 0.20572916666666666,
      "grad_norm": 0.001688053598627448,
      "learning_rate": 0.00018112747493487138,
      "loss": 11.5,
      "step": 237
    },
    {
      "epoch": 0.2065972222222222,
      "grad_norm": 0.0018587155500426888,
      "learning_rate": 0.00018096632931807643,
      "loss": 11.5,
      "step": 238
    },
    {
      "epoch": 0.2074652777777778,
      "grad_norm": 0.001734313671477139,
      "learning_rate": 0.0001808045709676558,
      "loss": 11.5,
      "step": 239
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.0019542935770004988,
      "learning_rate": 0.0001806422011077576,
      "loss": 11.5,
      "step": 240
    },
    {
      "epoch": 0.2092013888888889,
      "grad_norm": 0.0031872305553406477,
      "learning_rate": 0.0001804792209671577,
      "loss": 11.5,
      "step": 241
    },
    {
      "epoch": 0.21006944444444445,
      "grad_norm": 0.0016100108623504639,
      "learning_rate": 0.00018031563177925048,
      "loss": 11.5,
      "step": 242
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 0.0019521414069458842,
      "learning_rate": 0.00018015143478203937,
      "loss": 11.5,
      "step": 243
    },
    {
      "epoch": 0.21180555555555555,
      "grad_norm": 0.0022809221409261227,
      "learning_rate": 0.00017998663121812763,
      "loss": 11.5,
      "step": 244
    },
    {
      "epoch": 0.2126736111111111,
      "grad_norm": 0.0012695168843492866,
      "learning_rate": 0.00017982122233470876,
      "loss": 11.5,
      "step": 245
    },
    {
      "epoch": 0.21354166666666666,
      "grad_norm": 0.0017066391883417964,
      "learning_rate": 0.00017965520938355729,
      "loss": 11.5,
      "step": 246
    },
    {
      "epoch": 0.2144097222222222,
      "grad_norm": 0.002269625198096037,
      "learning_rate": 0.00017948859362101915,
      "loss": 11.5,
      "step": 247
    },
    {
      "epoch": 0.2152777777777778,
      "grad_norm": 0.0009520296007394791,
      "learning_rate": 0.00017932137630800217,
      "loss": 11.5,
      "step": 248
    },
    {
      "epoch": 0.21614583333333334,
      "grad_norm": 0.0026509976014494896,
      "learning_rate": 0.00017915355870996654,
      "loss": 11.5,
      "step": 249
    },
    {
      "epoch": 0.2170138888888889,
      "grad_norm": 0.001384136499837041,
      "learning_rate": 0.00017898514209691545,
      "loss": 11.5,
      "step": 250
    },
    {
      "epoch": 0.21788194444444445,
      "grad_norm": 0.0021917796693742275,
      "learning_rate": 0.000178816127743385,
      "loss": 11.5,
      "step": 251
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.001820303383283317,
      "learning_rate": 0.00017864651692843509,
      "loss": 11.5,
      "step": 252
    },
    {
      "epoch": 0.21961805555555555,
      "grad_norm": 0.001261240686289966,
      "learning_rate": 0.00017847631093563938,
      "loss": 11.5,
      "step": 253
    },
    {
      "epoch": 0.2204861111111111,
      "grad_norm": 0.0010253816144540906,
      "learning_rate": 0.00017830551105307572,
      "loss": 11.5,
      "step": 254
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 0.0026065234560519457,
      "learning_rate": 0.00017813411857331635,
      "loss": 11.5,
      "step": 255
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 0.001978519605472684,
      "learning_rate": 0.00017796213479341817,
      "loss": 11.5,
      "step": 256
    },
    {
      "epoch": 0.2230902777777778,
      "grad_norm": 0.0018212991999462247,
      "learning_rate": 0.0001777895610149129,
      "loss": 11.5,
      "step": 257
    },
    {
      "epoch": 0.22395833333333334,
      "grad_norm": 0.0012308540754020214,
      "learning_rate": 0.0001776163985437972,
      "loss": 11.5,
      "step": 258
    },
    {
      "epoch": 0.2248263888888889,
      "grad_norm": 0.001913002459332347,
      "learning_rate": 0.00017744264869052286,
      "loss": 11.5,
      "step": 259
    },
    {
      "epoch": 0.22569444444444445,
      "grad_norm": 0.0014118441613391042,
      "learning_rate": 0.00017726831276998681,
      "loss": 11.5,
      "step": 260
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 0.002802478149533272,
      "learning_rate": 0.00017709339210152117,
      "loss": 11.5,
      "step": 261
    },
    {
      "epoch": 0.22743055555555555,
      "grad_norm": 0.0011168360942974687,
      "learning_rate": 0.00017691788800888326,
      "loss": 11.5,
      "step": 262
    },
    {
      "epoch": 0.2282986111111111,
      "grad_norm": 0.0012886443873867393,
      "learning_rate": 0.00017674180182024579,
      "loss": 11.5,
      "step": 263
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 0.002355891978368163,
      "learning_rate": 0.0001765651348681864,
      "loss": 11.5,
      "step": 264
    },
    {
      "epoch": 0.2300347222222222,
      "grad_norm": 0.0011941975681111217,
      "learning_rate": 0.00017638788848967795,
      "loss": 11.5,
      "step": 265
    },
    {
      "epoch": 0.2309027777777778,
      "grad_norm": 0.0013749317731708288,
      "learning_rate": 0.00017621006402607827,
      "loss": 11.5,
      "step": 266
    },
    {
      "epoch": 0.23177083333333334,
      "grad_norm": 0.006203990429639816,
      "learning_rate": 0.00017603166282311987,
      "loss": 11.5,
      "step": 267
    },
    {
      "epoch": 0.2326388888888889,
      "grad_norm": 0.0021362907718867064,
      "learning_rate": 0.00017585268623090004,
      "loss": 11.5,
      "step": 268
    },
    {
      "epoch": 0.23350694444444445,
      "grad_norm": 0.0023858954664319754,
      "learning_rate": 0.0001756731356038704,
      "loss": 11.5,
      "step": 269
    },
    {
      "epoch": 0.234375,
      "grad_norm": 0.00180071743670851,
      "learning_rate": 0.00017549301230082663,
      "loss": 11.5,
      "step": 270
    },
    {
      "epoch": 0.23524305555555555,
      "grad_norm": 0.001773473690263927,
      "learning_rate": 0.0001753123176848985,
      "loss": 11.5,
      "step": 271
    },
    {
      "epoch": 0.2361111111111111,
      "grad_norm": 0.0013333333190530539,
      "learning_rate": 0.00017513105312353918,
      "loss": 11.5,
      "step": 272
    },
    {
      "epoch": 0.23697916666666666,
      "grad_norm": 0.001974815269932151,
      "learning_rate": 0.00017494921998851507,
      "loss": 11.5,
      "step": 273
    },
    {
      "epoch": 0.2378472222222222,
      "grad_norm": 0.0026199754793196917,
      "learning_rate": 0.00017476681965589548,
      "loss": 11.5,
      "step": 274
    },
    {
      "epoch": 0.2387152777777778,
      "grad_norm": 0.0011475170031189919,
      "learning_rate": 0.00017458385350604204,
      "loss": 11.5,
      "step": 275
    },
    {
      "epoch": 0.23958333333333334,
      "grad_norm": 0.0016484854277223349,
      "learning_rate": 0.0001744003229235984,
      "loss": 11.5,
      "step": 276
    },
    {
      "epoch": 0.2404513888888889,
      "grad_norm": 0.0013225371949374676,
      "learning_rate": 0.00017421622929747964,
      "loss": 11.5,
      "step": 277
    },
    {
      "epoch": 0.24131944444444445,
      "grad_norm": 0.0017640698933973908,
      "learning_rate": 0.00017403157402086193,
      "loss": 11.5,
      "step": 278
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 0.0018214040901511908,
      "learning_rate": 0.00017384635849117171,
      "loss": 11.5,
      "step": 279
    },
    {
      "epoch": 0.24305555555555555,
      "grad_norm": 0.001652211882174015,
      "learning_rate": 0.00017366058411007545,
      "loss": 11.5,
      "step": 280
    },
    {
      "epoch": 0.2439236111111111,
      "grad_norm": 0.0013385274214670062,
      "learning_rate": 0.0001734742522834688,
      "loss": 11.5,
      "step": 281
    },
    {
      "epoch": 0.24479166666666666,
      "grad_norm": 0.0017820369685068727,
      "learning_rate": 0.00017328736442146595,
      "loss": 11.5,
      "step": 282
    },
    {
      "epoch": 0.2456597222222222,
      "grad_norm": 0.002674364484846592,
      "learning_rate": 0.0001730999219383892,
      "loss": 11.5,
      "step": 283
    },
    {
      "epoch": 0.2465277777777778,
      "grad_norm": 0.002040399005636573,
      "learning_rate": 0.0001729119262527579,
      "loss": 11.5,
      "step": 284
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 0.0010660416446626186,
      "learning_rate": 0.00017272337878727808,
      "loss": 11.5,
      "step": 285
    },
    {
      "epoch": 0.2482638888888889,
      "grad_norm": 0.0022878176532685757,
      "learning_rate": 0.00017253428096883138,
      "loss": 11.5,
      "step": 286
    },
    {
      "epoch": 0.24913194444444445,
      "grad_norm": 0.0019068224355578423,
      "learning_rate": 0.00017234463422846443,
      "loss": 11.5,
      "step": 287
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.002716557588428259,
      "learning_rate": 0.00017215444000137796,
      "loss": 11.5,
      "step": 288
    },
    {
      "epoch": 0.25,
      "eval_loss": 11.5,
      "eval_runtime": 3.9348,
      "eval_samples_per_second": 123.258,
      "eval_steps_per_second": 61.756,
      "step": 288
    },
    {
      "epoch": 0.2508680555555556,
      "grad_norm": 0.0017977813258767128,
      "learning_rate": 0.00017196369972691592,
      "loss": 11.5,
      "step": 289
    },
    {
      "epoch": 0.2517361111111111,
      "grad_norm": 0.0026922407560050488,
      "learning_rate": 0.00017177241484855467,
      "loss": 11.5,
      "step": 290
    },
    {
      "epoch": 0.2526041666666667,
      "grad_norm": 0.0014925110153853893,
      "learning_rate": 0.00017158058681389192,
      "loss": 11.5,
      "step": 291
    },
    {
      "epoch": 0.2534722222222222,
      "grad_norm": 0.0028422202449291945,
      "learning_rate": 0.00017138821707463598,
      "loss": 11.5,
      "step": 292
    },
    {
      "epoch": 0.2543402777777778,
      "grad_norm": 0.0017652794485911727,
      "learning_rate": 0.00017119530708659456,
      "loss": 11.5,
      "step": 293
    },
    {
      "epoch": 0.2552083333333333,
      "grad_norm": 0.0020036071073263884,
      "learning_rate": 0.0001710018583096638,
      "loss": 11.5,
      "step": 294
    },
    {
      "epoch": 0.2560763888888889,
      "grad_norm": 0.0018907916964963078,
      "learning_rate": 0.0001708078722078174,
      "loss": 11.5,
      "step": 295
    },
    {
      "epoch": 0.2569444444444444,
      "grad_norm": 0.004223627503961325,
      "learning_rate": 0.00017061335024909528,
      "loss": 11.5,
      "step": 296
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 0.0019515880849212408,
      "learning_rate": 0.00017041829390559263,
      "loss": 11.5,
      "step": 297
    },
    {
      "epoch": 0.2586805555555556,
      "grad_norm": 0.002004119334742427,
      "learning_rate": 0.00017022270465344883,
      "loss": 11.5,
      "step": 298
    },
    {
      "epoch": 0.2595486111111111,
      "grad_norm": 0.0026627497281879187,
      "learning_rate": 0.000170026583972836,
      "loss": 11.5,
      "step": 299
    },
    {
      "epoch": 0.2604166666666667,
      "grad_norm": 0.00736455200240016,
      "learning_rate": 0.00016982993334794817,
      "loss": 11.5,
      "step": 300
    },
    {
      "epoch": 0.2612847222222222,
      "grad_norm": 0.0018050667131319642,
      "learning_rate": 0.00016963275426698973,
      "loss": 11.5,
      "step": 301
    },
    {
      "epoch": 0.2621527777777778,
      "grad_norm": 0.002916224766522646,
      "learning_rate": 0.0001694350482221643,
      "loss": 11.5,
      "step": 302
    },
    {
      "epoch": 0.2630208333333333,
      "grad_norm": 0.001084608375094831,
      "learning_rate": 0.0001692368167096636,
      "loss": 11.5,
      "step": 303
    },
    {
      "epoch": 0.2638888888888889,
      "grad_norm": 0.0009540652390569448,
      "learning_rate": 0.00016903806122965572,
      "loss": 11.5,
      "step": 304
    },
    {
      "epoch": 0.2647569444444444,
      "grad_norm": 0.0006754116620868444,
      "learning_rate": 0.0001688387832862742,
      "loss": 11.5,
      "step": 305
    },
    {
      "epoch": 0.265625,
      "grad_norm": 0.0012310030870139599,
      "learning_rate": 0.0001686389843876064,
      "loss": 11.5,
      "step": 306
    },
    {
      "epoch": 0.2664930555555556,
      "grad_norm": 0.001280420576222241,
      "learning_rate": 0.00016843866604568204,
      "loss": 11.5,
      "step": 307
    },
    {
      "epoch": 0.2673611111111111,
      "grad_norm": 0.001621773699298501,
      "learning_rate": 0.00016823782977646204,
      "loss": 11.5,
      "step": 308
    },
    {
      "epoch": 0.2682291666666667,
      "grad_norm": 0.001911429688334465,
      "learning_rate": 0.00016803647709982676,
      "loss": 11.5,
      "step": 309
    },
    {
      "epoch": 0.2690972222222222,
      "grad_norm": 0.0007495870813727379,
      "learning_rate": 0.00016783460953956458,
      "loss": 11.5,
      "step": 310
    },
    {
      "epoch": 0.2699652777777778,
      "grad_norm": 0.001720424392260611,
      "learning_rate": 0.00016763222862336053,
      "loss": 11.5,
      "step": 311
    },
    {
      "epoch": 0.2708333333333333,
      "grad_norm": 0.001375005580484867,
      "learning_rate": 0.0001674293358827844,
      "loss": 11.5,
      "step": 312
    },
    {
      "epoch": 0.2717013888888889,
      "grad_norm": 0.0017436319030821323,
      "learning_rate": 0.00016722593285327953,
      "loss": 11.5,
      "step": 313
    },
    {
      "epoch": 0.2725694444444444,
      "grad_norm": 0.002589026466012001,
      "learning_rate": 0.00016702202107415088,
      "loss": 11.5,
      "step": 314
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 0.0021210878621786833,
      "learning_rate": 0.0001668176020885536,
      "loss": 11.5,
      "step": 315
    },
    {
      "epoch": 0.2743055555555556,
      "grad_norm": 0.0015520534943789244,
      "learning_rate": 0.00016661267744348112,
      "loss": 11.5,
      "step": 316
    },
    {
      "epoch": 0.2751736111111111,
      "grad_norm": 0.0011574511881917715,
      "learning_rate": 0.00016640724868975375,
      "loss": 11.5,
      "step": 317
    },
    {
      "epoch": 0.2760416666666667,
      "grad_norm": 0.001281264121644199,
      "learning_rate": 0.00016620131738200663,
      "loss": 11.5,
      "step": 318
    },
    {
      "epoch": 0.2769097222222222,
      "grad_norm": 0.0024179965257644653,
      "learning_rate": 0.00016599488507867816,
      "loss": 11.5,
      "step": 319
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.0012219884665682912,
      "learning_rate": 0.00016578795334199818,
      "loss": 11.5,
      "step": 320
    },
    {
      "epoch": 0.2786458333333333,
      "grad_norm": 0.0017277930164709687,
      "learning_rate": 0.00016558052373797608,
      "loss": 11.5,
      "step": 321
    },
    {
      "epoch": 0.2795138888888889,
      "grad_norm": 0.0012052758829668164,
      "learning_rate": 0.000165372597836389,
      "loss": 11.5,
      "step": 322
    },
    {
      "epoch": 0.2803819444444444,
      "grad_norm": 0.0023053318727761507,
      "learning_rate": 0.00016516417721076996,
      "loss": 11.5,
      "step": 323
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.0021456810645759106,
      "learning_rate": 0.0001649552634383959,
      "loss": 11.5,
      "step": 324
    },
    {
      "epoch": 0.2821180555555556,
      "grad_norm": 0.0014552525244653225,
      "learning_rate": 0.00016474585810027584,
      "loss": 11.5,
      "step": 325
    },
    {
      "epoch": 0.2829861111111111,
      "grad_norm": 0.0022681811824440956,
      "learning_rate": 0.00016453596278113877,
      "loss": 11.5,
      "step": 326
    },
    {
      "epoch": 0.2838541666666667,
      "grad_norm": 0.0010092498268932104,
      "learning_rate": 0.00016432557906942178,
      "loss": 11.5,
      "step": 327
    },
    {
      "epoch": 0.2847222222222222,
      "grad_norm": 0.0034529753029346466,
      "learning_rate": 0.00016411470855725793,
      "loss": 11.5,
      "step": 328
    },
    {
      "epoch": 0.2855902777777778,
      "grad_norm": 0.0020912198815494776,
      "learning_rate": 0.0001639033528404644,
      "loss": 11.5,
      "step": 329
    },
    {
      "epoch": 0.2864583333333333,
      "grad_norm": 0.0014444917906075716,
      "learning_rate": 0.00016369151351853023,
      "loss": 11.5,
      "step": 330
    },
    {
      "epoch": 0.2873263888888889,
      "grad_norm": 0.0016338180284947157,
      "learning_rate": 0.00016347919219460416,
      "loss": 11.5,
      "step": 331
    },
    {
      "epoch": 0.2881944444444444,
      "grad_norm": 0.001719835912808776,
      "learning_rate": 0.0001632663904754828,
      "loss": 11.5,
      "step": 332
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 0.0017292066477239132,
      "learning_rate": 0.00016305310997159804,
      "loss": 11.5,
      "step": 333
    },
    {
      "epoch": 0.2899305555555556,
      "grad_norm": 0.004258245229721069,
      "learning_rate": 0.0001628393522970053,
      "loss": 11.5,
      "step": 334
    },
    {
      "epoch": 0.2907986111111111,
      "grad_norm": 0.00241369497962296,
      "learning_rate": 0.00016262511906937104,
      "loss": 11.5,
      "step": 335
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 0.0024215125013142824,
      "learning_rate": 0.00016241041190996055,
      "loss": 11.5,
      "step": 336
    },
    {
      "epoch": 0.2925347222222222,
      "grad_norm": 0.0011335453018546104,
      "learning_rate": 0.0001621952324436258,
      "loss": 11.5,
      "step": 337
    },
    {
      "epoch": 0.2934027777777778,
      "grad_norm": 0.002396250143647194,
      "learning_rate": 0.00016197958229879298,
      "loss": 11.5,
      "step": 338
    },
    {
      "epoch": 0.2942708333333333,
      "grad_norm": 0.001996335806325078,
      "learning_rate": 0.00016176346310745033,
      "loss": 11.5,
      "step": 339
    },
    {
      "epoch": 0.2951388888888889,
      "grad_norm": 0.0016120505752041936,
      "learning_rate": 0.00016154687650513566,
      "loss": 11.5,
      "step": 340
    },
    {
      "epoch": 0.2960069444444444,
      "grad_norm": 0.0008411967428401113,
      "learning_rate": 0.0001613298241309241,
      "loss": 11.5,
      "step": 341
    },
    {
      "epoch": 0.296875,
      "grad_norm": 0.002935715951025486,
      "learning_rate": 0.0001611123076274156,
      "loss": 11.5,
      "step": 342
    },
    {
      "epoch": 0.2977430555555556,
      "grad_norm": 0.0020377198234200478,
      "learning_rate": 0.0001608943286407225,
      "loss": 11.5,
      "step": 343
    },
    {
      "epoch": 0.2986111111111111,
      "grad_norm": 0.0023799652699381113,
      "learning_rate": 0.00016067588882045714,
      "loss": 11.5,
      "step": 344
    },
    {
      "epoch": 0.2994791666666667,
      "grad_norm": 0.0018879808485507965,
      "learning_rate": 0.00016045698981971934,
      "loss": 11.5,
      "step": 345
    },
    {
      "epoch": 0.3003472222222222,
      "grad_norm": 0.0013050162233412266,
      "learning_rate": 0.00016023763329508386,
      "loss": 11.5,
      "step": 346
    },
    {
      "epoch": 0.3012152777777778,
      "grad_norm": 0.004421317018568516,
      "learning_rate": 0.0001600178209065879,
      "loss": 11.5,
      "step": 347
    },
    {
      "epoch": 0.3020833333333333,
      "grad_norm": 0.002276934450492263,
      "learning_rate": 0.00015979755431771848,
      "loss": 11.5,
      "step": 348
    },
    {
      "epoch": 0.3029513888888889,
      "grad_norm": 0.0036327075213193893,
      "learning_rate": 0.0001595768351954,
      "loss": 11.5,
      "step": 349
    },
    {
      "epoch": 0.3038194444444444,
      "grad_norm": 0.002793750027194619,
      "learning_rate": 0.00015935566520998147,
      "loss": 11.5,
      "step": 350
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 0.001168596907518804,
      "learning_rate": 0.0001591340460352239,
      "loss": 11.5,
      "step": 351
    },
    {
      "epoch": 0.3055555555555556,
      "grad_norm": 0.0017607428599148989,
      "learning_rate": 0.0001589119793482877,
      "loss": 11.5,
      "step": 352
    },
    {
      "epoch": 0.3064236111111111,
      "grad_norm": 0.0006028185016475618,
      "learning_rate": 0.00015868946682971995,
      "loss": 11.5,
      "step": 353
    },
    {
      "epoch": 0.3072916666666667,
      "grad_norm": 0.0017458616057410836,
      "learning_rate": 0.00015846651016344159,
      "loss": 11.5,
      "step": 354
    },
    {
      "epoch": 0.3081597222222222,
      "grad_norm": 0.0015644587110728025,
      "learning_rate": 0.00015824311103673484,
      "loss": 11.5,
      "step": 355
    },
    {
      "epoch": 0.3090277777777778,
      "grad_norm": 0.0010188049636781216,
      "learning_rate": 0.00015801927114023035,
      "loss": 11.5,
      "step": 356
    },
    {
      "epoch": 0.3098958333333333,
      "grad_norm": 0.001664545270614326,
      "learning_rate": 0.00015779499216789442,
      "loss": 11.5,
      "step": 357
    },
    {
      "epoch": 0.3107638888888889,
      "grad_norm": 0.0015290927840396762,
      "learning_rate": 0.00015757027581701612,
      "loss": 11.5,
      "step": 358
    },
    {
      "epoch": 0.3116319444444444,
      "grad_norm": 0.0025227803271263838,
      "learning_rate": 0.0001573451237881945,
      "loss": 11.5,
      "step": 359
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.0009004006860777736,
      "learning_rate": 0.00015711953778532576,
      "loss": 11.5,
      "step": 360
    },
    {
      "epoch": 0.3133680555555556,
      "grad_norm": 0.00114555680193007,
      "learning_rate": 0.0001568935195155903,
      "loss": 11.5,
      "step": 361
    },
    {
      "epoch": 0.3142361111111111,
      "grad_norm": 0.002140566473826766,
      "learning_rate": 0.00015666707068943974,
      "loss": 11.5,
      "step": 362
    },
    {
      "epoch": 0.3151041666666667,
      "grad_norm": 0.002388535998761654,
      "learning_rate": 0.0001564401930205842,
      "loss": 11.5,
      "step": 363
    },
    {
      "epoch": 0.3159722222222222,
      "grad_norm": 0.0018013836815953255,
      "learning_rate": 0.00015621288822597902,
      "loss": 11.5,
      "step": 364
    },
    {
      "epoch": 0.3168402777777778,
      "grad_norm": 0.0010434127179905772,
      "learning_rate": 0.00015598515802581195,
      "loss": 11.5,
      "step": 365
    },
    {
      "epoch": 0.3177083333333333,
      "grad_norm": 0.0008194621186703444,
      "learning_rate": 0.00015575700414349023,
      "loss": 11.5,
      "step": 366
    },
    {
      "epoch": 0.3185763888888889,
      "grad_norm": 0.0018304877448827028,
      "learning_rate": 0.00015552842830562734,
      "loss": 11.5,
      "step": 367
    },
    {
      "epoch": 0.3194444444444444,
      "grad_norm": 0.0014599775895476341,
      "learning_rate": 0.00015529943224202995,
      "loss": 11.5,
      "step": 368
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 0.0016149358125403523,
      "learning_rate": 0.00015507001768568502,
      "loss": 11.5,
      "step": 369
    },
    {
      "epoch": 0.3211805555555556,
      "grad_norm": 0.0013198732631281018,
      "learning_rate": 0.00015484018637274645,
      "loss": 11.5,
      "step": 370
    },
    {
      "epoch": 0.3220486111111111,
      "grad_norm": 0.001967090182006359,
      "learning_rate": 0.00015460994004252212,
      "loss": 11.5,
      "step": 371
    },
    {
      "epoch": 0.3229166666666667,
      "grad_norm": 0.0012671432923525572,
      "learning_rate": 0.0001543792804374607,
      "loss": 11.5,
      "step": 372
    },
    {
      "epoch": 0.3237847222222222,
      "grad_norm": 0.0023751261178404093,
      "learning_rate": 0.00015414820930313833,
      "loss": 11.5,
      "step": 373
    },
    {
      "epoch": 0.3246527777777778,
      "grad_norm": 0.0016155872726812959,
      "learning_rate": 0.00015391672838824553,
      "loss": 11.5,
      "step": 374
    },
    {
      "epoch": 0.3255208333333333,
      "grad_norm": 0.002182026393711567,
      "learning_rate": 0.000153684839444574,
      "loss": 11.5,
      "step": 375
    },
    {
      "epoch": 0.3263888888888889,
      "grad_norm": 0.0014783090446144342,
      "learning_rate": 0.00015345254422700327,
      "loss": 11.5,
      "step": 376
    },
    {
      "epoch": 0.3272569444444444,
      "grad_norm": 0.001075350446626544,
      "learning_rate": 0.0001532198444934874,
      "loss": 11.5,
      "step": 377
    },
    {
      "epoch": 0.328125,
      "grad_norm": 0.0014147561741992831,
      "learning_rate": 0.00015298674200504183,
      "loss": 11.5,
      "step": 378
    },
    {
      "epoch": 0.3289930555555556,
      "grad_norm": 0.0012655549217015505,
      "learning_rate": 0.00015275323852572984,
      "loss": 11.5,
      "step": 379
    },
    {
      "epoch": 0.3298611111111111,
      "grad_norm": 0.0020128001924604177,
      "learning_rate": 0.00015251933582264936,
      "loss": 11.5,
      "step": 380
    },
    {
      "epoch": 0.3307291666666667,
      "grad_norm": 0.002297670114785433,
      "learning_rate": 0.0001522850356659196,
      "loss": 11.5,
      "step": 381
    },
    {
      "epoch": 0.3315972222222222,
      "grad_norm": 0.0010044195223599672,
      "learning_rate": 0.00015205033982866752,
      "loss": 11.5,
      "step": 382
    },
    {
      "epoch": 0.3324652777777778,
      "grad_norm": 0.001263621961697936,
      "learning_rate": 0.00015181525008701457,
      "loss": 11.5,
      "step": 383
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.0011902116239070892,
      "learning_rate": 0.00015157976822006313,
      "loss": 11.5,
      "step": 384
    },
    {
      "epoch": 0.3342013888888889,
      "grad_norm": 0.0021774028427898884,
      "learning_rate": 0.0001513438960098831,
      "loss": 11.5,
      "step": 385
    },
    {
      "epoch": 0.3350694444444444,
      "grad_norm": 0.0014476359356194735,
      "learning_rate": 0.00015110763524149836,
      "loss": 11.5,
      "step": 386
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 0.0030048885382711887,
      "learning_rate": 0.00015087098770287334,
      "loss": 11.5,
      "step": 387
    },
    {
      "epoch": 0.3368055555555556,
      "grad_norm": 0.001258509699255228,
      "learning_rate": 0.00015063395518489955,
      "loss": 11.5,
      "step": 388
    },
    {
      "epoch": 0.3376736111111111,
      "grad_norm": 0.001052857842296362,
      "learning_rate": 0.00015039653948138176,
      "loss": 11.5,
      "step": 389
    },
    {
      "epoch": 0.3385416666666667,
      "grad_norm": 0.0012837630929425359,
      "learning_rate": 0.00015015874238902467,
      "loss": 11.5,
      "step": 390
    },
    {
      "epoch": 0.3394097222222222,
      "grad_norm": 0.0016472830902785063,
      "learning_rate": 0.0001499205657074193,
      "loss": 11.5,
      "step": 391
    },
    {
      "epoch": 0.3402777777777778,
      "grad_norm": 0.0015535379061475396,
      "learning_rate": 0.00014968201123902918,
      "loss": 11.5,
      "step": 392
    },
    {
      "epoch": 0.3411458333333333,
      "grad_norm": 0.0015876851975917816,
      "learning_rate": 0.00014944308078917702,
      "loss": 11.5,
      "step": 393
    },
    {
      "epoch": 0.3420138888888889,
      "grad_norm": 0.0030738131608814,
      "learning_rate": 0.00014920377616603063,
      "loss": 11.5,
      "step": 394
    },
    {
      "epoch": 0.3428819444444444,
      "grad_norm": 0.0018078606808558106,
      "learning_rate": 0.00014896409918058968,
      "loss": 11.5,
      "step": 395
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.0018406212329864502,
      "learning_rate": 0.00014872405164667173,
      "loss": 11.5,
      "step": 396
    },
    {
      "epoch": 0.3446180555555556,
      "grad_norm": 0.0035091715399175882,
      "learning_rate": 0.00014848363538089846,
      "loss": 11.5,
      "step": 397
    },
    {
      "epoch": 0.3454861111111111,
      "grad_norm": 0.002217979868873954,
      "learning_rate": 0.00014824285220268218,
      "loss": 11.5,
      "step": 398
    },
    {
      "epoch": 0.3463541666666667,
      "grad_norm": 0.0017132109496742487,
      "learning_rate": 0.0001480017039342118,
      "loss": 11.5,
      "step": 399
    },
    {
      "epoch": 0.3472222222222222,
      "grad_norm": 0.0017686162609606981,
      "learning_rate": 0.00014776019240043918,
      "loss": 11.5,
      "step": 400
    },
    {
      "epoch": 0.3480902777777778,
      "grad_norm": 0.001609537284821272,
      "learning_rate": 0.00014751831942906528,
      "loss": 11.5,
      "step": 401
    },
    {
      "epoch": 0.3489583333333333,
      "grad_norm": 0.0011335602030158043,
      "learning_rate": 0.0001472760868505263,
      "loss": 11.5,
      "step": 402
    },
    {
      "epoch": 0.3498263888888889,
      "grad_norm": 0.002029032213613391,
      "learning_rate": 0.0001470334964979799,
      "loss": 11.5,
      "step": 403
    },
    {
      "epoch": 0.3506944444444444,
      "grad_norm": 0.000955064024310559,
      "learning_rate": 0.00014679055020729134,
      "loss": 11.5,
      "step": 404
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 0.0012400473933666945,
      "learning_rate": 0.0001465472498170194,
      "loss": 11.5,
      "step": 405
    },
    {
      "epoch": 0.3524305555555556,
      "grad_norm": 0.0010420636972412467,
      "learning_rate": 0.00014630359716840275,
      "loss": 11.5,
      "step": 406
    },
    {
      "epoch": 0.3532986111111111,
      "grad_norm": 0.000826754723675549,
      "learning_rate": 0.0001460595941053457,
      "loss": 11.5,
      "step": 407
    },
    {
      "epoch": 0.3541666666666667,
      "grad_norm": 0.0019610775634646416,
      "learning_rate": 0.00014581524247440455,
      "loss": 11.5,
      "step": 408
    },
    {
      "epoch": 0.3550347222222222,
      "grad_norm": 0.002518146065995097,
      "learning_rate": 0.00014557054412477343,
      "loss": 11.5,
      "step": 409
    },
    {
      "epoch": 0.3559027777777778,
      "grad_norm": 0.0010427796514704823,
      "learning_rate": 0.00014532550090827034,
      "loss": 11.5,
      "step": 410
    },
    {
      "epoch": 0.3567708333333333,
      "grad_norm": 0.002881243359297514,
      "learning_rate": 0.00014508011467932315,
      "loss": 11.5,
      "step": 411
    },
    {
      "epoch": 0.3576388888888889,
      "grad_norm": 0.0013641596306115389,
      "learning_rate": 0.00014483438729495562,
      "loss": 11.5,
      "step": 412
    },
    {
      "epoch": 0.3585069444444444,
      "grad_norm": 0.0014510328182950616,
      "learning_rate": 0.00014458832061477322,
      "loss": 11.5,
      "step": 413
    },
    {
      "epoch": 0.359375,
      "grad_norm": 0.0019022496417164803,
      "learning_rate": 0.00014434191650094911,
      "loss": 11.5,
      "step": 414
    },
    {
      "epoch": 0.3602430555555556,
      "grad_norm": 0.0010240982519462705,
      "learning_rate": 0.00014409517681821017,
      "loss": 11.5,
      "step": 415
    },
    {
      "epoch": 0.3611111111111111,
      "grad_norm": 0.0009535203571431339,
      "learning_rate": 0.00014384810343382275,
      "loss": 11.5,
      "step": 416
    },
    {
      "epoch": 0.3619791666666667,
      "grad_norm": 0.0008615704136900604,
      "learning_rate": 0.0001436006982175785,
      "loss": 11.5,
      "step": 417
    },
    {
      "epoch": 0.3628472222222222,
      "grad_norm": 0.0012429474154487252,
      "learning_rate": 0.00014335296304178035,
      "loss": 11.5,
      "step": 418
    },
    {
      "epoch": 0.3637152777777778,
      "grad_norm": 0.0018198777688667178,
      "learning_rate": 0.0001431048997812283,
      "loss": 11.5,
      "step": 419
    },
    {
      "epoch": 0.3645833333333333,
      "grad_norm": 0.0015634163282811642,
      "learning_rate": 0.00014285651031320517,
      "loss": 11.5,
      "step": 420
    },
    {
      "epoch": 0.3654513888888889,
      "grad_norm": 0.0018142686458304524,
      "learning_rate": 0.0001426077965174625,
      "loss": 11.5,
      "step": 421
    },
    {
      "epoch": 0.3663194444444444,
      "grad_norm": 0.002908030292019248,
      "learning_rate": 0.0001423587602762062,
      "loss": 11.5,
      "step": 422
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 0.0016502722864970565,
      "learning_rate": 0.00014210940347408242,
      "loss": 11.5,
      "step": 423
    },
    {
      "epoch": 0.3680555555555556,
      "grad_norm": 0.0010631692130118608,
      "learning_rate": 0.00014185972799816315,
      "loss": 11.5,
      "step": 424
    },
    {
      "epoch": 0.3689236111111111,
      "grad_norm": 0.0024625295773148537,
      "learning_rate": 0.0001416097357379322,
      "loss": 11.5,
      "step": 425
    },
    {
      "epoch": 0.3697916666666667,
      "grad_norm": 0.0012518736766651273,
      "learning_rate": 0.00014135942858527054,
      "loss": 11.5,
      "step": 426
    },
    {
      "epoch": 0.3706597222222222,
      "grad_norm": 0.0036585992202162743,
      "learning_rate": 0.00014110880843444225,
      "loss": 11.5,
      "step": 427
    },
    {
      "epoch": 0.3715277777777778,
      "grad_norm": 0.0011257515288889408,
      "learning_rate": 0.00014085787718208016,
      "loss": 11.5,
      "step": 428
    },
    {
      "epoch": 0.3723958333333333,
      "grad_norm": 0.001345523982308805,
      "learning_rate": 0.0001406066367271713,
      "loss": 11.5,
      "step": 429
    },
    {
      "epoch": 0.3732638888888889,
      "grad_norm": 0.0020017295610159636,
      "learning_rate": 0.00014035508897104282,
      "loss": 11.5,
      "step": 430
    },
    {
      "epoch": 0.3741319444444444,
      "grad_norm": 0.0021010555792599916,
      "learning_rate": 0.00014010323581734738,
      "loss": 11.5,
      "step": 431
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.0009478878346271813,
      "learning_rate": 0.00013985107917204877,
      "loss": 11.5,
      "step": 432
    },
    {
      "epoch": 0.3758680555555556,
      "grad_norm": 0.0008926032460294664,
      "learning_rate": 0.00013959862094340764,
      "loss": 11.5,
      "step": 433
    },
    {
      "epoch": 0.3767361111111111,
      "grad_norm": 0.00214194692671299,
      "learning_rate": 0.0001393458630419669,
      "loss": 11.5,
      "step": 434
    },
    {
      "epoch": 0.3776041666666667,
      "grad_norm": 0.0029162256978452206,
      "learning_rate": 0.0001390928073805372,
      "loss": 11.5,
      "step": 435
    },
    {
      "epoch": 0.3784722222222222,
      "grad_norm": 0.0013578681973740458,
      "learning_rate": 0.0001388394558741828,
      "loss": 11.5,
      "step": 436
    },
    {
      "epoch": 0.3793402777777778,
      "grad_norm": 0.0029880893416702747,
      "learning_rate": 0.00013858581044020663,
      "loss": 11.5,
      "step": 437
    },
    {
      "epoch": 0.3802083333333333,
      "grad_norm": 0.0014223085017874837,
      "learning_rate": 0.00013833187299813613,
      "loss": 11.5,
      "step": 438
    },
    {
      "epoch": 0.3810763888888889,
      "grad_norm": 0.001167408307082951,
      "learning_rate": 0.00013807764546970848,
      "loss": 11.5,
      "step": 439
    },
    {
      "epoch": 0.3819444444444444,
      "grad_norm": 0.0019942340441048145,
      "learning_rate": 0.00013782312977885623,
      "loss": 11.5,
      "step": 440
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 0.0006970956455916166,
      "learning_rate": 0.0001375683278516927,
      "loss": 11.5,
      "step": 441
    },
    {
      "epoch": 0.3836805555555556,
      "grad_norm": 0.00191582553088665,
      "learning_rate": 0.00013731324161649728,
      "loss": 11.5,
      "step": 442
    },
    {
      "epoch": 0.3845486111111111,
      "grad_norm": 0.0019277743995189667,
      "learning_rate": 0.000137057873003701,
      "loss": 11.5,
      "step": 443
    },
    {
      "epoch": 0.3854166666666667,
      "grad_norm": 0.002163836732506752,
      "learning_rate": 0.00013680222394587188,
      "loss": 11.5,
      "step": 444
    },
    {
      "epoch": 0.3862847222222222,
      "grad_norm": 0.0013701540883630514,
      "learning_rate": 0.0001365462963777002,
      "loss": 11.5,
      "step": 445
    },
    {
      "epoch": 0.3871527777777778,
      "grad_norm": 0.004045518580824137,
      "learning_rate": 0.00013629009223598403,
      "loss": 11.5,
      "step": 446
    },
    {
      "epoch": 0.3880208333333333,
      "grad_norm": 0.002671585651114583,
      "learning_rate": 0.00013603361345961444,
      "loss": 11.5,
      "step": 447
    },
    {
      "epoch": 0.3888888888888889,
      "grad_norm": 0.003640969516709447,
      "learning_rate": 0.0001357768619895608,
      "loss": 11.5,
      "step": 448
    },
    {
      "epoch": 0.3897569444444444,
      "grad_norm": 0.0018714178586378694,
      "learning_rate": 0.00013551983976885633,
      "loss": 11.5,
      "step": 449
    },
    {
      "epoch": 0.390625,
      "grad_norm": 0.008532208390533924,
      "learning_rate": 0.000135262548742583,
      "loss": 11.5,
      "step": 450
    },
    {
      "epoch": 0.3914930555555556,
      "grad_norm": 0.0015744497068226337,
      "learning_rate": 0.00013500499085785725,
      "loss": 11.5,
      "step": 451
    },
    {
      "epoch": 0.3923611111111111,
      "grad_norm": 0.0011259872699156404,
      "learning_rate": 0.0001347471680638149,
      "loss": 11.5,
      "step": 452
    },
    {
      "epoch": 0.3932291666666667,
      "grad_norm": 0.0020901558455079794,
      "learning_rate": 0.00013448908231159662,
      "loss": 11.5,
      "step": 453
    },
    {
      "epoch": 0.3940972222222222,
      "grad_norm": 0.0016840173630043864,
      "learning_rate": 0.00013423073555433307,
      "loss": 11.5,
      "step": 454
    },
    {
      "epoch": 0.3949652777777778,
      "grad_norm": 0.0012483812170103192,
      "learning_rate": 0.00013397212974713006,
      "loss": 11.5,
      "step": 455
    },
    {
      "epoch": 0.3958333333333333,
      "grad_norm": 0.0011050457833334804,
      "learning_rate": 0.00013371326684705385,
      "loss": 11.5,
      "step": 456
    },
    {
      "epoch": 0.3967013888888889,
      "grad_norm": 0.0009062026510946453,
      "learning_rate": 0.00013345414881311645,
      "loss": 11.5,
      "step": 457
    },
    {
      "epoch": 0.3975694444444444,
      "grad_norm": 0.0012943075271323323,
      "learning_rate": 0.0001331947776062605,
      "loss": 11.5,
      "step": 458
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 0.002404172206297517,
      "learning_rate": 0.00013293515518934468,
      "loss": 11.5,
      "step": 459
    },
    {
      "epoch": 0.3993055555555556,
      "grad_norm": 0.0030951639637351036,
      "learning_rate": 0.00013267528352712868,
      "loss": 11.5,
      "step": 460
    },
    {
      "epoch": 0.4001736111111111,
      "grad_norm": 0.0013946248218417168,
      "learning_rate": 0.00013241516458625853,
      "loss": 11.5,
      "step": 461
    },
    {
      "epoch": 0.4010416666666667,
      "grad_norm": 0.0011992554645985365,
      "learning_rate": 0.00013215480033525157,
      "loss": 11.5,
      "step": 462
    },
    {
      "epoch": 0.4019097222222222,
      "grad_norm": 0.0035151636693626642,
      "learning_rate": 0.0001318941927444815,
      "loss": 11.5,
      "step": 463
    },
    {
      "epoch": 0.4027777777777778,
      "grad_norm": 0.0018112618708983064,
      "learning_rate": 0.00013163334378616369,
      "loss": 11.5,
      "step": 464
    },
    {
      "epoch": 0.4036458333333333,
      "grad_norm": 0.001967149320989847,
      "learning_rate": 0.00013137225543434,
      "loss": 11.5,
      "step": 465
    },
    {
      "epoch": 0.4045138888888889,
      "grad_norm": 0.00185197195969522,
      "learning_rate": 0.0001311109296648641,
      "loss": 11.5,
      "step": 466
    },
    {
      "epoch": 0.4053819444444444,
      "grad_norm": 0.001811288413591683,
      "learning_rate": 0.00013084936845538623,
      "loss": 11.5,
      "step": 467
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.0011043209815397859,
      "learning_rate": 0.00013058757378533846,
      "loss": 11.5,
      "step": 468
    },
    {
      "epoch": 0.4071180555555556,
      "grad_norm": 0.0013876872835680842,
      "learning_rate": 0.00013032554763591967,
      "loss": 11.5,
      "step": 469
    },
    {
      "epoch": 0.4079861111111111,
      "grad_norm": 0.0022942230571061373,
      "learning_rate": 0.00013006329199008042,
      "loss": 11.5,
      "step": 470
    },
    {
      "epoch": 0.4088541666666667,
      "grad_norm": 0.0012965345522388816,
      "learning_rate": 0.00012980080883250814,
      "loss": 11.5,
      "step": 471
    },
    {
      "epoch": 0.4097222222222222,
      "grad_norm": 0.001310399966314435,
      "learning_rate": 0.00012953810014961194,
      "loss": 11.5,
      "step": 472
    },
    {
      "epoch": 0.4105902777777778,
      "grad_norm": 0.0013197927037253976,
      "learning_rate": 0.0001292751679295077,
      "loss": 11.5,
      "step": 473
    },
    {
      "epoch": 0.4114583333333333,
      "grad_norm": 0.0006267277640290558,
      "learning_rate": 0.000129012014162003,
      "loss": 11.5,
      "step": 474
    },
    {
      "epoch": 0.4123263888888889,
      "grad_norm": 0.0008262464543804526,
      "learning_rate": 0.00012874864083858194,
      "loss": 11.5,
      "step": 475
    },
    {
      "epoch": 0.4131944444444444,
      "grad_norm": 0.0018278986681252718,
      "learning_rate": 0.00012848504995239022,
      "loss": 11.5,
      "step": 476
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 0.0012877595145255327,
      "learning_rate": 0.00012822124349822002,
      "loss": 11.5,
      "step": 477
    },
    {
      "epoch": 0.4149305555555556,
      "grad_norm": 0.001060595503076911,
      "learning_rate": 0.0001279572234724949,
      "loss": 11.5,
      "step": 478
    },
    {
      "epoch": 0.4157986111111111,
      "grad_norm": 0.004085163585841656,
      "learning_rate": 0.00012769299187325464,
      "loss": 11.5,
      "step": 479
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.0024971282109618187,
      "learning_rate": 0.00012742855070014015,
      "loss": 11.5,
      "step": 480
    },
    {
      "epoch": 0.4175347222222222,
      "grad_norm": 0.0012571311090141535,
      "learning_rate": 0.00012716390195437836,
      "loss": 11.5,
      "step": 481
    },
    {
      "epoch": 0.4184027777777778,
      "grad_norm": 0.0027940806467086077,
      "learning_rate": 0.00012689904763876707,
      "loss": 11.5,
      "step": 482
    },
    {
      "epoch": 0.4192708333333333,
      "grad_norm": 0.0019756066612899303,
      "learning_rate": 0.00012663398975765975,
      "loss": 11.5,
      "step": 483
    },
    {
      "epoch": 0.4201388888888889,
      "grad_norm": 0.002697096671909094,
      "learning_rate": 0.0001263687303169505,
      "loss": 11.5,
      "step": 484
    },
    {
      "epoch": 0.4210069444444444,
      "grad_norm": 0.001197636709548533,
      "learning_rate": 0.0001261032713240586,
      "loss": 11.5,
      "step": 485
    },
    {
      "epoch": 0.421875,
      "grad_norm": 0.0044157919473946095,
      "learning_rate": 0.00012583761478791367,
      "loss": 11.5,
      "step": 486
    },
    {
      "epoch": 0.4227430555555556,
      "grad_norm": 0.004599937237799168,
      "learning_rate": 0.00012557176271894022,
      "loss": 11.5,
      "step": 487
    },
    {
      "epoch": 0.4236111111111111,
      "grad_norm": 0.0023101437836885452,
      "learning_rate": 0.00012530571712904244,
      "loss": 11.5,
      "step": 488
    },
    {
      "epoch": 0.4244791666666667,
      "grad_norm": 0.0020039828959852457,
      "learning_rate": 0.00012503948003158918,
      "loss": 11.5,
      "step": 489
    },
    {
      "epoch": 0.4253472222222222,
      "grad_norm": 0.0016910547856241465,
      "learning_rate": 0.00012477305344139842,
      "loss": 11.5,
      "step": 490
    },
    {
      "epoch": 0.4262152777777778,
      "grad_norm": 0.0012365900911390781,
      "learning_rate": 0.0001245064393747223,
      "loss": 11.5,
      "step": 491
    },
    {
      "epoch": 0.4270833333333333,
      "grad_norm": 0.001949126715771854,
      "learning_rate": 0.00012423963984923165,
      "loss": 11.5,
      "step": 492
    },
    {
      "epoch": 0.4279513888888889,
      "grad_norm": 0.0016884615179151297,
      "learning_rate": 0.00012397265688400083,
      "loss": 11.5,
      "step": 493
    },
    {
      "epoch": 0.4288194444444444,
      "grad_norm": 0.002612813375890255,
      "learning_rate": 0.00012370549249949252,
      "loss": 11.5,
      "step": 494
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 0.0041664415039122105,
      "learning_rate": 0.00012343814871754218,
      "loss": 11.5,
      "step": 495
    },
    {
      "epoch": 0.4305555555555556,
      "grad_norm": 0.0016007815720513463,
      "learning_rate": 0.000123170627561343,
      "loss": 11.5,
      "step": 496
    },
    {
      "epoch": 0.4314236111111111,
      "grad_norm": 0.0019432218978181481,
      "learning_rate": 0.00012290293105543052,
      "loss": 11.5,
      "step": 497
    },
    {
      "epoch": 0.4322916666666667,
      "grad_norm": 0.001354105887003243,
      "learning_rate": 0.0001226350612256672,
      "loss": 11.5,
      "step": 498
    },
    {
      "epoch": 0.4331597222222222,
      "grad_norm": 0.004148753359913826,
      "learning_rate": 0.0001223670200992272,
      "loss": 11.5,
      "step": 499
    },
    {
      "epoch": 0.4340277777777778,
      "grad_norm": 0.0031714129727333784,
      "learning_rate": 0.0001220988097045811,
      "loss": 11.5,
      "step": 500
    },
    {
      "epoch": 0.4348958333333333,
      "grad_norm": 0.0021490075159817934,
      "learning_rate": 0.00012183043207148032,
      "loss": 11.5,
      "step": 501
    },
    {
      "epoch": 0.4357638888888889,
      "grad_norm": 0.002313383622094989,
      "learning_rate": 0.00012156188923094202,
      "loss": 11.5,
      "step": 502
    },
    {
      "epoch": 0.4366319444444444,
      "grad_norm": 0.0028814286924898624,
      "learning_rate": 0.00012129318321523353,
      "loss": 11.5,
      "step": 503
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.0011687978403642774,
      "learning_rate": 0.00012102431605785709,
      "loss": 11.5,
      "step": 504
    },
    {
      "epoch": 0.4383680555555556,
      "grad_norm": 0.0008639378938823938,
      "learning_rate": 0.00012075528979353442,
      "loss": 11.5,
      "step": 505
    },
    {
      "epoch": 0.4392361111111111,
      "grad_norm": 0.0012350823963060975,
      "learning_rate": 0.0001204861064581913,
      "loss": 11.5,
      "step": 506
    },
    {
      "epoch": 0.4401041666666667,
      "grad_norm": 0.001011008396744728,
      "learning_rate": 0.00012021676808894222,
      "loss": 11.5,
      "step": 507
    },
    {
      "epoch": 0.4409722222222222,
      "grad_norm": 0.0015560468891635537,
      "learning_rate": 0.00011994727672407487,
      "loss": 11.5,
      "step": 508
    },
    {
      "epoch": 0.4418402777777778,
      "grad_norm": 0.002321653300896287,
      "learning_rate": 0.00011967763440303485,
      "loss": 11.5,
      "step": 509
    },
    {
      "epoch": 0.4427083333333333,
      "grad_norm": 0.000908596208319068,
      "learning_rate": 0.0001194078431664101,
      "loss": 11.5,
      "step": 510
    },
    {
      "epoch": 0.4435763888888889,
      "grad_norm": 0.0015678408090025187,
      "learning_rate": 0.00011913790505591556,
      "loss": 11.5,
      "step": 511
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.002438562223687768,
      "learning_rate": 0.00011886782211437766,
      "loss": 11.5,
      "step": 512
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 0.0012962926412001252,
      "learning_rate": 0.00011859759638571886,
      "loss": 11.5,
      "step": 513
    },
    {
      "epoch": 0.4461805555555556,
      "grad_norm": 0.0022380666341632605,
      "learning_rate": 0.00011832722991494218,
      "loss": 11.5,
      "step": 514
    },
    {
      "epoch": 0.4470486111111111,
      "grad_norm": 0.0012308689765632153,
      "learning_rate": 0.00011805672474811582,
      "loss": 11.5,
      "step": 515
    },
    {
      "epoch": 0.4479166666666667,
      "grad_norm": 0.0011043179547414184,
      "learning_rate": 0.00011778608293235756,
      "loss": 11.5,
      "step": 516
    },
    {
      "epoch": 0.4487847222222222,
      "grad_norm": 0.0019588314462453127,
      "learning_rate": 0.00011751530651581925,
      "loss": 11.5,
      "step": 517
    },
    {
      "epoch": 0.4496527777777778,
      "grad_norm": 0.0021224135998636484,
      "learning_rate": 0.00011724439754767145,
      "loss": 11.5,
      "step": 518
    },
    {
      "epoch": 0.4505208333333333,
      "grad_norm": 0.0016498344484716654,
      "learning_rate": 0.00011697335807808778,
      "loss": 11.5,
      "step": 519
    },
    {
      "epoch": 0.4513888888888889,
      "grad_norm": 0.0005867243744432926,
      "learning_rate": 0.00011670219015822949,
      "loss": 11.5,
      "step": 520
    },
    {
      "epoch": 0.4522569444444444,
      "grad_norm": 0.0016282874858006835,
      "learning_rate": 0.0001164308958402299,
      "loss": 11.5,
      "step": 521
    },
    {
      "epoch": 0.453125,
      "grad_norm": 0.0008523845463059843,
      "learning_rate": 0.00011615947717717894,
      "loss": 11.5,
      "step": 522
    },
    {
      "epoch": 0.4539930555555556,
      "grad_norm": 0.0020399971399456263,
      "learning_rate": 0.00011588793622310743,
      "loss": 11.5,
      "step": 523
    },
    {
      "epoch": 0.4548611111111111,
      "grad_norm": 0.0032821933273226023,
      "learning_rate": 0.00011561627503297176,
      "loss": 11.5,
      "step": 524
    },
    {
      "epoch": 0.4557291666666667,
      "grad_norm": 0.001662160619162023,
      "learning_rate": 0.00011534449566263821,
      "loss": 11.5,
      "step": 525
    },
    {
      "epoch": 0.4565972222222222,
      "grad_norm": 0.0012895920081064105,
      "learning_rate": 0.0001150726001688674,
      "loss": 11.5,
      "step": 526
    },
    {
      "epoch": 0.4574652777777778,
      "grad_norm": 0.002429201966151595,
      "learning_rate": 0.00011480059060929882,
      "loss": 11.5,
      "step": 527
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 0.000992851797491312,
      "learning_rate": 0.00011452846904243502,
      "loss": 11.5,
      "step": 528
    },
    {
      "epoch": 0.4592013888888889,
      "grad_norm": 0.0014661422464996576,
      "learning_rate": 0.00011425623752762635,
      "loss": 11.5,
      "step": 529
    },
    {
      "epoch": 0.4600694444444444,
      "grad_norm": 0.0017288133967667818,
      "learning_rate": 0.00011398389812505521,
      "loss": 11.5,
      "step": 530
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 0.0011414831969887018,
      "learning_rate": 0.00011371145289572031,
      "loss": 11.5,
      "step": 531
    },
    {
      "epoch": 0.4618055555555556,
      "grad_norm": 0.002018554834648967,
      "learning_rate": 0.00011343890390142149,
      "loss": 11.5,
      "step": 532
    },
    {
      "epoch": 0.4626736111111111,
      "grad_norm": 0.0021974765695631504,
      "learning_rate": 0.00011316625320474358,
      "loss": 11.5,
      "step": 533
    },
    {
      "epoch": 0.4635416666666667,
      "grad_norm": 0.001448442810215056,
      "learning_rate": 0.00011289350286904131,
      "loss": 11.5,
      "step": 534
    },
    {
      "epoch": 0.4644097222222222,
      "grad_norm": 0.001754354452714324,
      "learning_rate": 0.00011262065495842329,
      "loss": 11.5,
      "step": 535
    },
    {
      "epoch": 0.4652777777777778,
      "grad_norm": 0.001461549079976976,
      "learning_rate": 0.00011234771153773658,
      "loss": 11.5,
      "step": 536
    },
    {
      "epoch": 0.4661458333333333,
      "grad_norm": 0.0018981578759849072,
      "learning_rate": 0.00011207467467255117,
      "loss": 11.5,
      "step": 537
    },
    {
      "epoch": 0.4670138888888889,
      "grad_norm": 0.002494553104043007,
      "learning_rate": 0.00011180154642914402,
      "loss": 11.5,
      "step": 538
    },
    {
      "epoch": 0.4678819444444444,
      "grad_norm": 0.0014693877892568707,
      "learning_rate": 0.00011152832887448375,
      "loss": 11.5,
      "step": 539
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.0011833851458504796,
      "learning_rate": 0.00011125502407621484,
      "loss": 11.5,
      "step": 540
    },
    {
      "epoch": 0.4696180555555556,
      "grad_norm": 0.0016121735097840428,
      "learning_rate": 0.00011098163410264194,
      "loss": 11.5,
      "step": 541
    },
    {
      "epoch": 0.4704861111111111,
      "grad_norm": 0.0011868355795741081,
      "learning_rate": 0.00011070816102271442,
      "loss": 11.5,
      "step": 542
    },
    {
      "epoch": 0.4713541666666667,
      "grad_norm": 0.0021530885715037584,
      "learning_rate": 0.00011043460690601044,
      "loss": 11.5,
      "step": 543
    },
    {
      "epoch": 0.4722222222222222,
      "grad_norm": 0.0028156654443591833,
      "learning_rate": 0.0001101609738227215,
      "loss": 11.5,
      "step": 544
    },
    {
      "epoch": 0.4730902777777778,
      "grad_norm": 0.001311150728724897,
      "learning_rate": 0.00010988726384363672,
      "loss": 11.5,
      "step": 545
    },
    {
      "epoch": 0.4739583333333333,
      "grad_norm": 0.004002951551228762,
      "learning_rate": 0.00010961347904012709,
      "loss": 11.5,
      "step": 546
    },
    {
      "epoch": 0.4748263888888889,
      "grad_norm": 0.0035461196675896645,
      "learning_rate": 0.00010933962148412986,
      "loss": 11.5,
      "step": 547
    },
    {
      "epoch": 0.4756944444444444,
      "grad_norm": 0.0036799353547394276,
      "learning_rate": 0.00010906569324813292,
      "loss": 11.5,
      "step": 548
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 0.0013546935515478253,
      "learning_rate": 0.00010879169640515896,
      "loss": 11.5,
      "step": 549
    },
    {
      "epoch": 0.4774305555555556,
      "grad_norm": 0.004015439189970493,
      "learning_rate": 0.00010851763302874997,
      "loss": 11.5,
      "step": 550
    },
    {
      "epoch": 0.4782986111111111,
      "grad_norm": 0.003615644294768572,
      "learning_rate": 0.00010824350519295133,
      "loss": 11.5,
      "step": 551
    },
    {
      "epoch": 0.4791666666666667,
      "grad_norm": 0.002359814243391156,
      "learning_rate": 0.0001079693149722963,
      "loss": 11.5,
      "step": 552
    },
    {
      "epoch": 0.4800347222222222,
      "grad_norm": 0.0008166720508597791,
      "learning_rate": 0.00010769506444179029,
      "loss": 11.5,
      "step": 553
    },
    {
      "epoch": 0.4809027777777778,
      "grad_norm": 0.0008545948658138514,
      "learning_rate": 0.00010742075567689504,
      "loss": 11.5,
      "step": 554
    },
    {
      "epoch": 0.4817708333333333,
      "grad_norm": 0.0012079601874575019,
      "learning_rate": 0.00010714639075351309,
      "loss": 11.5,
      "step": 555
    },
    {
      "epoch": 0.4826388888888889,
      "grad_norm": 0.0021402821876108646,
      "learning_rate": 0.00010687197174797186,
      "loss": 11.5,
      "step": 556
    },
    {
      "epoch": 0.4835069444444444,
      "grad_norm": 0.002261141547933221,
      "learning_rate": 0.00010659750073700811,
      "loss": 11.5,
      "step": 557
    },
    {
      "epoch": 0.484375,
      "grad_norm": 0.0011012126924470067,
      "learning_rate": 0.00010632297979775219,
      "loss": 11.5,
      "step": 558
    },
    {
      "epoch": 0.4852430555555556,
      "grad_norm": 0.001589581253938377,
      "learning_rate": 0.00010604841100771224,
      "loss": 11.5,
      "step": 559
    },
    {
      "epoch": 0.4861111111111111,
      "grad_norm": 0.0010755349649116397,
      "learning_rate": 0.0001057737964447586,
      "loss": 11.5,
      "step": 560
    },
    {
      "epoch": 0.4869791666666667,
      "grad_norm": 0.0016598926158621907,
      "learning_rate": 0.0001054991381871079,
      "loss": 11.5,
      "step": 561
    },
    {
      "epoch": 0.4878472222222222,
      "grad_norm": 0.000989012187346816,
      "learning_rate": 0.0001052244383133075,
      "loss": 11.5,
      "step": 562
    },
    {
      "epoch": 0.4887152777777778,
      "grad_norm": 0.001013332512229681,
      "learning_rate": 0.00010494969890221975,
      "loss": 11.5,
      "step": 563
    },
    {
      "epoch": 0.4895833333333333,
      "grad_norm": 0.0011533257784321904,
      "learning_rate": 0.00010467492203300615,
      "loss": 11.5,
      "step": 564
    },
    {
      "epoch": 0.4904513888888889,
      "grad_norm": 0.0012769656023010612,
      "learning_rate": 0.00010440010978511166,
      "loss": 11.5,
      "step": 565
    },
    {
      "epoch": 0.4913194444444444,
      "grad_norm": 0.0018392638303339481,
      "learning_rate": 0.000104125264238249,
      "loss": 11.5,
      "step": 566
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 0.004419863689690828,
      "learning_rate": 0.00010385038747238289,
      "loss": 11.5,
      "step": 567
    },
    {
      "epoch": 0.4930555555555556,
      "grad_norm": 0.0011737560853362083,
      "learning_rate": 0.00010357548156771433,
      "loss": 11.5,
      "step": 568
    },
    {
      "epoch": 0.4939236111111111,
      "grad_norm": 0.0015900802100077271,
      "learning_rate": 0.00010330054860466478,
      "loss": 11.5,
      "step": 569
    },
    {
      "epoch": 0.4947916666666667,
      "grad_norm": 0.002191391075029969,
      "learning_rate": 0.00010302559066386055,
      "loss": 11.5,
      "step": 570
    },
    {
      "epoch": 0.4956597222222222,
      "grad_norm": 0.0009667429840192199,
      "learning_rate": 0.00010275060982611688,
      "loss": 11.5,
      "step": 571
    },
    {
      "epoch": 0.4965277777777778,
      "grad_norm": 0.0020751049742102623,
      "learning_rate": 0.00010247560817242237,
      "loss": 11.5,
      "step": 572
    },
    {
      "epoch": 0.4973958333333333,
      "grad_norm": 0.0012839551782235503,
      "learning_rate": 0.0001022005877839231,
      "loss": 11.5,
      "step": 573
    },
    {
      "epoch": 0.4982638888888889,
      "grad_norm": 0.0011484588030725718,
      "learning_rate": 0.00010192555074190695,
      "loss": 11.5,
      "step": 574
    },
    {
      "epoch": 0.4991319444444444,
      "grad_norm": 0.0018763748230412602,
      "learning_rate": 0.00010165049912778788,
      "loss": 11.5,
      "step": 575
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.0009700163500383496,
      "learning_rate": 0.00010137543502308999,
      "loss": 11.5,
      "step": 576
    },
    {
      "epoch": 0.5,
      "eval_loss": 11.5,
      "eval_runtime": 4.0084,
      "eval_samples_per_second": 120.995,
      "eval_steps_per_second": 60.622,
      "step": 576
    },
    {
      "epoch": 0.5008680555555556,
      "grad_norm": 0.0019778693094849586,
      "learning_rate": 0.00010110036050943203,
      "loss": 11.5,
      "step": 577
    },
    {
      "epoch": 0.5017361111111112,
      "grad_norm": 0.0008814401226118207,
      "learning_rate": 0.00010082527766851151,
      "loss": 11.5,
      "step": 578
    },
    {
      "epoch": 0.5026041666666666,
      "grad_norm": 0.0021130105014890432,
      "learning_rate": 0.00010055018858208886,
      "loss": 11.5,
      "step": 579
    },
    {
      "epoch": 0.5034722222222222,
      "grad_norm": 0.004296627826988697,
      "learning_rate": 0.00010027509533197197,
      "loss": 11.5,
      "step": 580
    },
    {
      "epoch": 0.5043402777777778,
      "grad_norm": 0.0011299187317490578,
      "learning_rate": 0.0001,
      "loss": 11.5,
      "step": 581
    },
    {
      "epoch": 0.5052083333333334,
      "grad_norm": 0.0009208327392116189,
      "learning_rate": 9.972490466802805e-05,
      "loss": 11.5,
      "step": 582
    },
    {
      "epoch": 0.5060763888888888,
      "grad_norm": 0.0014696581056341529,
      "learning_rate": 9.944981141791115e-05,
      "loss": 11.5,
      "step": 583
    },
    {
      "epoch": 0.5069444444444444,
      "grad_norm": 0.0012195752933621407,
      "learning_rate": 9.917472233148851e-05,
      "loss": 11.5,
      "step": 584
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 0.001897009089589119,
      "learning_rate": 9.889963949056799e-05,
      "loss": 11.5,
      "step": 585
    },
    {
      "epoch": 0.5086805555555556,
      "grad_norm": 0.0030923793092370033,
      "learning_rate": 9.862456497691003e-05,
      "loss": 11.5,
      "step": 586
    },
    {
      "epoch": 0.5095486111111112,
      "grad_norm": 0.0021699233911931515,
      "learning_rate": 9.834950087221216e-05,
      "loss": 11.5,
      "step": 587
    },
    {
      "epoch": 0.5104166666666666,
      "grad_norm": 0.0010250771883875132,
      "learning_rate": 9.807444925809306e-05,
      "loss": 11.5,
      "step": 588
    },
    {
      "epoch": 0.5112847222222222,
      "grad_norm": 0.0016999997897073627,
      "learning_rate": 9.77994122160769e-05,
      "loss": 11.5,
      "step": 589
    },
    {
      "epoch": 0.5121527777777778,
      "grad_norm": 0.0012022015871480107,
      "learning_rate": 9.752439182757764e-05,
      "loss": 11.5,
      "step": 590
    },
    {
      "epoch": 0.5130208333333334,
      "grad_norm": 0.0014066708972677588,
      "learning_rate": 9.724939017388313e-05,
      "loss": 11.5,
      "step": 591
    },
    {
      "epoch": 0.5138888888888888,
      "grad_norm": 0.0016397404251620173,
      "learning_rate": 9.697440933613946e-05,
      "loss": 11.5,
      "step": 592
    },
    {
      "epoch": 0.5147569444444444,
      "grad_norm": 0.0020216130651533604,
      "learning_rate": 9.669945139533524e-05,
      "loss": 11.5,
      "step": 593
    },
    {
      "epoch": 0.515625,
      "grad_norm": 0.0022216602228581905,
      "learning_rate": 9.642451843228568e-05,
      "loss": 11.5,
      "step": 594
    },
    {
      "epoch": 0.5164930555555556,
      "grad_norm": 0.002481528092175722,
      "learning_rate": 9.614961252761713e-05,
      "loss": 11.5,
      "step": 595
    },
    {
      "epoch": 0.5173611111111112,
      "grad_norm": 0.0016836911672726274,
      "learning_rate": 9.587473576175103e-05,
      "loss": 11.5,
      "step": 596
    },
    {
      "epoch": 0.5182291666666666,
      "grad_norm": 0.0015577003359794617,
      "learning_rate": 9.559989021488838e-05,
      "loss": 11.5,
      "step": 597
    },
    {
      "epoch": 0.5190972222222222,
      "grad_norm": 0.0060155619867146015,
      "learning_rate": 9.532507796699388e-05,
      "loss": 11.5,
      "step": 598
    },
    {
      "epoch": 0.5199652777777778,
      "grad_norm": 0.0013632876798510551,
      "learning_rate": 9.505030109778023e-05,
      "loss": 11.5,
      "step": 599
    },
    {
      "epoch": 0.5208333333333334,
      "grad_norm": 0.004375627730041742,
      "learning_rate": 9.47755616866925e-05,
      "loss": 11.5,
      "step": 600
    },
    {
      "epoch": 0.5217013888888888,
      "grad_norm": 0.001881323056295514,
      "learning_rate": 9.450086181289213e-05,
      "loss": 11.5,
      "step": 601
    },
    {
      "epoch": 0.5225694444444444,
      "grad_norm": 0.0014247492654249072,
      "learning_rate": 9.422620355524144e-05,
      "loss": 11.5,
      "step": 602
    },
    {
      "epoch": 0.5234375,
      "grad_norm": 0.0013083925005048513,
      "learning_rate": 9.395158899228777e-05,
      "loss": 11.5,
      "step": 603
    },
    {
      "epoch": 0.5243055555555556,
      "grad_norm": 0.001299867988564074,
      "learning_rate": 9.367702020224782e-05,
      "loss": 11.5,
      "step": 604
    },
    {
      "epoch": 0.5251736111111112,
      "grad_norm": 0.0017604646272957325,
      "learning_rate": 9.340249926299192e-05,
      "loss": 11.5,
      "step": 605
    },
    {
      "epoch": 0.5260416666666666,
      "grad_norm": 0.001473496900871396,
      "learning_rate": 9.312802825202817e-05,
      "loss": 11.5,
      "step": 606
    },
    {
      "epoch": 0.5269097222222222,
      "grad_norm": 0.0009096980793401599,
      "learning_rate": 9.285360924648695e-05,
      "loss": 11.5,
      "step": 607
    },
    {
      "epoch": 0.5277777777777778,
      "grad_norm": 0.0016788729699328542,
      "learning_rate": 9.257924432310497e-05,
      "loss": 11.5,
      "step": 608
    },
    {
      "epoch": 0.5286458333333334,
      "grad_norm": 0.0011784074595198035,
      "learning_rate": 9.230493555820971e-05,
      "loss": 11.5,
      "step": 609
    },
    {
      "epoch": 0.5295138888888888,
      "grad_norm": 0.0013059241464361548,
      "learning_rate": 9.203068502770371e-05,
      "loss": 11.5,
      "step": 610
    },
    {
      "epoch": 0.5303819444444444,
      "grad_norm": 0.0013456150190904737,
      "learning_rate": 9.17564948070487e-05,
      "loss": 11.5,
      "step": 611
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.0019146361155435443,
      "learning_rate": 9.148236697125008e-05,
      "loss": 11.5,
      "step": 612
    },
    {
      "epoch": 0.5321180555555556,
      "grad_norm": 0.0010906283278018236,
      "learning_rate": 9.120830359484105e-05,
      "loss": 11.5,
      "step": 613
    },
    {
      "epoch": 0.5329861111111112,
      "grad_norm": 0.0013919799821451306,
      "learning_rate": 9.093430675186708e-05,
      "loss": 11.5,
      "step": 614
    },
    {
      "epoch": 0.5338541666666666,
      "grad_norm": 0.0020885413978248835,
      "learning_rate": 9.066037851587015e-05,
      "loss": 11.5,
      "step": 615
    },
    {
      "epoch": 0.5347222222222222,
      "grad_norm": 0.002285095863044262,
      "learning_rate": 9.038652095987294e-05,
      "loss": 11.5,
      "step": 616
    },
    {
      "epoch": 0.5355902777777778,
      "grad_norm": 0.0006980267353355885,
      "learning_rate": 9.01127361563633e-05,
      "loss": 11.5,
      "step": 617
    },
    {
      "epoch": 0.5364583333333334,
      "grad_norm": 0.0008477265364490449,
      "learning_rate": 8.983902617727852e-05,
      "loss": 11.5,
      "step": 618
    },
    {
      "epoch": 0.5373263888888888,
      "grad_norm": 0.0013647429877892137,
      "learning_rate": 8.956539309398957e-05,
      "loss": 11.5,
      "step": 619
    },
    {
      "epoch": 0.5381944444444444,
      "grad_norm": 0.002255059778690338,
      "learning_rate": 8.92918389772856e-05,
      "loss": 11.5,
      "step": 620
    },
    {
      "epoch": 0.5390625,
      "grad_norm": 0.0005602688761427999,
      "learning_rate": 8.901836589735807e-05,
      "loss": 11.5,
      "step": 621
    },
    {
      "epoch": 0.5399305555555556,
      "grad_norm": 0.0036878979299217463,
      "learning_rate": 8.87449759237852e-05,
      "loss": 11.5,
      "step": 622
    },
    {
      "epoch": 0.5407986111111112,
      "grad_norm": 0.0033026656601577997,
      "learning_rate": 8.847167112551627e-05,
      "loss": 11.5,
      "step": 623
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 0.0012626199750229716,
      "learning_rate": 8.819845357085598e-05,
      "loss": 11.5,
      "step": 624
    },
    {
      "epoch": 0.5425347222222222,
      "grad_norm": 0.0013130723964422941,
      "learning_rate": 8.792532532744885e-05,
      "loss": 11.5,
      "step": 625
    },
    {
      "epoch": 0.5434027777777778,
      "grad_norm": 0.001585346064530313,
      "learning_rate": 8.765228846226341e-05,
      "loss": 11.5,
      "step": 626
    },
    {
      "epoch": 0.5442708333333334,
      "grad_norm": 0.001730398740619421,
      "learning_rate": 8.737934504157675e-05,
      "loss": 11.5,
      "step": 627
    },
    {
      "epoch": 0.5451388888888888,
      "grad_norm": 0.0021712975576519966,
      "learning_rate": 8.710649713095872e-05,
      "loss": 11.5,
      "step": 628
    },
    {
      "epoch": 0.5460069444444444,
      "grad_norm": 0.0026356850285083055,
      "learning_rate": 8.683374679525644e-05,
      "loss": 11.5,
      "step": 629
    },
    {
      "epoch": 0.546875,
      "grad_norm": 0.0008746772073209286,
      "learning_rate": 8.656109609857854e-05,
      "loss": 11.5,
      "step": 630
    },
    {
      "epoch": 0.5477430555555556,
      "grad_norm": 0.00149302848149091,
      "learning_rate": 8.628854710427968e-05,
      "loss": 11.5,
      "step": 631
    },
    {
      "epoch": 0.5486111111111112,
      "grad_norm": 0.001463817898184061,
      "learning_rate": 8.601610187494484e-05,
      "loss": 11.5,
      "step": 632
    },
    {
      "epoch": 0.5494791666666666,
      "grad_norm": 0.003594032721593976,
      "learning_rate": 8.574376247237367e-05,
      "loss": 11.5,
      "step": 633
    },
    {
      "epoch": 0.5503472222222222,
      "grad_norm": 0.0032941256649792194,
      "learning_rate": 8.547153095756503e-05,
      "loss": 11.5,
      "step": 634
    },
    {
      "epoch": 0.5512152777777778,
      "grad_norm": 0.003879768308252096,
      "learning_rate": 8.519940939070121e-05,
      "loss": 11.5,
      "step": 635
    },
    {
      "epoch": 0.5520833333333334,
      "grad_norm": 0.0030487258918583393,
      "learning_rate": 8.49273998311326e-05,
      "loss": 11.5,
      "step": 636
    },
    {
      "epoch": 0.5529513888888888,
      "grad_norm": 0.0011519782710820436,
      "learning_rate": 8.46555043373618e-05,
      "loss": 11.5,
      "step": 637
    },
    {
      "epoch": 0.5538194444444444,
      "grad_norm": 0.005096325185149908,
      "learning_rate": 8.438372496702826e-05,
      "loss": 11.5,
      "step": 638
    },
    {
      "epoch": 0.5546875,
      "grad_norm": 0.002147446386516094,
      "learning_rate": 8.41120637768926e-05,
      "loss": 11.5,
      "step": 639
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.0012059819418936968,
      "learning_rate": 8.384052282282107e-05,
      "loss": 11.5,
      "step": 640
    },
    {
      "epoch": 0.5564236111111112,
      "grad_norm": 0.0031190707813948393,
      "learning_rate": 8.356910415977008e-05,
      "loss": 11.5,
      "step": 641
    },
    {
      "epoch": 0.5572916666666666,
      "grad_norm": 0.004991755820810795,
      "learning_rate": 8.329780984177053e-05,
      "loss": 11.5,
      "step": 642
    },
    {
      "epoch": 0.5581597222222222,
      "grad_norm": 0.001568803796544671,
      "learning_rate": 8.302664192191225e-05,
      "loss": 11.5,
      "step": 643
    },
    {
      "epoch": 0.5590277777777778,
      "grad_norm": 0.002144200960174203,
      "learning_rate": 8.27556024523286e-05,
      "loss": 11.5,
      "step": 644
    },
    {
      "epoch": 0.5598958333333334,
      "grad_norm": 0.0022881345357745886,
      "learning_rate": 8.248469348418076e-05,
      "loss": 11.5,
      "step": 645
    },
    {
      "epoch": 0.5607638888888888,
      "grad_norm": 0.0020928173325955868,
      "learning_rate": 8.221391706764245e-05,
      "loss": 11.5,
      "step": 646
    },
    {
      "epoch": 0.5616319444444444,
      "grad_norm": 0.0021699483040720224,
      "learning_rate": 8.194327525188419e-05,
      "loss": 11.5,
      "step": 647
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.007211752701550722,
      "learning_rate": 8.167277008505783e-05,
      "loss": 11.5,
      "step": 648
    },
    {
      "epoch": 0.5633680555555556,
      "grad_norm": 0.001326661673374474,
      "learning_rate": 8.140240361428119e-05,
      "loss": 11.5,
      "step": 649
    },
    {
      "epoch": 0.5642361111111112,
      "grad_norm": 0.00660841865465045,
      "learning_rate": 8.113217788562235e-05,
      "loss": 11.5,
      "step": 650
    },
    {
      "epoch": 0.5651041666666666,
      "grad_norm": 0.0014739480102434754,
      "learning_rate": 8.086209494408443e-05,
      "loss": 11.5,
      "step": 651
    },
    {
      "epoch": 0.5659722222222222,
      "grad_norm": 0.002092307433485985,
      "learning_rate": 8.059215683358991e-05,
      "loss": 11.5,
      "step": 652
    },
    {
      "epoch": 0.5668402777777778,
      "grad_norm": 0.001279346877709031,
      "learning_rate": 8.032236559696517e-05,
      "loss": 11.5,
      "step": 653
    },
    {
      "epoch": 0.5677083333333334,
      "grad_norm": 0.0011070786276832223,
      "learning_rate": 8.005272327592517e-05,
      "loss": 11.5,
      "step": 654
    },
    {
      "epoch": 0.5685763888888888,
      "grad_norm": 0.0008306838572025299,
      "learning_rate": 7.978323191105781e-05,
      "loss": 11.5,
      "step": 655
    },
    {
      "epoch": 0.5694444444444444,
      "grad_norm": 0.0007445892551913857,
      "learning_rate": 7.951389354180871e-05,
      "loss": 11.5,
      "step": 656
    },
    {
      "epoch": 0.5703125,
      "grad_norm": 0.005484406836330891,
      "learning_rate": 7.924471020646559e-05,
      "loss": 11.5,
      "step": 657
    },
    {
      "epoch": 0.5711805555555556,
      "grad_norm": 0.0010329093784093857,
      "learning_rate": 7.897568394214292e-05,
      "loss": 11.5,
      "step": 658
    },
    {
      "epoch": 0.5720486111111112,
      "grad_norm": 0.0006871704827062786,
      "learning_rate": 7.87068167847665e-05,
      "loss": 11.5,
      "step": 659
    },
    {
      "epoch": 0.5729166666666666,
      "grad_norm": 0.0011949118925258517,
      "learning_rate": 7.8438110769058e-05,
      "loss": 11.5,
      "step": 660
    },
    {
      "epoch": 0.5737847222222222,
      "grad_norm": 0.001538886222988367,
      "learning_rate": 7.81695679285197e-05,
      "loss": 11.5,
      "step": 661
    },
    {
      "epoch": 0.5746527777777778,
      "grad_norm": 0.0011292390991002321,
      "learning_rate": 7.790119029541893e-05,
      "loss": 11.5,
      "step": 662
    },
    {
      "epoch": 0.5755208333333334,
      "grad_norm": 0.0014211632078513503,
      "learning_rate": 7.76329799007728e-05,
      "loss": 11.5,
      "step": 663
    },
    {
      "epoch": 0.5763888888888888,
      "grad_norm": 0.001660580630414188,
      "learning_rate": 7.736493877433285e-05,
      "loss": 11.5,
      "step": 664
    },
    {
      "epoch": 0.5772569444444444,
      "grad_norm": 0.001973988488316536,
      "learning_rate": 7.709706894456949e-05,
      "loss": 11.5,
      "step": 665
    },
    {
      "epoch": 0.578125,
      "grad_norm": 0.0005882502882741392,
      "learning_rate": 7.682937243865701e-05,
      "loss": 11.5,
      "step": 666
    },
    {
      "epoch": 0.5789930555555556,
      "grad_norm": 0.0012286331038922071,
      "learning_rate": 7.656185128245786e-05,
      "loss": 11.5,
      "step": 667
    },
    {
      "epoch": 0.5798611111111112,
      "grad_norm": 0.0010003783972933888,
      "learning_rate": 7.62945075005075e-05,
      "loss": 11.5,
      "step": 668
    },
    {
      "epoch": 0.5807291666666666,
      "grad_norm": 0.0014038726221770048,
      "learning_rate": 7.602734311599918e-05,
      "loss": 11.5,
      "step": 669
    },
    {
      "epoch": 0.5815972222222222,
      "grad_norm": 0.0007133771432563663,
      "learning_rate": 7.576036015076837e-05,
      "loss": 11.5,
      "step": 670
    },
    {
      "epoch": 0.5824652777777778,
      "grad_norm": 0.0011132239596918225,
      "learning_rate": 7.549356062527773e-05,
      "loss": 11.5,
      "step": 671
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.0030376326758414507,
      "learning_rate": 7.52269465586016e-05,
      "loss": 11.5,
      "step": 672
    },
    {
      "epoch": 0.5842013888888888,
      "grad_norm": 0.0017594479722902179,
      "learning_rate": 7.496051996841084e-05,
      "loss": 11.5,
      "step": 673
    },
    {
      "epoch": 0.5850694444444444,
      "grad_norm": 0.0019226337317377329,
      "learning_rate": 7.469428287095757e-05,
      "loss": 11.5,
      "step": 674
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 0.0011766973184421659,
      "learning_rate": 7.442823728105979e-05,
      "loss": 11.5,
      "step": 675
    },
    {
      "epoch": 0.5868055555555556,
      "grad_norm": 0.003263605060055852,
      "learning_rate": 7.416238521208634e-05,
      "loss": 11.5,
      "step": 676
    },
    {
      "epoch": 0.5876736111111112,
      "grad_norm": 0.0009665003162808716,
      "learning_rate": 7.389672867594142e-05,
      "loss": 11.5,
      "step": 677
    },
    {
      "epoch": 0.5885416666666666,
      "grad_norm": 0.0014465402346104383,
      "learning_rate": 7.363126968304955e-05,
      "loss": 11.5,
      "step": 678
    },
    {
      "epoch": 0.5894097222222222,
      "grad_norm": 0.0010096629848703742,
      "learning_rate": 7.336601024234028e-05,
      "loss": 11.5,
      "step": 679
    },
    {
      "epoch": 0.5902777777777778,
      "grad_norm": 0.0014681245665997267,
      "learning_rate": 7.310095236123295e-05,
      "loss": 11.5,
      "step": 680
    },
    {
      "epoch": 0.5911458333333334,
      "grad_norm": 0.0013237447710707784,
      "learning_rate": 7.283609804562168e-05,
      "loss": 11.5,
      "step": 681
    },
    {
      "epoch": 0.5920138888888888,
      "grad_norm": 0.004514832049608231,
      "learning_rate": 7.257144929985988e-05,
      "loss": 11.5,
      "step": 682
    },
    {
      "epoch": 0.5928819444444444,
      "grad_norm": 0.001434053760021925,
      "learning_rate": 7.230700812674538e-05,
      "loss": 11.5,
      "step": 683
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.011120152659714222,
      "learning_rate": 7.204277652750512e-05,
      "loss": 11.5,
      "step": 684
    },
    {
      "epoch": 0.5946180555555556,
      "grad_norm": 0.0015218566404655576,
      "learning_rate": 7.177875650177998e-05,
      "loss": 11.5,
      "step": 685
    },
    {
      "epoch": 0.5954861111111112,
      "grad_norm": 0.006342688575387001,
      "learning_rate": 7.15149500476098e-05,
      "loss": 11.5,
      "step": 686
    },
    {
      "epoch": 0.5963541666666666,
      "grad_norm": 0.0019526168471202254,
      "learning_rate": 7.12513591614181e-05,
      "loss": 11.5,
      "step": 687
    },
    {
      "epoch": 0.5972222222222222,
      "grad_norm": 0.0018789576133713126,
      "learning_rate": 7.098798583799701e-05,
      "loss": 11.5,
      "step": 688
    },
    {
      "epoch": 0.5980902777777778,
      "grad_norm": 0.0013176569482311606,
      "learning_rate": 7.072483207049232e-05,
      "loss": 11.5,
      "step": 689
    },
    {
      "epoch": 0.5989583333333334,
      "grad_norm": 0.0014678117586299777,
      "learning_rate": 7.046189985038807e-05,
      "loss": 11.5,
      "step": 690
    },
    {
      "epoch": 0.5998263888888888,
      "grad_norm": 0.002022077329456806,
      "learning_rate": 7.01991911674919e-05,
      "loss": 11.5,
      "step": 691
    },
    {
      "epoch": 0.6006944444444444,
      "grad_norm": 0.001642107730731368,
      "learning_rate": 6.99367080099196e-05,
      "loss": 11.5,
      "step": 692
    },
    {
      "epoch": 0.6015625,
      "grad_norm": 0.002113515045493841,
      "learning_rate": 6.967445236408037e-05,
      "loss": 11.5,
      "step": 693
    },
    {
      "epoch": 0.6024305555555556,
      "grad_norm": 0.001521032303571701,
      "learning_rate": 6.941242621466157e-05,
      "loss": 11.5,
      "step": 694
    },
    {
      "epoch": 0.6032986111111112,
      "grad_norm": 0.004011801443994045,
      "learning_rate": 6.915063154461379e-05,
      "loss": 11.5,
      "step": 695
    },
    {
      "epoch": 0.6041666666666666,
      "grad_norm": 0.0016971670556813478,
      "learning_rate": 6.888907033513592e-05,
      "loss": 11.5,
      "step": 696
    },
    {
      "epoch": 0.6050347222222222,
      "grad_norm": 0.003934638109058142,
      "learning_rate": 6.862774456565999e-05,
      "loss": 11.5,
      "step": 697
    },
    {
      "epoch": 0.6059027777777778,
      "grad_norm": 0.0015387641033157706,
      "learning_rate": 6.836665621383635e-05,
      "loss": 11.5,
      "step": 698
    },
    {
      "epoch": 0.6067708333333334,
      "grad_norm": 0.0042356583289802074,
      "learning_rate": 6.810580725551853e-05,
      "loss": 11.5,
      "step": 699
    },
    {
      "epoch": 0.6076388888888888,
      "grad_norm": 0.003560112789273262,
      "learning_rate": 6.784519966474845e-05,
      "loss": 11.5,
      "step": 700
    },
    {
      "epoch": 0.6085069444444444,
      "grad_norm": 0.0008097377140074968,
      "learning_rate": 6.758483541374148e-05,
      "loss": 11.5,
      "step": 701
    },
    {
      "epoch": 0.609375,
      "grad_norm": 0.0016418751329183578,
      "learning_rate": 6.732471647287133e-05,
      "loss": 11.5,
      "step": 702
    },
    {
      "epoch": 0.6102430555555556,
      "grad_norm": 0.0016457024030387402,
      "learning_rate": 6.706484481065539e-05,
      "loss": 11.5,
      "step": 703
    },
    {
      "epoch": 0.6111111111111112,
      "grad_norm": 0.0019372182432562113,
      "learning_rate": 6.680522239373953e-05,
      "loss": 11.5,
      "step": 704
    },
    {
      "epoch": 0.6119791666666666,
      "grad_norm": 0.0007521759835071862,
      "learning_rate": 6.654585118688356e-05,
      "loss": 11.5,
      "step": 705
    },
    {
      "epoch": 0.6128472222222222,
      "grad_norm": 0.004906199872493744,
      "learning_rate": 6.628673315294616e-05,
      "loss": 11.5,
      "step": 706
    },
    {
      "epoch": 0.6137152777777778,
      "grad_norm": 0.001188084832392633,
      "learning_rate": 6.602787025286998e-05,
      "loss": 11.5,
      "step": 707
    },
    {
      "epoch": 0.6145833333333334,
      "grad_norm": 0.0012959263985976577,
      "learning_rate": 6.576926444566698e-05,
      "loss": 11.5,
      "step": 708
    },
    {
      "epoch": 0.6154513888888888,
      "grad_norm": 0.0005490829353220761,
      "learning_rate": 6.551091768840338e-05,
      "loss": 11.5,
      "step": 709
    },
    {
      "epoch": 0.6163194444444444,
      "grad_norm": 0.0019717062823474407,
      "learning_rate": 6.525283193618508e-05,
      "loss": 11.5,
      "step": 710
    },
    {
      "epoch": 0.6171875,
      "grad_norm": 0.001310180057771504,
      "learning_rate": 6.499500914214276e-05,
      "loss": 11.5,
      "step": 711
    },
    {
      "epoch": 0.6180555555555556,
      "grad_norm": 0.0015153499552980065,
      "learning_rate": 6.473745125741701e-05,
      "loss": 11.5,
      "step": 712
    },
    {
      "epoch": 0.6189236111111112,
      "grad_norm": 0.00096973089966923,
      "learning_rate": 6.448016023114372e-05,
      "loss": 11.5,
      "step": 713
    },
    {
      "epoch": 0.6197916666666666,
      "grad_norm": 0.0016387723153457046,
      "learning_rate": 6.422313801043922e-05,
      "loss": 11.5,
      "step": 714
    },
    {
      "epoch": 0.6206597222222222,
      "grad_norm": 0.001124878297559917,
      "learning_rate": 6.396638654038557e-05,
      "loss": 11.5,
      "step": 715
    },
    {
      "epoch": 0.6215277777777778,
      "grad_norm": 0.0008261019247584045,
      "learning_rate": 6.370990776401597e-05,
      "loss": 11.5,
      "step": 716
    },
    {
      "epoch": 0.6223958333333334,
      "grad_norm": 0.0016587264835834503,
      "learning_rate": 6.34537036222998e-05,
      "loss": 11.5,
      "step": 717
    },
    {
      "epoch": 0.6232638888888888,
      "grad_norm": 0.0011596712283790112,
      "learning_rate": 6.319777605412816e-05,
      "loss": 11.5,
      "step": 718
    },
    {
      "epoch": 0.6241319444444444,
      "grad_norm": 0.0019557089544832706,
      "learning_rate": 6.294212699629902e-05,
      "loss": 11.5,
      "step": 719
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.0009320349781773984,
      "learning_rate": 6.268675838350273e-05,
      "loss": 11.5,
      "step": 720
    },
    {
      "epoch": 0.6258680555555556,
      "grad_norm": 0.002747082617133856,
      "learning_rate": 6.243167214830733e-05,
      "loss": 11.5,
      "step": 721
    },
    {
      "epoch": 0.6267361111111112,
      "grad_norm": 0.0009373842040076852,
      "learning_rate": 6.217687022114377e-05,
      "loss": 11.5,
      "step": 722
    },
    {
      "epoch": 0.6276041666666666,
      "grad_norm": 0.0009703225805424154,
      "learning_rate": 6.192235453029155e-05,
      "loss": 11.5,
      "step": 723
    },
    {
      "epoch": 0.6284722222222222,
      "grad_norm": 0.0015494187828153372,
      "learning_rate": 6.166812700186389e-05,
      "loss": 11.5,
      "step": 724
    },
    {
      "epoch": 0.6293402777777778,
      "grad_norm": 0.002333492273464799,
      "learning_rate": 6.141418955979339e-05,
      "loss": 11.5,
      "step": 725
    },
    {
      "epoch": 0.6302083333333334,
      "grad_norm": 0.0021203418727964163,
      "learning_rate": 6.116054412581722e-05,
      "loss": 11.5,
      "step": 726
    },
    {
      "epoch": 0.6310763888888888,
      "grad_norm": 0.002065259963274002,
      "learning_rate": 6.090719261946279e-05,
      "loss": 11.5,
      "step": 727
    },
    {
      "epoch": 0.6319444444444444,
      "grad_norm": 0.004086391068994999,
      "learning_rate": 6.065413695803316e-05,
      "loss": 11.5,
      "step": 728
    },
    {
      "epoch": 0.6328125,
      "grad_norm": 0.0008750841952860355,
      "learning_rate": 6.0401379056592375e-05,
      "loss": 11.5,
      "step": 729
    },
    {
      "epoch": 0.6336805555555556,
      "grad_norm": 0.0007442179485224187,
      "learning_rate": 6.014892082795127e-05,
      "loss": 11.5,
      "step": 730
    },
    {
      "epoch": 0.6345486111111112,
      "grad_norm": 0.0009462524903938174,
      "learning_rate": 5.9896764182652654e-05,
      "loss": 11.5,
      "step": 731
    },
    {
      "epoch": 0.6354166666666666,
      "grad_norm": 0.0015990184620022774,
      "learning_rate": 5.9644911028957196e-05,
      "loss": 11.5,
      "step": 732
    },
    {
      "epoch": 0.6362847222222222,
      "grad_norm": 0.0030055323150008917,
      "learning_rate": 5.939336327282874e-05,
      "loss": 11.5,
      "step": 733
    },
    {
      "epoch": 0.6371527777777778,
      "grad_norm": 0.0014683946501463652,
      "learning_rate": 5.914212281791989e-05,
      "loss": 11.5,
      "step": 734
    },
    {
      "epoch": 0.6380208333333334,
      "grad_norm": 0.0009487700881436467,
      "learning_rate": 5.889119156555778e-05,
      "loss": 11.5,
      "step": 735
    },
    {
      "epoch": 0.6388888888888888,
      "grad_norm": 0.0021969852969050407,
      "learning_rate": 5.8640571414729486e-05,
      "loss": 11.5,
      "step": 736
    },
    {
      "epoch": 0.6397569444444444,
      "grad_norm": 0.0016464543296024203,
      "learning_rate": 5.839026426206782e-05,
      "loss": 11.5,
      "step": 737
    },
    {
      "epoch": 0.640625,
      "grad_norm": 0.001877051079645753,
      "learning_rate": 5.814027200183685e-05,
      "loss": 11.5,
      "step": 738
    },
    {
      "epoch": 0.6414930555555556,
      "grad_norm": 0.002923601074144244,
      "learning_rate": 5.7890596525917593e-05,
      "loss": 11.5,
      "step": 739
    },
    {
      "epoch": 0.6423611111111112,
      "grad_norm": 0.0014065817231312394,
      "learning_rate": 5.7641239723793814e-05,
      "loss": 11.5,
      "step": 740
    },
    {
      "epoch": 0.6432291666666666,
      "grad_norm": 0.001523357816040516,
      "learning_rate": 5.739220348253753e-05,
      "loss": 11.5,
      "step": 741
    },
    {
      "epoch": 0.6440972222222222,
      "grad_norm": 0.0017607128247618675,
      "learning_rate": 5.714348968679483e-05,
      "loss": 11.5,
      "step": 742
    },
    {
      "epoch": 0.6449652777777778,
      "grad_norm": 0.0027938534040004015,
      "learning_rate": 5.689510021877173e-05,
      "loss": 11.5,
      "step": 743
    },
    {
      "epoch": 0.6458333333333334,
      "grad_norm": 0.0022843750193715096,
      "learning_rate": 5.664703695821965e-05,
      "loss": 11.5,
      "step": 744
    },
    {
      "epoch": 0.6467013888888888,
      "grad_norm": 0.0012775073992088437,
      "learning_rate": 5.639930178242152e-05,
      "loss": 11.5,
      "step": 745
    },
    {
      "epoch": 0.6475694444444444,
      "grad_norm": 0.002091238973662257,
      "learning_rate": 5.6151896566177275e-05,
      "loss": 11.5,
      "step": 746
    },
    {
      "epoch": 0.6484375,
      "grad_norm": 0.004084584303200245,
      "learning_rate": 5.590482318178982e-05,
      "loss": 11.5,
      "step": 747
    },
    {
      "epoch": 0.6493055555555556,
      "grad_norm": 0.00259496015496552,
      "learning_rate": 5.56580834990509e-05,
      "loss": 11.5,
      "step": 748
    },
    {
      "epoch": 0.6501736111111112,
      "grad_norm": 0.002620120532810688,
      "learning_rate": 5.54116793852268e-05,
      "loss": 11.5,
      "step": 749
    },
    {
      "epoch": 0.6510416666666666,
      "grad_norm": 0.002649804577231407,
      "learning_rate": 5.5165612705044386e-05,
      "loss": 11.5,
      "step": 750
    },
    {
      "epoch": 0.6519097222222222,
      "grad_norm": 0.0007880993653088808,
      "learning_rate": 5.491988532067687e-05,
      "loss": 11.5,
      "step": 751
    },
    {
      "epoch": 0.6527777777777778,
      "grad_norm": 0.0018418020335957408,
      "learning_rate": 5.467449909172966e-05,
      "loss": 11.5,
      "step": 752
    },
    {
      "epoch": 0.6536458333333334,
      "grad_norm": 0.0009528090595267713,
      "learning_rate": 5.442945587522659e-05,
      "loss": 11.5,
      "step": 753
    },
    {
      "epoch": 0.6545138888888888,
      "grad_norm": 0.001062702969647944,
      "learning_rate": 5.418475752559544e-05,
      "loss": 11.5,
      "step": 754
    },
    {
      "epoch": 0.6553819444444444,
      "grad_norm": 0.005889544263482094,
      "learning_rate": 5.394040589465431e-05,
      "loss": 11.5,
      "step": 755
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.001468829344958067,
      "learning_rate": 5.369640283159729e-05,
      "loss": 11.5,
      "step": 756
    },
    {
      "epoch": 0.6571180555555556,
      "grad_norm": 0.0005512027419172227,
      "learning_rate": 5.3452750182980625e-05,
      "loss": 11.5,
      "step": 757
    },
    {
      "epoch": 0.6579861111111112,
      "grad_norm": 0.0010229578474536538,
      "learning_rate": 5.320944979270868e-05,
      "loss": 11.5,
      "step": 758
    },
    {
      "epoch": 0.6588541666666666,
      "grad_norm": 0.0038836481980979443,
      "learning_rate": 5.296650350202008e-05,
      "loss": 11.5,
      "step": 759
    },
    {
      "epoch": 0.6597222222222222,
      "grad_norm": 0.0014810421271249652,
      "learning_rate": 5.2723913149473737e-05,
      "loss": 11.5,
      "step": 760
    },
    {
      "epoch": 0.6605902777777778,
      "grad_norm": 0.004971664398908615,
      "learning_rate": 5.248168057093478e-05,
      "loss": 11.5,
      "step": 761
    },
    {
      "epoch": 0.6614583333333334,
      "grad_norm": 0.0010448398534208536,
      "learning_rate": 5.223980759956089e-05,
      "loss": 11.5,
      "step": 762
    },
    {
      "epoch": 0.6623263888888888,
      "grad_norm": 0.0015319583471864462,
      "learning_rate": 5.199829606578823e-05,
      "loss": 11.5,
      "step": 763
    },
    {
      "epoch": 0.6631944444444444,
      "grad_norm": 0.001260837190784514,
      "learning_rate": 5.175714779731782e-05,
      "loss": 11.5,
      "step": 764
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 0.0029569014441221952,
      "learning_rate": 5.151636461910154e-05,
      "loss": 11.5,
      "step": 765
    },
    {
      "epoch": 0.6649305555555556,
      "grad_norm": 0.001497008721344173,
      "learning_rate": 5.127594835332831e-05,
      "loss": 11.5,
      "step": 766
    },
    {
      "epoch": 0.6657986111111112,
      "grad_norm": 0.0019452926935628057,
      "learning_rate": 5.1035900819410346e-05,
      "loss": 11.5,
      "step": 767
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.0007887778338044882,
      "learning_rate": 5.079622383396938e-05,
      "loss": 11.5,
      "step": 768
    },
    {
      "epoch": 0.6675347222222222,
      "grad_norm": 0.001040669740177691,
      "learning_rate": 5.055691921082299e-05,
      "loss": 11.5,
      "step": 769
    },
    {
      "epoch": 0.6684027777777778,
      "grad_norm": 0.0021403604187071323,
      "learning_rate": 5.0317988760970804e-05,
      "loss": 11.5,
      "step": 770
    },
    {
      "epoch": 0.6692708333333334,
      "grad_norm": 0.000563551380764693,
      "learning_rate": 5.007943429258073e-05,
      "loss": 11.5,
      "step": 771
    },
    {
      "epoch": 0.6701388888888888,
      "grad_norm": 0.0009378577815368772,
      "learning_rate": 4.9841257610975364e-05,
      "loss": 11.5,
      "step": 772
    },
    {
      "epoch": 0.6710069444444444,
      "grad_norm": 0.002420407021418214,
      "learning_rate": 4.9603460518618274e-05,
      "loss": 11.5,
      "step": 773
    },
    {
      "epoch": 0.671875,
      "grad_norm": 0.0014244692865759134,
      "learning_rate": 4.936604481510045e-05,
      "loss": 11.5,
      "step": 774
    },
    {
      "epoch": 0.6727430555555556,
      "grad_norm": 0.001256049145013094,
      "learning_rate": 4.912901229712665e-05,
      "loss": 11.5,
      "step": 775
    },
    {
      "epoch": 0.6736111111111112,
      "grad_norm": 0.001147652161307633,
      "learning_rate": 4.889236475850169e-05,
      "loss": 11.5,
      "step": 776
    },
    {
      "epoch": 0.6744791666666666,
      "grad_norm": 0.0033438405953347683,
      "learning_rate": 4.865610399011696e-05,
      "loss": 11.5,
      "step": 777
    },
    {
      "epoch": 0.6753472222222222,
      "grad_norm": 0.0010771587258204818,
      "learning_rate": 4.8420231779936885e-05,
      "loss": 11.5,
      "step": 778
    },
    {
      "epoch": 0.6762152777777778,
      "grad_norm": 0.0009952666005119681,
      "learning_rate": 4.818474991298541e-05,
      "loss": 11.5,
      "step": 779
    },
    {
      "epoch": 0.6770833333333334,
      "grad_norm": 0.0015727672725915909,
      "learning_rate": 4.7949660171332475e-05,
      "loss": 11.5,
      "step": 780
    },
    {
      "epoch": 0.6779513888888888,
      "grad_norm": 0.0009758161031641066,
      "learning_rate": 4.771496433408043e-05,
      "loss": 11.5,
      "step": 781
    },
    {
      "epoch": 0.6788194444444444,
      "grad_norm": 0.0008884341805242002,
      "learning_rate": 4.748066417735068e-05,
      "loss": 11.5,
      "step": 782
    },
    {
      "epoch": 0.6796875,
      "grad_norm": 0.0010822281474247575,
      "learning_rate": 4.724676147427018e-05,
      "loss": 11.5,
      "step": 783
    },
    {
      "epoch": 0.6805555555555556,
      "grad_norm": 0.003703409805893898,
      "learning_rate": 4.701325799495817e-05,
      "loss": 11.5,
      "step": 784
    },
    {
      "epoch": 0.6814236111111112,
      "grad_norm": 0.0046846382319927216,
      "learning_rate": 4.678015550651258e-05,
      "loss": 11.5,
      "step": 785
    },
    {
      "epoch": 0.6822916666666666,
      "grad_norm": 0.0015691817970946431,
      "learning_rate": 4.654745577299674e-05,
      "loss": 11.5,
      "step": 786
    },
    {
      "epoch": 0.6831597222222222,
      "grad_norm": 0.001419306150637567,
      "learning_rate": 4.631516055542601e-05,
      "loss": 11.5,
      "step": 787
    },
    {
      "epoch": 0.6840277777777778,
      "grad_norm": 0.0013874106807634234,
      "learning_rate": 4.6083271611754476e-05,
      "loss": 11.5,
      "step": 788
    },
    {
      "epoch": 0.6848958333333334,
      "grad_norm": 0.004316926468163729,
      "learning_rate": 4.585179069686171e-05,
      "loss": 11.5,
      "step": 789
    },
    {
      "epoch": 0.6857638888888888,
      "grad_norm": 0.001851836801506579,
      "learning_rate": 4.5620719562539314e-05,
      "loss": 11.5,
      "step": 790
    },
    {
      "epoch": 0.6866319444444444,
      "grad_norm": 0.00297729205340147,
      "learning_rate": 4.5390059957477904e-05,
      "loss": 11.5,
      "step": 791
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.0036832671612501144,
      "learning_rate": 4.515981362725361e-05,
      "loss": 11.5,
      "step": 792
    },
    {
      "epoch": 0.6883680555555556,
      "grad_norm": 0.004379006568342447,
      "learning_rate": 4.4929982314315024e-05,
      "loss": 11.5,
      "step": 793
    },
    {
      "epoch": 0.6892361111111112,
      "grad_norm": 0.0011071668704971671,
      "learning_rate": 4.470056775797008e-05,
      "loss": 11.5,
      "step": 794
    },
    {
      "epoch": 0.6901041666666666,
      "grad_norm": 0.006637433543801308,
      "learning_rate": 4.447157169437267e-05,
      "loss": 11.5,
      "step": 795
    },
    {
      "epoch": 0.6909722222222222,
      "grad_norm": 0.002654555020853877,
      "learning_rate": 4.424299585650977e-05,
      "loss": 11.5,
      "step": 796
    },
    {
      "epoch": 0.6918402777777778,
      "grad_norm": 0.0019003491615876555,
      "learning_rate": 4.401484197418807e-05,
      "loss": 11.5,
      "step": 797
    },
    {
      "epoch": 0.6927083333333334,
      "grad_norm": 0.0015445593744516373,
      "learning_rate": 4.3787111774021014e-05,
      "loss": 11.5,
      "step": 798
    },
    {
      "epoch": 0.6935763888888888,
      "grad_norm": 0.002455255016684532,
      "learning_rate": 4.355980697941584e-05,
      "loss": 11.5,
      "step": 799
    },
    {
      "epoch": 0.6944444444444444,
      "grad_norm": 0.0022440364118665457,
      "learning_rate": 4.3332929310560265e-05,
      "loss": 11.5,
      "step": 800
    },
    {
      "epoch": 0.6953125,
      "grad_norm": 0.0010024154325947165,
      "learning_rate": 4.310648048440975e-05,
      "loss": 11.5,
      "step": 801
    },
    {
      "epoch": 0.6961805555555556,
      "grad_norm": 0.0005950252525508404,
      "learning_rate": 4.2880462214674287e-05,
      "loss": 11.5,
      "step": 802
    },
    {
      "epoch": 0.6970486111111112,
      "grad_norm": 0.0006864754250273108,
      "learning_rate": 4.2654876211805527e-05,
      "loss": 11.5,
      "step": 803
    },
    {
      "epoch": 0.6979166666666666,
      "grad_norm": 0.0012548994272947311,
      "learning_rate": 4.2429724182983935e-05,
      "loss": 11.5,
      "step": 804
    },
    {
      "epoch": 0.6987847222222222,
      "grad_norm": 0.001251171575859189,
      "learning_rate": 4.220500783210559e-05,
      "loss": 11.5,
      "step": 805
    },
    {
      "epoch": 0.6996527777777778,
      "grad_norm": 0.0021567470394074917,
      "learning_rate": 4.198072885976966e-05,
      "loss": 11.5,
      "step": 806
    },
    {
      "epoch": 0.7005208333333334,
      "grad_norm": 0.0006552183185704052,
      "learning_rate": 4.1756888963265194e-05,
      "loss": 11.5,
      "step": 807
    },
    {
      "epoch": 0.7013888888888888,
      "grad_norm": 0.0007409793324768543,
      "learning_rate": 4.153348983655844e-05,
      "loss": 11.5,
      "step": 808
    },
    {
      "epoch": 0.7022569444444444,
      "grad_norm": 0.000865428417455405,
      "learning_rate": 4.1310533170280084e-05,
      "loss": 11.5,
      "step": 809
    },
    {
      "epoch": 0.703125,
      "grad_norm": 0.0018554318230599165,
      "learning_rate": 4.108802065171229e-05,
      "loss": 11.5,
      "step": 810
    },
    {
      "epoch": 0.7039930555555556,
      "grad_norm": 0.0014506446896120906,
      "learning_rate": 4.086595396477611e-05,
      "loss": 11.5,
      "step": 811
    },
    {
      "epoch": 0.7048611111111112,
      "grad_norm": 0.0018539328593760729,
      "learning_rate": 4.064433479001857e-05,
      "loss": 11.5,
      "step": 812
    },
    {
      "epoch": 0.7057291666666666,
      "grad_norm": 0.001641225186176598,
      "learning_rate": 4.042316480460001e-05,
      "loss": 11.5,
      "step": 813
    },
    {
      "epoch": 0.7065972222222222,
      "grad_norm": 0.0009591102134436369,
      "learning_rate": 4.020244568228155e-05,
      "loss": 11.5,
      "step": 814
    },
    {
      "epoch": 0.7074652777777778,
      "grad_norm": 0.0014379395870491862,
      "learning_rate": 3.998217909341213e-05,
      "loss": 11.5,
      "step": 815
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 0.001545296749100089,
      "learning_rate": 3.9762366704916165e-05,
      "loss": 11.5,
      "step": 816
    },
    {
      "epoch": 0.7092013888888888,
      "grad_norm": 0.0007354290573857725,
      "learning_rate": 3.954301018028068e-05,
      "loss": 11.5,
      "step": 817
    },
    {
      "epoch": 0.7100694444444444,
      "grad_norm": 0.0005217200960032642,
      "learning_rate": 3.932411117954286e-05,
      "loss": 11.5,
      "step": 818
    },
    {
      "epoch": 0.7109375,
      "grad_norm": 0.0015033493982627988,
      "learning_rate": 3.9105671359277517e-05,
      "loss": 11.5,
      "step": 819
    },
    {
      "epoch": 0.7118055555555556,
      "grad_norm": 0.0008383257081732154,
      "learning_rate": 3.8887692372584405e-05,
      "loss": 11.5,
      "step": 820
    },
    {
      "epoch": 0.7126736111111112,
      "grad_norm": 0.0009796448284760118,
      "learning_rate": 3.867017586907591e-05,
      "loss": 11.5,
      "step": 821
    },
    {
      "epoch": 0.7135416666666666,
      "grad_norm": 0.000715932750608772,
      "learning_rate": 3.845312349486437e-05,
      "loss": 11.5,
      "step": 822
    },
    {
      "epoch": 0.7144097222222222,
      "grad_norm": 0.0025701539125293493,
      "learning_rate": 3.82365368925497e-05,
      "loss": 11.5,
      "step": 823
    },
    {
      "epoch": 0.7152777777777778,
      "grad_norm": 0.0015909943031147122,
      "learning_rate": 3.8020417701207056e-05,
      "loss": 11.5,
      "step": 824
    },
    {
      "epoch": 0.7161458333333334,
      "grad_norm": 0.0013307767221704125,
      "learning_rate": 3.780476755637421e-05,
      "loss": 11.5,
      "step": 825
    },
    {
      "epoch": 0.7170138888888888,
      "grad_norm": 0.003063932992517948,
      "learning_rate": 3.758958809003945e-05,
      "loss": 11.5,
      "step": 826
    },
    {
      "epoch": 0.7178819444444444,
      "grad_norm": 0.0010470328852534294,
      "learning_rate": 3.7374880930628986e-05,
      "loss": 11.5,
      "step": 827
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.0019062039209529757,
      "learning_rate": 3.71606477029947e-05,
      "loss": 11.5,
      "step": 828
    },
    {
      "epoch": 0.7196180555555556,
      "grad_norm": 0.0007334893452934921,
      "learning_rate": 3.694689002840198e-05,
      "loss": 11.5,
      "step": 829
    },
    {
      "epoch": 0.7204861111111112,
      "grad_norm": 0.0010269636986777186,
      "learning_rate": 3.673360952451722e-05,
      "loss": 11.5,
      "step": 830
    },
    {
      "epoch": 0.7213541666666666,
      "grad_norm": 0.0018480056896805763,
      "learning_rate": 3.652080780539584e-05,
      "loss": 11.5,
      "step": 831
    },
    {
      "epoch": 0.7222222222222222,
      "grad_norm": 0.0008493170025758445,
      "learning_rate": 3.6308486481469805e-05,
      "loss": 11.5,
      "step": 832
    },
    {
      "epoch": 0.7230902777777778,
      "grad_norm": 0.0009777748491615057,
      "learning_rate": 3.609664715953559e-05,
      "loss": 11.5,
      "step": 833
    },
    {
      "epoch": 0.7239583333333334,
      "grad_norm": 0.001401358749717474,
      "learning_rate": 3.5885291442742084e-05,
      "loss": 11.5,
      "step": 834
    },
    {
      "epoch": 0.7248263888888888,
      "grad_norm": 0.001495766919106245,
      "learning_rate": 3.567442093057825e-05,
      "loss": 11.5,
      "step": 835
    },
    {
      "epoch": 0.7256944444444444,
      "grad_norm": 0.0026052326429635286,
      "learning_rate": 3.546403721886126e-05,
      "loss": 11.5,
      "step": 836
    },
    {
      "epoch": 0.7265625,
      "grad_norm": 0.0012744737323373556,
      "learning_rate": 3.5254141899724194e-05,
      "loss": 11.5,
      "step": 837
    },
    {
      "epoch": 0.7274305555555556,
      "grad_norm": 0.006748358719050884,
      "learning_rate": 3.50447365616041e-05,
      "loss": 11.5,
      "step": 838
    },
    {
      "epoch": 0.7282986111111112,
      "grad_norm": 0.0012802694691345096,
      "learning_rate": 3.483582278923007e-05,
      "loss": 11.5,
      "step": 839
    },
    {
      "epoch": 0.7291666666666666,
      "grad_norm": 0.0008005767012946308,
      "learning_rate": 3.462740216361101e-05,
      "loss": 11.5,
      "step": 840
    },
    {
      "epoch": 0.7300347222222222,
      "grad_norm": 0.001562474761158228,
      "learning_rate": 3.4419476262023956e-05,
      "loss": 11.5,
      "step": 841
    },
    {
      "epoch": 0.7309027777777778,
      "grad_norm": 0.00145374343264848,
      "learning_rate": 3.421204665800186e-05,
      "loss": 11.5,
      "step": 842
    },
    {
      "epoch": 0.7317708333333334,
      "grad_norm": 0.0011155118700116873,
      "learning_rate": 3.400511492132186e-05,
      "loss": 11.5,
      "step": 843
    },
    {
      "epoch": 0.7326388888888888,
      "grad_norm": 0.0021052344236522913,
      "learning_rate": 3.3798682617993405e-05,
      "loss": 11.5,
      "step": 844
    },
    {
      "epoch": 0.7335069444444444,
      "grad_norm": 0.0021511504892259836,
      "learning_rate": 3.359275131024625e-05,
      "loss": 11.5,
      "step": 845
    },
    {
      "epoch": 0.734375,
      "grad_norm": 0.0009414385422132909,
      "learning_rate": 3.338732255651887e-05,
      "loss": 11.5,
      "step": 846
    },
    {
      "epoch": 0.7352430555555556,
      "grad_norm": 0.001307890866883099,
      "learning_rate": 3.3182397911446436e-05,
      "loss": 11.5,
      "step": 847
    },
    {
      "epoch": 0.7361111111111112,
      "grad_norm": 0.0014199822908267379,
      "learning_rate": 3.297797892584912e-05,
      "loss": 11.5,
      "step": 848
    },
    {
      "epoch": 0.7369791666666666,
      "grad_norm": 0.0013550164876505733,
      "learning_rate": 3.277406714672049e-05,
      "loss": 11.5,
      "step": 849
    },
    {
      "epoch": 0.7378472222222222,
      "grad_norm": 0.002065003151074052,
      "learning_rate": 3.25706641172156e-05,
      "loss": 11.5,
      "step": 850
    },
    {
      "epoch": 0.7387152777777778,
      "grad_norm": 0.0027910685166716576,
      "learning_rate": 3.236777137663951e-05,
      "loss": 11.5,
      "step": 851
    },
    {
      "epoch": 0.7395833333333334,
      "grad_norm": 0.0020602841395884752,
      "learning_rate": 3.216539046043544e-05,
      "loss": 11.5,
      "step": 852
    },
    {
      "epoch": 0.7404513888888888,
      "grad_norm": 0.004484345205128193,
      "learning_rate": 3.1963522900173294e-05,
      "loss": 11.5,
      "step": 853
    },
    {
      "epoch": 0.7413194444444444,
      "grad_norm": 0.0009498939616605639,
      "learning_rate": 3.176217022353798e-05,
      "loss": 11.5,
      "step": 854
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 0.0011163201415911317,
      "learning_rate": 3.156133395431795e-05,
      "loss": 11.5,
      "step": 855
    },
    {
      "epoch": 0.7430555555555556,
      "grad_norm": 0.0011561572318896651,
      "learning_rate": 3.136101561239363e-05,
      "loss": 11.5,
      "step": 856
    },
    {
      "epoch": 0.7439236111111112,
      "grad_norm": 0.0012851860374212265,
      "learning_rate": 3.116121671372582e-05,
      "loss": 11.5,
      "step": 857
    },
    {
      "epoch": 0.7447916666666666,
      "grad_norm": 0.00680580036714673,
      "learning_rate": 3.09619387703443e-05,
      "loss": 11.5,
      "step": 858
    },
    {
      "epoch": 0.7456597222222222,
      "grad_norm": 0.002880082931369543,
      "learning_rate": 3.076318329033643e-05,
      "loss": 11.5,
      "step": 859
    },
    {
      "epoch": 0.7465277777777778,
      "grad_norm": 0.0014698909362778068,
      "learning_rate": 3.056495177783567e-05,
      "loss": 11.5,
      "step": 860
    },
    {
      "epoch": 0.7473958333333334,
      "grad_norm": 0.003040336538106203,
      "learning_rate": 3.0367245733010298e-05,
      "loss": 11.5,
      "step": 861
    },
    {
      "epoch": 0.7482638888888888,
      "grad_norm": 0.00139132933691144,
      "learning_rate": 3.0170066652051866e-05,
      "loss": 11.5,
      "step": 862
    },
    {
      "epoch": 0.7491319444444444,
      "grad_norm": 0.0010848760139197111,
      "learning_rate": 2.9973416027164025e-05,
      "loss": 11.5,
      "step": 863
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.001045947428792715,
      "learning_rate": 2.9777295346551194e-05,
      "loss": 11.5,
      "step": 864
    },
    {
      "epoch": 0.75,
      "eval_loss": 11.5,
      "eval_runtime": 3.9463,
      "eval_samples_per_second": 122.898,
      "eval_steps_per_second": 61.576,
      "step": 864
    },
    {
      "epoch": 0.7508680555555556,
      "grad_norm": 0.0016665762523189187,
      "learning_rate": 2.9581706094407346e-05,
      "loss": 11.5,
      "step": 865
    },
    {
      "epoch": 0.7517361111111112,
      "grad_norm": 0.0007752419915050268,
      "learning_rate": 2.9386649750904738e-05,
      "loss": 11.5,
      "step": 866
    },
    {
      "epoch": 0.7526041666666666,
      "grad_norm": 0.0011702432530000806,
      "learning_rate": 2.9192127792182633e-05,
      "loss": 11.5,
      "step": 867
    },
    {
      "epoch": 0.7534722222222222,
      "grad_norm": 0.0015328973531723022,
      "learning_rate": 2.899814169033622e-05,
      "loss": 11.5,
      "step": 868
    },
    {
      "epoch": 0.7543402777777778,
      "grad_norm": 0.0017007655696943402,
      "learning_rate": 2.8804692913405474e-05,
      "loss": 11.5,
      "step": 869
    },
    {
      "epoch": 0.7552083333333334,
      "grad_norm": 0.0017481297254562378,
      "learning_rate": 2.8611782925364006e-05,
      "loss": 11.5,
      "step": 870
    },
    {
      "epoch": 0.7560763888888888,
      "grad_norm": 0.0018436237005516887,
      "learning_rate": 2.841941318610808e-05,
      "loss": 11.5,
      "step": 871
    },
    {
      "epoch": 0.7569444444444444,
      "grad_norm": 0.0009990164544433355,
      "learning_rate": 2.8227585151445367e-05,
      "loss": 11.5,
      "step": 872
    },
    {
      "epoch": 0.7578125,
      "grad_norm": 0.0012324446579441428,
      "learning_rate": 2.8036300273084125e-05,
      "loss": 11.5,
      "step": 873
    },
    {
      "epoch": 0.7586805555555556,
      "grad_norm": 0.0021060826256871223,
      "learning_rate": 2.784555999862206e-05,
      "loss": 11.5,
      "step": 874
    },
    {
      "epoch": 0.7595486111111112,
      "grad_norm": 0.002227047923952341,
      "learning_rate": 2.7655365771535556e-05,
      "loss": 11.5,
      "step": 875
    },
    {
      "epoch": 0.7604166666666666,
      "grad_norm": 0.0012515333946794271,
      "learning_rate": 2.7465719031168612e-05,
      "loss": 11.5,
      "step": 876
    },
    {
      "epoch": 0.7612847222222222,
      "grad_norm": 0.0020740798208862543,
      "learning_rate": 2.727662121272192e-05,
      "loss": 11.5,
      "step": 877
    },
    {
      "epoch": 0.7621527777777778,
      "grad_norm": 0.0019120716024190187,
      "learning_rate": 2.7088073747242104e-05,
      "loss": 11.5,
      "step": 878
    },
    {
      "epoch": 0.7630208333333334,
      "grad_norm": 0.0021429897751659155,
      "learning_rate": 2.6900078061610822e-05,
      "loss": 11.5,
      "step": 879
    },
    {
      "epoch": 0.7638888888888888,
      "grad_norm": 0.0019750262144953012,
      "learning_rate": 2.671263557853404e-05,
      "loss": 11.5,
      "step": 880
    },
    {
      "epoch": 0.7647569444444444,
      "grad_norm": 0.004007683601230383,
      "learning_rate": 2.6525747716531236e-05,
      "loss": 11.5,
      "step": 881
    },
    {
      "epoch": 0.765625,
      "grad_norm": 0.0010648960014805198,
      "learning_rate": 2.633941588992458e-05,
      "loss": 11.5,
      "step": 882
    },
    {
      "epoch": 0.7664930555555556,
      "grad_norm": 0.005222184583544731,
      "learning_rate": 2.615364150882833e-05,
      "loss": 11.5,
      "step": 883
    },
    {
      "epoch": 0.7673611111111112,
      "grad_norm": 0.002402056474238634,
      "learning_rate": 2.5968425979138112e-05,
      "loss": 11.5,
      "step": 884
    },
    {
      "epoch": 0.7682291666666666,
      "grad_norm": 0.0011231058742851019,
      "learning_rate": 2.578377070252038e-05,
      "loss": 11.5,
      "step": 885
    },
    {
      "epoch": 0.7690972222222222,
      "grad_norm": 0.0010834370041266084,
      "learning_rate": 2.5599677076401608e-05,
      "loss": 11.5,
      "step": 886
    },
    {
      "epoch": 0.7699652777777778,
      "grad_norm": 0.0023156481329351664,
      "learning_rate": 2.541614649395796e-05,
      "loss": 11.5,
      "step": 887
    },
    {
      "epoch": 0.7708333333333334,
      "grad_norm": 0.001103762537240982,
      "learning_rate": 2.5233180344104536e-05,
      "loss": 11.5,
      "step": 888
    },
    {
      "epoch": 0.7717013888888888,
      "grad_norm": 0.002757414011284709,
      "learning_rate": 2.505078001148492e-05,
      "loss": 11.5,
      "step": 889
    },
    {
      "epoch": 0.7725694444444444,
      "grad_norm": 0.001961467321962118,
      "learning_rate": 2.486894687646085e-05,
      "loss": 11.5,
      "step": 890
    },
    {
      "epoch": 0.7734375,
      "grad_norm": 0.003448853502050042,
      "learning_rate": 2.4687682315101513e-05,
      "loss": 11.5,
      "step": 891
    },
    {
      "epoch": 0.7743055555555556,
      "grad_norm": 0.0009262922685593367,
      "learning_rate": 2.450698769917339e-05,
      "loss": 11.5,
      "step": 892
    },
    {
      "epoch": 0.7751736111111112,
      "grad_norm": 0.002486690878868103,
      "learning_rate": 2.4326864396129666e-05,
      "loss": 11.5,
      "step": 893
    },
    {
      "epoch": 0.7760416666666666,
      "grad_norm": 0.0028519059997051954,
      "learning_rate": 2.4147313769099977e-05,
      "loss": 11.5,
      "step": 894
    },
    {
      "epoch": 0.7769097222222222,
      "grad_norm": 0.001811624737456441,
      "learning_rate": 2.396833717688015e-05,
      "loss": 11.5,
      "step": 895
    },
    {
      "epoch": 0.7777777777777778,
      "grad_norm": 0.004115048795938492,
      "learning_rate": 2.3789935973921752e-05,
      "loss": 11.5,
      "step": 896
    },
    {
      "epoch": 0.7786458333333334,
      "grad_norm": 0.0014644988114014268,
      "learning_rate": 2.3612111510322054e-05,
      "loss": 11.5,
      "step": 897
    },
    {
      "epoch": 0.7795138888888888,
      "grad_norm": 0.005019782111048698,
      "learning_rate": 2.3434865131813633e-05,
      "loss": 11.5,
      "step": 898
    },
    {
      "epoch": 0.7803819444444444,
      "grad_norm": 0.0016440368490293622,
      "learning_rate": 2.325819817975423e-05,
      "loss": 11.5,
      "step": 899
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.004679584410041571,
      "learning_rate": 2.308211199111674e-05,
      "loss": 11.5,
      "step": 900
    },
    {
      "epoch": 0.7821180555555556,
      "grad_norm": 0.0016438118182122707,
      "learning_rate": 2.290660789847886e-05,
      "loss": 11.5,
      "step": 901
    },
    {
      "epoch": 0.7829861111111112,
      "grad_norm": 0.0016984230605885386,
      "learning_rate": 2.273168723001321e-05,
      "loss": 11.5,
      "step": 902
    },
    {
      "epoch": 0.7838541666666666,
      "grad_norm": 0.0015388855244964361,
      "learning_rate": 2.255735130947716e-05,
      "loss": 11.5,
      "step": 903
    },
    {
      "epoch": 0.7847222222222222,
      "grad_norm": 0.007326060440391302,
      "learning_rate": 2.2383601456202797e-05,
      "loss": 11.5,
      "step": 904
    },
    {
      "epoch": 0.7855902777777778,
      "grad_norm": 0.0015851504867896438,
      "learning_rate": 2.2210438985087135e-05,
      "loss": 11.5,
      "step": 905
    },
    {
      "epoch": 0.7864583333333334,
      "grad_norm": 0.0007248066831380129,
      "learning_rate": 2.2037865206581855e-05,
      "loss": 11.5,
      "step": 906
    },
    {
      "epoch": 0.7873263888888888,
      "grad_norm": 0.002646829467266798,
      "learning_rate": 2.1865881426683687e-05,
      "loss": 11.5,
      "step": 907
    },
    {
      "epoch": 0.7881944444444444,
      "grad_norm": 0.0008457713993266225,
      "learning_rate": 2.169448894692433e-05,
      "loss": 11.5,
      "step": 908
    },
    {
      "epoch": 0.7890625,
      "grad_norm": 0.0030554900877177715,
      "learning_rate": 2.152368906436064e-05,
      "loss": 11.5,
      "step": 909
    },
    {
      "epoch": 0.7899305555555556,
      "grad_norm": 0.0014512100024148822,
      "learning_rate": 2.1353483071564938e-05,
      "loss": 11.5,
      "step": 910
    },
    {
      "epoch": 0.7907986111111112,
      "grad_norm": 0.0016080655623227358,
      "learning_rate": 2.1183872256615e-05,
      "loss": 11.5,
      "step": 911
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 0.0011187500786036253,
      "learning_rate": 2.1014857903084583e-05,
      "loss": 11.5,
      "step": 912
    },
    {
      "epoch": 0.7925347222222222,
      "grad_norm": 0.0011730362894013524,
      "learning_rate": 2.084644129003346e-05,
      "loss": 11.5,
      "step": 913
    },
    {
      "epoch": 0.7934027777777778,
      "grad_norm": 0.0009781060507521033,
      "learning_rate": 2.0678623691997856e-05,
      "loss": 11.5,
      "step": 914
    },
    {
      "epoch": 0.7942708333333334,
      "grad_norm": 0.001234938041307032,
      "learning_rate": 2.051140637898088e-05,
      "loss": 11.5,
      "step": 915
    },
    {
      "epoch": 0.7951388888888888,
      "grad_norm": 0.0020962143316864967,
      "learning_rate": 2.034479061644271e-05,
      "loss": 11.5,
      "step": 916
    },
    {
      "epoch": 0.7960069444444444,
      "grad_norm": 0.0008607920026406646,
      "learning_rate": 2.017877766529126e-05,
      "loss": 11.5,
      "step": 917
    },
    {
      "epoch": 0.796875,
      "grad_norm": 0.0020200463477522135,
      "learning_rate": 2.001336878187241e-05,
      "loss": 11.5,
      "step": 918
    },
    {
      "epoch": 0.7977430555555556,
      "grad_norm": 0.001698218984529376,
      "learning_rate": 1.9848565217960635e-05,
      "loss": 11.5,
      "step": 919
    },
    {
      "epoch": 0.7986111111111112,
      "grad_norm": 0.002335259225219488,
      "learning_rate": 1.968436822074954e-05,
      "loss": 11.5,
      "step": 920
    },
    {
      "epoch": 0.7994791666666666,
      "grad_norm": 0.00047184995491988957,
      "learning_rate": 1.9520779032842283e-05,
      "loss": 11.5,
      "step": 921
    },
    {
      "epoch": 0.8003472222222222,
      "grad_norm": 0.0013418704038485885,
      "learning_rate": 1.9357798892242407e-05,
      "loss": 11.5,
      "step": 922
    },
    {
      "epoch": 0.8012152777777778,
      "grad_norm": 0.001946567092090845,
      "learning_rate": 1.9195429032344216e-05,
      "loss": 11.5,
      "step": 923
    },
    {
      "epoch": 0.8020833333333334,
      "grad_norm": 0.0018435376696288586,
      "learning_rate": 1.9033670681923564e-05,
      "loss": 11.5,
      "step": 924
    },
    {
      "epoch": 0.8029513888888888,
      "grad_norm": 0.001641925424337387,
      "learning_rate": 1.8872525065128632e-05,
      "loss": 11.5,
      "step": 925
    },
    {
      "epoch": 0.8038194444444444,
      "grad_norm": 0.0023879448417574167,
      "learning_rate": 1.8711993401470483e-05,
      "loss": 11.5,
      "step": 926
    },
    {
      "epoch": 0.8046875,
      "grad_norm": 0.0007064501405693591,
      "learning_rate": 1.855207690581403e-05,
      "loss": 11.5,
      "step": 927
    },
    {
      "epoch": 0.8055555555555556,
      "grad_norm": 0.0018037267727777362,
      "learning_rate": 1.839277678836866e-05,
      "loss": 11.5,
      "step": 928
    },
    {
      "epoch": 0.8064236111111112,
      "grad_norm": 0.0021258729975670576,
      "learning_rate": 1.8234094254679157e-05,
      "loss": 11.5,
      "step": 929
    },
    {
      "epoch": 0.8072916666666666,
      "grad_norm": 0.0019693986978381872,
      "learning_rate": 1.807603050561667e-05,
      "loss": 11.5,
      "step": 930
    },
    {
      "epoch": 0.8081597222222222,
      "grad_norm": 0.002197232097387314,
      "learning_rate": 1.7918586737369424e-05,
      "loss": 11.5,
      "step": 931
    },
    {
      "epoch": 0.8090277777777778,
      "grad_norm": 0.0017320601036772132,
      "learning_rate": 1.776176414143389e-05,
      "loss": 11.5,
      "step": 932
    },
    {
      "epoch": 0.8098958333333334,
      "grad_norm": 0.004958835896104574,
      "learning_rate": 1.7605563904605558e-05,
      "loss": 11.5,
      "step": 933
    },
    {
      "epoch": 0.8107638888888888,
      "grad_norm": 0.001494622090831399,
      "learning_rate": 1.7449987208970087e-05,
      "loss": 11.5,
      "step": 934
    },
    {
      "epoch": 0.8116319444444444,
      "grad_norm": 0.0011652178363874555,
      "learning_rate": 1.7295035231894384e-05,
      "loss": 11.5,
      "step": 935
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.0012885290198028088,
      "learning_rate": 1.714070914601752e-05,
      "loss": 11.5,
      "step": 936
    },
    {
      "epoch": 0.8133680555555556,
      "grad_norm": 0.001313709421083331,
      "learning_rate": 1.698701011924212e-05,
      "loss": 11.5,
      "step": 937
    },
    {
      "epoch": 0.8142361111111112,
      "grad_norm": 0.001872623455710709,
      "learning_rate": 1.6833939314725244e-05,
      "loss": 11.5,
      "step": 938
    },
    {
      "epoch": 0.8151041666666666,
      "grad_norm": 0.0013270425843074918,
      "learning_rate": 1.6681497890869756e-05,
      "loss": 11.5,
      "step": 939
    },
    {
      "epoch": 0.8159722222222222,
      "grad_norm": 0.0005251438124105334,
      "learning_rate": 1.6529687001315598e-05,
      "loss": 11.5,
      "step": 940
    },
    {
      "epoch": 0.8168402777777778,
      "grad_norm": 0.0037297706585377455,
      "learning_rate": 1.6378507794930865e-05,
      "loss": 11.5,
      "step": 941
    },
    {
      "epoch": 0.8177083333333334,
      "grad_norm": 0.001888867118395865,
      "learning_rate": 1.6227961415803305e-05,
      "loss": 11.5,
      "step": 942
    },
    {
      "epoch": 0.8185763888888888,
      "grad_norm": 0.0050074635073542595,
      "learning_rate": 1.6078049003231554e-05,
      "loss": 11.5,
      "step": 943
    },
    {
      "epoch": 0.8194444444444444,
      "grad_norm": 0.0015324015403166413,
      "learning_rate": 1.5928771691716517e-05,
      "loss": 11.5,
      "step": 944
    },
    {
      "epoch": 0.8203125,
      "grad_norm": 0.002567327581346035,
      "learning_rate": 1.578013061095288e-05,
      "loss": 11.5,
      "step": 945
    },
    {
      "epoch": 0.8211805555555556,
      "grad_norm": 0.0012634068261831999,
      "learning_rate": 1.5632126885820385e-05,
      "loss": 11.5,
      "step": 946
    },
    {
      "epoch": 0.8220486111111112,
      "grad_norm": 0.00172303372528404,
      "learning_rate": 1.5484761636375543e-05,
      "loss": 11.5,
      "step": 947
    },
    {
      "epoch": 0.8229166666666666,
      "grad_norm": 0.0025588860735297203,
      "learning_rate": 1.5338035977842946e-05,
      "loss": 11.5,
      "step": 948
    },
    {
      "epoch": 0.8237847222222222,
      "grad_norm": 0.002596431178972125,
      "learning_rate": 1.5191951020606931e-05,
      "loss": 11.5,
      "step": 949
    },
    {
      "epoch": 0.8246527777777778,
      "grad_norm": 0.003967336378991604,
      "learning_rate": 1.5046507870203152e-05,
      "loss": 11.5,
      "step": 950
    },
    {
      "epoch": 0.8255208333333334,
      "grad_norm": 0.001219145255163312,
      "learning_rate": 1.4901707627310279e-05,
      "loss": 11.5,
      "step": 951
    },
    {
      "epoch": 0.8263888888888888,
      "grad_norm": 0.0015484977047890425,
      "learning_rate": 1.4757551387741587e-05,
      "loss": 11.5,
      "step": 952
    },
    {
      "epoch": 0.8272569444444444,
      "grad_norm": 0.002362615894526243,
      "learning_rate": 1.4614040242436666e-05,
      "loss": 11.5,
      "step": 953
    },
    {
      "epoch": 0.828125,
      "grad_norm": 0.0017337121535092592,
      "learning_rate": 1.4471175277453197e-05,
      "loss": 11.5,
      "step": 954
    },
    {
      "epoch": 0.8289930555555556,
      "grad_norm": 0.0012615155428647995,
      "learning_rate": 1.4328957573958712e-05,
      "loss": 11.5,
      "step": 955
    },
    {
      "epoch": 0.8298611111111112,
      "grad_norm": 0.000766065320931375,
      "learning_rate": 1.4187388208222474e-05,
      "loss": 11.5,
      "step": 956
    },
    {
      "epoch": 0.8307291666666666,
      "grad_norm": 0.0015783365815877914,
      "learning_rate": 1.404646825160727e-05,
      "loss": 11.5,
      "step": 957
    },
    {
      "epoch": 0.8315972222222222,
      "grad_norm": 0.0015483476454392076,
      "learning_rate": 1.3906198770561263e-05,
      "loss": 11.5,
      "step": 958
    },
    {
      "epoch": 0.8324652777777778,
      "grad_norm": 0.0007206902373582125,
      "learning_rate": 1.376658082661002e-05,
      "loss": 11.5,
      "step": 959
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.0008399573853239417,
      "learning_rate": 1.36276154763484e-05,
      "loss": 11.5,
      "step": 960
    },
    {
      "epoch": 0.8342013888888888,
      "grad_norm": 0.001935525331646204,
      "learning_rate": 1.3489303771432627e-05,
      "loss": 11.5,
      "step": 961
    },
    {
      "epoch": 0.8350694444444444,
      "grad_norm": 0.0025738372933119535,
      "learning_rate": 1.3351646758572301e-05,
      "loss": 11.5,
      "step": 962
    },
    {
      "epoch": 0.8359375,
      "grad_norm": 0.001246094238013029,
      "learning_rate": 1.3214645479522436e-05,
      "loss": 11.5,
      "step": 963
    },
    {
      "epoch": 0.8368055555555556,
      "grad_norm": 0.0018168945098295808,
      "learning_rate": 1.3078300971075618e-05,
      "loss": 11.5,
      "step": 964
    },
    {
      "epoch": 0.8376736111111112,
      "grad_norm": 0.0019242753041908145,
      "learning_rate": 1.2942614265054143e-05,
      "loss": 11.5,
      "step": 965
    },
    {
      "epoch": 0.8385416666666666,
      "grad_norm": 0.0014838301576673985,
      "learning_rate": 1.280758638830224e-05,
      "loss": 11.5,
      "step": 966
    },
    {
      "epoch": 0.8394097222222222,
      "grad_norm": 0.004431827925145626,
      "learning_rate": 1.2673218362678297e-05,
      "loss": 11.5,
      "step": 967
    },
    {
      "epoch": 0.8402777777777778,
      "grad_norm": 0.001022928743623197,
      "learning_rate": 1.253951120504706e-05,
      "loss": 11.5,
      "step": 968
    },
    {
      "epoch": 0.8411458333333334,
      "grad_norm": 0.0013096665497869253,
      "learning_rate": 1.2406465927272004e-05,
      "loss": 11.5,
      "step": 969
    },
    {
      "epoch": 0.8420138888888888,
      "grad_norm": 0.0008664362831041217,
      "learning_rate": 1.2274083536207636e-05,
      "loss": 11.5,
      "step": 970
    },
    {
      "epoch": 0.8428819444444444,
      "grad_norm": 0.0009796591475605965,
      "learning_rate": 1.2142365033691949e-05,
      "loss": 11.5,
      "step": 971
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.0010951145086437464,
      "learning_rate": 1.2011311416538774e-05,
      "loss": 11.5,
      "step": 972
    },
    {
      "epoch": 0.8446180555555556,
      "grad_norm": 0.001416388084180653,
      "learning_rate": 1.1880923676530199e-05,
      "loss": 11.5,
      "step": 973
    },
    {
      "epoch": 0.8454861111111112,
      "grad_norm": 0.0011447741417214274,
      "learning_rate": 1.1751202800409178e-05,
      "loss": 11.5,
      "step": 974
    },
    {
      "epoch": 0.8463541666666666,
      "grad_norm": 0.001467301044613123,
      "learning_rate": 1.1622149769871926e-05,
      "loss": 11.5,
      "step": 975
    },
    {
      "epoch": 0.8472222222222222,
      "grad_norm": 0.0018868253100663424,
      "learning_rate": 1.1493765561560643e-05,
      "loss": 11.5,
      "step": 976
    },
    {
      "epoch": 0.8480902777777778,
      "grad_norm": 0.0019426164217293262,
      "learning_rate": 1.1366051147056033e-05,
      "loss": 11.5,
      "step": 977
    },
    {
      "epoch": 0.8489583333333334,
      "grad_norm": 0.002521999878808856,
      "learning_rate": 1.1239007492869913e-05,
      "loss": 11.5,
      "step": 978
    },
    {
      "epoch": 0.8498263888888888,
      "grad_norm": 0.0009203064255416393,
      "learning_rate": 1.1112635560437979e-05,
      "loss": 11.5,
      "step": 979
    },
    {
      "epoch": 0.8506944444444444,
      "grad_norm": 0.005030940752476454,
      "learning_rate": 1.0986936306112472e-05,
      "loss": 11.5,
      "step": 980
    },
    {
      "epoch": 0.8515625,
      "grad_norm": 0.001489837421104312,
      "learning_rate": 1.086191068115503e-05,
      "loss": 11.5,
      "step": 981
    },
    {
      "epoch": 0.8524305555555556,
      "grad_norm": 0.006700480822473764,
      "learning_rate": 1.0737559631729354e-05,
      "loss": 11.5,
      "step": 982
    },
    {
      "epoch": 0.8532986111111112,
      "grad_norm": 0.0022915909066796303,
      "learning_rate": 1.061388409889419e-05,
      "loss": 11.5,
      "step": 983
    },
    {
      "epoch": 0.8541666666666666,
      "grad_norm": 0.0010986006818711758,
      "learning_rate": 1.0490885018596075e-05,
      "loss": 11.5,
      "step": 984
    },
    {
      "epoch": 0.8550347222222222,
      "grad_norm": 0.0017626145854592323,
      "learning_rate": 1.0368563321662317e-05,
      "loss": 11.5,
      "step": 985
    },
    {
      "epoch": 0.8559027777777778,
      "grad_norm": 0.0013992770109325647,
      "learning_rate": 1.0246919933794041e-05,
      "loss": 11.5,
      "step": 986
    },
    {
      "epoch": 0.8567708333333334,
      "grad_norm": 0.0014584247255697846,
      "learning_rate": 1.012595577555897e-05,
      "loss": 11.5,
      "step": 987
    },
    {
      "epoch": 0.8576388888888888,
      "grad_norm": 0.00406164163723588,
      "learning_rate": 1.0005671762384671e-05,
      "loss": 11.5,
      "step": 988
    },
    {
      "epoch": 0.8585069444444444,
      "grad_norm": 0.0016170560847967863,
      "learning_rate": 9.886068804551507e-06,
      "loss": 11.5,
      "step": 989
    },
    {
      "epoch": 0.859375,
      "grad_norm": 0.0013933621812611818,
      "learning_rate": 9.76714780718574e-06,
      "loss": 11.5,
      "step": 990
    },
    {
      "epoch": 0.8602430555555556,
      "grad_norm": 0.0017516601365059614,
      "learning_rate": 9.648909670252804e-06,
      "loss": 11.5,
      "step": 991
    },
    {
      "epoch": 0.8611111111111112,
      "grad_norm": 0.0047271037474274635,
      "learning_rate": 9.531355288550325e-06,
      "loss": 11.5,
      "step": 992
    },
    {
      "epoch": 0.8619791666666666,
      "grad_norm": 0.0015324512496590614,
      "learning_rate": 9.414485551701502e-06,
      "loss": 11.5,
      "step": 993
    },
    {
      "epoch": 0.8628472222222222,
      "grad_norm": 0.0013548112474381924,
      "learning_rate": 9.298301344148275e-06,
      "loss": 11.5,
      "step": 994
    },
    {
      "epoch": 0.8637152777777778,
      "grad_norm": 0.002907439135015011,
      "learning_rate": 9.182803545144624e-06,
      "loss": 11.5,
      "step": 995
    },
    {
      "epoch": 0.8645833333333334,
      "grad_norm": 0.0010006766533479095,
      "learning_rate": 9.067993028750066e-06,
      "loss": 11.5,
      "step": 996
    },
    {
      "epoch": 0.8654513888888888,
      "grad_norm": 0.0011059485841542482,
      "learning_rate": 8.953870663822794e-06,
      "loss": 11.5,
      "step": 997
    },
    {
      "epoch": 0.8663194444444444,
      "grad_norm": 0.0016209263121709228,
      "learning_rate": 8.84043731401335e-06,
      "loss": 11.5,
      "step": 998
    },
    {
      "epoch": 0.8671875,
      "grad_norm": 0.0030522800516337156,
      "learning_rate": 8.727693837757922e-06,
      "loss": 11.5,
      "step": 999
    },
    {
      "epoch": 0.8680555555555556,
      "grad_norm": 0.003894480410963297,
      "learning_rate": 8.615641088271875e-06,
      "loss": 11.5,
      "step": 1000
    },
    {
      "epoch": 0.8689236111111112,
      "grad_norm": 0.0004845531366299838,
      "learning_rate": 8.5042799135434e-06,
      "loss": 11.5,
      "step": 1001
    },
    {
      "epoch": 0.8697916666666666,
      "grad_norm": 0.0011052289046347141,
      "learning_rate": 8.39361115632693e-06,
      "loss": 11.5,
      "step": 1002
    },
    {
      "epoch": 0.8706597222222222,
      "grad_norm": 0.001087307115085423,
      "learning_rate": 8.283635654136945e-06,
      "loss": 11.5,
      "step": 1003
    },
    {
      "epoch": 0.8715277777777778,
      "grad_norm": 0.0017758385511115193,
      "learning_rate": 8.174354239241444e-06,
      "loss": 11.5,
      "step": 1004
    },
    {
      "epoch": 0.8723958333333334,
      "grad_norm": 0.0013571154559031129,
      "learning_rate": 8.065767738655772e-06,
      "loss": 11.5,
      "step": 1005
    },
    {
      "epoch": 0.8732638888888888,
      "grad_norm": 0.0010715839453041553,
      "learning_rate": 7.95787697413638e-06,
      "loss": 11.5,
      "step": 1006
    },
    {
      "epoch": 0.8741319444444444,
      "grad_norm": 0.0016974667087197304,
      "learning_rate": 7.850682762174478e-06,
      "loss": 11.5,
      "step": 1007
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.0015621716156601906,
      "learning_rate": 7.744185913990009e-06,
      "loss": 11.5,
      "step": 1008
    },
    {
      "epoch": 0.8758680555555556,
      "grad_norm": 0.0016841186443343759,
      "learning_rate": 7.638387235525379e-06,
      "loss": 11.5,
      "step": 1009
    },
    {
      "epoch": 0.8767361111111112,
      "grad_norm": 0.002758445916697383,
      "learning_rate": 7.533287527439425e-06,
      "loss": 11.5,
      "step": 1010
    },
    {
      "epoch": 0.8776041666666666,
      "grad_norm": 0.0016019599279388785,
      "learning_rate": 7.428887585101374e-06,
      "loss": 11.5,
      "step": 1011
    },
    {
      "epoch": 0.8784722222222222,
      "grad_norm": 0.0018999181920662522,
      "learning_rate": 7.325188198584765e-06,
      "loss": 11.5,
      "step": 1012
    },
    {
      "epoch": 0.8793402777777778,
      "grad_norm": 0.0010694765951484442,
      "learning_rate": 7.222190152661523e-06,
      "loss": 11.5,
      "step": 1013
    },
    {
      "epoch": 0.8802083333333334,
      "grad_norm": 0.0018612075364217162,
      "learning_rate": 7.119894226795976e-06,
      "loss": 11.5,
      "step": 1014
    },
    {
      "epoch": 0.8810763888888888,
      "grad_norm": 0.002268765354529023,
      "learning_rate": 7.0183011951389655e-06,
      "loss": 11.5,
      "step": 1015
    },
    {
      "epoch": 0.8819444444444444,
      "grad_norm": 0.0016568549908697605,
      "learning_rate": 6.917411826522058e-06,
      "loss": 11.5,
      "step": 1016
    },
    {
      "epoch": 0.8828125,
      "grad_norm": 0.001887243939563632,
      "learning_rate": 6.817226884451588e-06,
      "loss": 11.5,
      "step": 1017
    },
    {
      "epoch": 0.8836805555555556,
      "grad_norm": 0.0019329325295984745,
      "learning_rate": 6.717747127103036e-06,
      "loss": 11.5,
      "step": 1018
    },
    {
      "epoch": 0.8845486111111112,
      "grad_norm": 0.0019357494311407208,
      "learning_rate": 6.618973307315169e-06,
      "loss": 11.5,
      "step": 1019
    },
    {
      "epoch": 0.8854166666666666,
      "grad_norm": 0.001050550607033074,
      "learning_rate": 6.520906172584374e-06,
      "loss": 11.5,
      "step": 1020
    },
    {
      "epoch": 0.8862847222222222,
      "grad_norm": 0.00105021963827312,
      "learning_rate": 6.423546465059083e-06,
      "loss": 11.5,
      "step": 1021
    },
    {
      "epoch": 0.8871527777777778,
      "grad_norm": 0.0010181008838117123,
      "learning_rate": 6.32689492153401e-06,
      "loss": 11.5,
      "step": 1022
    },
    {
      "epoch": 0.8880208333333334,
      "grad_norm": 0.001393261132761836,
      "learning_rate": 6.230952273444724e-06,
      "loss": 11.5,
      "step": 1023
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.0013681086711585522,
      "learning_rate": 6.135719246862015e-06,
      "loss": 11.5,
      "step": 1024
    },
    {
      "epoch": 0.8897569444444444,
      "grad_norm": 0.000961672340054065,
      "learning_rate": 6.041196562486384e-06,
      "loss": 11.5,
      "step": 1025
    },
    {
      "epoch": 0.890625,
      "grad_norm": 0.0008566235774196684,
      "learning_rate": 5.947384935642741e-06,
      "loss": 11.5,
      "step": 1026
    },
    {
      "epoch": 0.8914930555555556,
      "grad_norm": 0.0017007669666782022,
      "learning_rate": 5.854285076274768e-06,
      "loss": 11.5,
      "step": 1027
    },
    {
      "epoch": 0.8923611111111112,
      "grad_norm": 0.0007772583048790693,
      "learning_rate": 5.761897688939743e-06,
      "loss": 11.5,
      "step": 1028
    },
    {
      "epoch": 0.8932291666666666,
      "grad_norm": 0.0021222601644694805,
      "learning_rate": 5.670223472803105e-06,
      "loss": 11.5,
      "step": 1029
    },
    {
      "epoch": 0.8940972222222222,
      "grad_norm": 0.0015504820039495826,
      "learning_rate": 5.57926312163316e-06,
      "loss": 11.5,
      "step": 1030
    },
    {
      "epoch": 0.8949652777777778,
      "grad_norm": 0.0009038419811986387,
      "learning_rate": 5.489017323795897e-06,
      "loss": 11.5,
      "step": 1031
    },
    {
      "epoch": 0.8958333333333334,
      "grad_norm": 0.004429962486028671,
      "learning_rate": 5.399486762249695e-06,
      "loss": 11.5,
      "step": 1032
    },
    {
      "epoch": 0.8967013888888888,
      "grad_norm": 0.0011683698976412416,
      "learning_rate": 5.3106721145402386e-06,
      "loss": 11.5,
      "step": 1033
    },
    {
      "epoch": 0.8975694444444444,
      "grad_norm": 0.003304102225229144,
      "learning_rate": 5.222574052795337e-06,
      "loss": 11.5,
      "step": 1034
    },
    {
      "epoch": 0.8984375,
      "grad_norm": 0.0012262818636372685,
      "learning_rate": 5.135193243719827e-06,
      "loss": 11.5,
      "step": 1035
    },
    {
      "epoch": 0.8993055555555556,
      "grad_norm": 0.003834662726148963,
      "learning_rate": 5.048530348590586e-06,
      "loss": 11.5,
      "step": 1036
    },
    {
      "epoch": 0.9001736111111112,
      "grad_norm": 0.001176562043838203,
      "learning_rate": 4.962586023251448e-06,
      "loss": 11.5,
      "step": 1037
    },
    {
      "epoch": 0.9010416666666666,
      "grad_norm": 0.000768049038015306,
      "learning_rate": 4.877360918108342e-06,
      "loss": 11.5,
      "step": 1038
    },
    {
      "epoch": 0.9019097222222222,
      "grad_norm": 0.001197052071802318,
      "learning_rate": 4.792855678124275e-06,
      "loss": 11.5,
      "step": 1039
    },
    {
      "epoch": 0.9027777777777778,
      "grad_norm": 0.0019532316364347935,
      "learning_rate": 4.709070942814453e-06,
      "loss": 11.5,
      "step": 1040
    },
    {
      "epoch": 0.9036458333333334,
      "grad_norm": 0.0009884743485599756,
      "learning_rate": 4.6260073462415785e-06,
      "loss": 11.5,
      "step": 1041
    },
    {
      "epoch": 0.9045138888888888,
      "grad_norm": 0.0015926125925034285,
      "learning_rate": 4.543665517010831e-06,
      "loss": 11.5,
      "step": 1042
    },
    {
      "epoch": 0.9053819444444444,
      "grad_norm": 0.0009147552191279829,
      "learning_rate": 4.462046078265336e-06,
      "loss": 11.5,
      "step": 1043
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.002331066643819213,
      "learning_rate": 4.381149647681282e-06,
      "loss": 11.5,
      "step": 1044
    },
    {
      "epoch": 0.9071180555555556,
      "grad_norm": 0.0010099251521751285,
      "learning_rate": 4.3009768374633e-06,
      "loss": 11.5,
      "step": 1045
    },
    {
      "epoch": 0.9079861111111112,
      "grad_norm": 0.0012181218480691314,
      "learning_rate": 4.221528254339846e-06,
      "loss": 11.5,
      "step": 1046
    },
    {
      "epoch": 0.9088541666666666,
      "grad_norm": 0.0014538351679220796,
      "learning_rate": 4.142804499558639e-06,
      "loss": 11.5,
      "step": 1047
    },
    {
      "epoch": 0.9097222222222222,
      "grad_norm": 0.001775500481016934,
      "learning_rate": 4.064806168882041e-06,
      "loss": 11.5,
      "step": 1048
    },
    {
      "epoch": 0.9105902777777778,
      "grad_norm": 0.0020023842807859182,
      "learning_rate": 3.98753385258257e-06,
      "loss": 11.5,
      "step": 1049
    },
    {
      "epoch": 0.9114583333333334,
      "grad_norm": 0.0013718671398237348,
      "learning_rate": 3.910988135438442e-06,
      "loss": 11.5,
      "step": 1050
    },
    {
      "epoch": 0.9123263888888888,
      "grad_norm": 0.0015308244619518518,
      "learning_rate": 3.835169596729171e-06,
      "loss": 11.5,
      "step": 1051
    },
    {
      "epoch": 0.9131944444444444,
      "grad_norm": 0.0015270760050043464,
      "learning_rate": 3.760078810231138e-06,
      "loss": 11.5,
      "step": 1052
    },
    {
      "epoch": 0.9140625,
      "grad_norm": 0.003643724834546447,
      "learning_rate": 3.685716344213297e-06,
      "loss": 11.5,
      "step": 1053
    },
    {
      "epoch": 0.9149305555555556,
      "grad_norm": 0.001510651665739715,
      "learning_rate": 3.612082761432822e-06,
      "loss": 11.5,
      "step": 1054
    },
    {
      "epoch": 0.9157986111111112,
      "grad_norm": 0.005329502280801535,
      "learning_rate": 3.5391786191308894e-06,
      "loss": 11.5,
      "step": 1055
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 0.0009736838983371854,
      "learning_rate": 3.467004469028412e-06,
      "loss": 11.5,
      "step": 1056
    },
    {
      "epoch": 0.9175347222222222,
      "grad_norm": 0.0008657581638544798,
      "learning_rate": 3.3955608573219555e-06,
      "loss": 11.5,
      "step": 1057
    },
    {
      "epoch": 0.9184027777777778,
      "grad_norm": 0.00125668675173074,
      "learning_rate": 3.3248483246795193e-06,
      "loss": 11.5,
      "step": 1058
    },
    {
      "epoch": 0.9192708333333334,
      "grad_norm": 0.00114026281516999,
      "learning_rate": 3.2548674062364726e-06,
      "loss": 11.5,
      "step": 1059
    },
    {
      "epoch": 0.9201388888888888,
      "grad_norm": 0.002122555859386921,
      "learning_rate": 3.1856186315914805e-06,
      "loss": 11.5,
      "step": 1060
    },
    {
      "epoch": 0.9210069444444444,
      "grad_norm": 0.0007578746299259365,
      "learning_rate": 3.117102524802562e-06,
      "loss": 11.5,
      "step": 1061
    },
    {
      "epoch": 0.921875,
      "grad_norm": 0.0014415134210139513,
      "learning_rate": 3.0493196043830606e-06,
      "loss": 11.5,
      "step": 1062
    },
    {
      "epoch": 0.9227430555555556,
      "grad_norm": 0.001601168536581099,
      "learning_rate": 2.9822703832977694e-06,
      "loss": 11.5,
      "step": 1063
    },
    {
      "epoch": 0.9236111111111112,
      "grad_norm": 0.0008635074482299387,
      "learning_rate": 2.915955368958967e-06,
      "loss": 11.5,
      "step": 1064
    },
    {
      "epoch": 0.9244791666666666,
      "grad_norm": 0.0019804423209279776,
      "learning_rate": 2.850375063222699e-06,
      "loss": 11.5,
      "step": 1065
    },
    {
      "epoch": 0.9253472222222222,
      "grad_norm": 0.0010314827086403966,
      "learning_rate": 2.785529962384836e-06,
      "loss": 11.5,
      "step": 1066
    },
    {
      "epoch": 0.9262152777777778,
      "grad_norm": 0.001159374020062387,
      "learning_rate": 2.7214205571774786e-06,
      "loss": 11.5,
      "step": 1067
    },
    {
      "epoch": 0.9270833333333334,
      "grad_norm": 0.0022462657652795315,
      "learning_rate": 2.658047332765112e-06,
      "loss": 11.5,
      "step": 1068
    },
    {
      "epoch": 0.9279513888888888,
      "grad_norm": 0.0016062273643910885,
      "learning_rate": 2.595410768740991e-06,
      "loss": 11.5,
      "step": 1069
    },
    {
      "epoch": 0.9288194444444444,
      "grad_norm": 0.0014392099110409617,
      "learning_rate": 2.5335113391235064e-06,
      "loss": 11.5,
      "step": 1070
    },
    {
      "epoch": 0.9296875,
      "grad_norm": 0.002792984712868929,
      "learning_rate": 2.47234951235259e-06,
      "loss": 11.5,
      "step": 1071
    },
    {
      "epoch": 0.9305555555555556,
      "grad_norm": 0.0014238777803257108,
      "learning_rate": 2.411925751286159e-06,
      "loss": 11.5,
      "step": 1072
    },
    {
      "epoch": 0.9314236111111112,
      "grad_norm": 0.0014768666587769985,
      "learning_rate": 2.3522405131966798e-06,
      "loss": 11.5,
      "step": 1073
    },
    {
      "epoch": 0.9322916666666666,
      "grad_norm": 0.0022068144753575325,
      "learning_rate": 2.293294249767597e-06,
      "loss": 11.5,
      "step": 1074
    },
    {
      "epoch": 0.9331597222222222,
      "grad_norm": 0.005974563304334879,
      "learning_rate": 2.2350874070900084e-06,
      "loss": 11.5,
      "step": 1075
    },
    {
      "epoch": 0.9340277777777778,
      "grad_norm": 0.002221152186393738,
      "learning_rate": 2.17762042565921e-06,
      "loss": 11.5,
      "step": 1076
    },
    {
      "epoch": 0.9348958333333334,
      "grad_norm": 0.004724642727524042,
      "learning_rate": 2.120893740371477e-06,
      "loss": 11.5,
      "step": 1077
    },
    {
      "epoch": 0.9357638888888888,
      "grad_norm": 0.0018607546808198094,
      "learning_rate": 2.0649077805206307e-06,
      "loss": 11.5,
      "step": 1078
    },
    {
      "epoch": 0.9366319444444444,
      "grad_norm": 0.0023594906087964773,
      "learning_rate": 2.0096629697949233e-06,
      "loss": 11.5,
      "step": 1079
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.0006208402337506413,
      "learning_rate": 1.9551597262737252e-06,
      "loss": 11.5,
      "step": 1080
    },
    {
      "epoch": 0.9383680555555556,
      "grad_norm": 0.002215224551036954,
      "learning_rate": 1.9013984624244085e-06,
      "loss": 11.5,
      "step": 1081
    },
    {
      "epoch": 0.9392361111111112,
      "grad_norm": 0.0007536741904914379,
      "learning_rate": 1.848379585099258e-06,
      "loss": 11.5,
      "step": 1082
    },
    {
      "epoch": 0.9401041666666666,
      "grad_norm": 0.0009242017404176295,
      "learning_rate": 1.7961034955323087e-06,
      "loss": 11.5,
      "step": 1083
    },
    {
      "epoch": 0.9409722222222222,
      "grad_norm": 0.0006623501540161669,
      "learning_rate": 1.7445705893364029e-06,
      "loss": 11.5,
      "step": 1084
    },
    {
      "epoch": 0.9418402777777778,
      "grad_norm": 0.0021281749941408634,
      "learning_rate": 1.6937812565001155e-06,
      "loss": 11.5,
      "step": 1085
    },
    {
      "epoch": 0.9427083333333334,
      "grad_norm": 0.0013010475086048245,
      "learning_rate": 1.6437358813848558e-06,
      "loss": 11.5,
      "step": 1086
    },
    {
      "epoch": 0.9435763888888888,
      "grad_norm": 0.0007639144314453006,
      "learning_rate": 1.5944348427219369e-06,
      "loss": 11.5,
      "step": 1087
    },
    {
      "epoch": 0.9444444444444444,
      "grad_norm": 0.0020497033838182688,
      "learning_rate": 1.5458785136096998e-06,
      "loss": 11.5,
      "step": 1088
    },
    {
      "epoch": 0.9453125,
      "grad_norm": 0.0012977109290659428,
      "learning_rate": 1.4980672615107382e-06,
      "loss": 11.5,
      "step": 1089
    },
    {
      "epoch": 0.9461805555555556,
      "grad_norm": 0.005701936781406403,
      "learning_rate": 1.4510014482490452e-06,
      "loss": 11.5,
      "step": 1090
    },
    {
      "epoch": 0.9470486111111112,
      "grad_norm": 0.0021997124422341585,
      "learning_rate": 1.4046814300073263e-06,
      "loss": 11.5,
      "step": 1091
    },
    {
      "epoch": 0.9479166666666666,
      "grad_norm": 0.003820932237431407,
      "learning_rate": 1.3591075573243129e-06,
      "loss": 11.5,
      "step": 1092
    },
    {
      "epoch": 0.9487847222222222,
      "grad_norm": 0.0011063999263569713,
      "learning_rate": 1.3142801750920308e-06,
      "loss": 11.5,
      "step": 1093
    },
    {
      "epoch": 0.9496527777777778,
      "grad_norm": 0.0015035996912047267,
      "learning_rate": 1.2701996225533252e-06,
      "loss": 11.5,
      "step": 1094
    },
    {
      "epoch": 0.9505208333333334,
      "grad_norm": 0.003475926350802183,
      "learning_rate": 1.22686623329914e-06,
      "loss": 11.5,
      "step": 1095
    },
    {
      "epoch": 0.9513888888888888,
      "grad_norm": 0.0020042727701365948,
      "learning_rate": 1.184280335266108e-06,
      "loss": 11.5,
      "step": 1096
    },
    {
      "epoch": 0.9522569444444444,
      "grad_norm": 0.00241409451700747,
      "learning_rate": 1.1424422507340216e-06,
      "loss": 11.5,
      "step": 1097
    },
    {
      "epoch": 0.953125,
      "grad_norm": 0.0015191644197329879,
      "learning_rate": 1.101352296323399e-06,
      "loss": 11.5,
      "step": 1098
    },
    {
      "epoch": 0.9539930555555556,
      "grad_norm": 0.0029855803586542606,
      "learning_rate": 1.0610107829930994e-06,
      "loss": 11.5,
      "step": 1099
    },
    {
      "epoch": 0.9548611111111112,
      "grad_norm": 0.004204906057566404,
      "learning_rate": 1.021418016037945e-06,
      "loss": 11.5,
      "step": 1100
    },
    {
      "epoch": 0.9557291666666666,
      "grad_norm": 0.001484711654484272,
      "learning_rate": 9.825742950864359e-07,
      "loss": 11.5,
      "step": 1101
    },
    {
      "epoch": 0.9565972222222222,
      "grad_norm": 0.002620697719976306,
      "learning_rate": 9.444799140984617e-07,
      "loss": 11.5,
      "step": 1102
    },
    {
      "epoch": 0.9574652777777778,
      "grad_norm": 0.0017601251602172852,
      "learning_rate": 9.071351613631151e-07,
      "loss": 11.5,
      "step": 1103
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 0.001482390915043652,
      "learning_rate": 8.70540319496449e-07,
      "loss": 11.5,
      "step": 1104
    },
    {
      "epoch": 0.9592013888888888,
      "grad_norm": 0.0007634983048774302,
      "learning_rate": 8.346956654394e-07,
      "loss": 11.5,
      "step": 1105
    },
    {
      "epoch": 0.9600694444444444,
      "grad_norm": 0.0010164219420403242,
      "learning_rate": 7.996014704556465e-07,
      "loss": 11.5,
      "step": 1106
    },
    {
      "epoch": 0.9609375,
      "grad_norm": 0.0015035169199109077,
      "learning_rate": 7.652580001295761e-07,
      "loss": 11.5,
      "step": 1107
    },
    {
      "epoch": 0.9618055555555556,
      "grad_norm": 0.0009916204726323485,
      "learning_rate": 7.316655143642881e-07,
      "loss": 11.5,
      "step": 1108
    },
    {
      "epoch": 0.9626736111111112,
      "grad_norm": 0.0007135794148780406,
      "learning_rate": 6.988242673796053e-07,
      "loss": 11.5,
      "step": 1109
    },
    {
      "epoch": 0.9635416666666666,
      "grad_norm": 0.008133363910019398,
      "learning_rate": 6.667345077101428e-07,
      "loss": 11.5,
      "step": 1110
    },
    {
      "epoch": 0.9644097222222222,
      "grad_norm": 0.0007596577634103596,
      "learning_rate": 6.353964782034427e-07,
      "loss": 11.5,
      "step": 1111
    },
    {
      "epoch": 0.9652777777777778,
      "grad_norm": 0.0007973128231242299,
      "learning_rate": 6.048104160181644e-07,
      "loss": 11.5,
      "step": 1112
    },
    {
      "epoch": 0.9661458333333334,
      "grad_norm": 0.0007756968261674047,
      "learning_rate": 5.749765526222306e-07,
      "loss": 11.5,
      "step": 1113
    },
    {
      "epoch": 0.9670138888888888,
      "grad_norm": 0.0024995796848088503,
      "learning_rate": 5.458951137911061e-07,
      "loss": 11.5,
      "step": 1114
    },
    {
      "epoch": 0.9678819444444444,
      "grad_norm": 0.004700554069131613,
      "learning_rate": 5.175663196061109e-07,
      "loss": 11.5,
      "step": 1115
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.0028451543767005205,
      "learning_rate": 4.899903844527098e-07,
      "loss": 11.5,
      "step": 1116
    },
    {
      "epoch": 0.9696180555555556,
      "grad_norm": 0.004768983460962772,
      "learning_rate": 4.6316751701892534e-07,
      "loss": 11.5,
      "step": 1117
    },
    {
      "epoch": 0.9704861111111112,
      "grad_norm": 0.0006475843256339431,
      "learning_rate": 4.3709792029372756e-07,
      "loss": 11.5,
      "step": 1118
    },
    {
      "epoch": 0.9713541666666666,
      "grad_norm": 0.0009065187186934054,
      "learning_rate": 4.117817915655353e-07,
      "loss": 11.5,
      "step": 1119
    },
    {
      "epoch": 0.9722222222222222,
      "grad_norm": 0.0006598223699256778,
      "learning_rate": 3.8721932242070657e-07,
      "loss": 11.5,
      "step": 1120
    },
    {
      "epoch": 0.9730902777777778,
      "grad_norm": 0.0010132774477824569,
      "learning_rate": 3.6341069874206157e-07,
      "loss": 11.5,
      "step": 1121
    },
    {
      "epoch": 0.9739583333333334,
      "grad_norm": 0.0014093799982219934,
      "learning_rate": 3.4035610070751736e-07,
      "loss": 11.5,
      "step": 1122
    },
    {
      "epoch": 0.9748263888888888,
      "grad_norm": 0.0017818319611251354,
      "learning_rate": 3.18055702788711e-07,
      "loss": 11.5,
      "step": 1123
    },
    {
      "epoch": 0.9756944444444444,
      "grad_norm": 0.0026577720418572426,
      "learning_rate": 2.9650967374966755e-07,
      "loss": 11.5,
      "step": 1124
    },
    {
      "epoch": 0.9765625,
      "grad_norm": 0.0022646901197731495,
      "learning_rate": 2.7571817664551193e-07,
      "loss": 11.5,
      "step": 1125
    },
    {
      "epoch": 0.9774305555555556,
      "grad_norm": 0.0011194020044058561,
      "learning_rate": 2.556813688212922e-07,
      "loss": 11.5,
      "step": 1126
    },
    {
      "epoch": 0.9782986111111112,
      "grad_norm": 0.004853848367929459,
      "learning_rate": 2.3639940191073628e-07,
      "loss": 11.5,
      "step": 1127
    },
    {
      "epoch": 0.9791666666666666,
      "grad_norm": 0.002019268926233053,
      "learning_rate": 2.1787242183509693e-07,
      "loss": 11.5,
      "step": 1128
    },
    {
      "epoch": 0.9800347222222222,
      "grad_norm": 0.0006932081305421889,
      "learning_rate": 2.0010056880208628e-07,
      "loss": 11.5,
      "step": 1129
    },
    {
      "epoch": 0.9809027777777778,
      "grad_norm": 0.0010628064628690481,
      "learning_rate": 1.8308397730479877e-07,
      "loss": 11.5,
      "step": 1130
    },
    {
      "epoch": 0.9817708333333334,
      "grad_norm": 0.0007723096059635282,
      "learning_rate": 1.6682277612070086e-07,
      "loss": 11.5,
      "step": 1131
    },
    {
      "epoch": 0.9826388888888888,
      "grad_norm": 0.001676861196756363,
      "learning_rate": 1.5131708831062075e-07,
      "loss": 11.5,
      "step": 1132
    },
    {
      "epoch": 0.9835069444444444,
      "grad_norm": 0.002335914643481374,
      "learning_rate": 1.3656703121784908e-07,
      "loss": 11.5,
      "step": 1133
    },
    {
      "epoch": 0.984375,
      "grad_norm": 0.0012665395624935627,
      "learning_rate": 1.2257271646728407e-07,
      "loss": 11.5,
      "step": 1134
    },
    {
      "epoch": 0.9852430555555556,
      "grad_norm": 0.0021818073000758886,
      "learning_rate": 1.0933424996451003e-07,
      "loss": 11.5,
      "step": 1135
    },
    {
      "epoch": 0.9861111111111112,
      "grad_norm": 0.001958550186827779,
      "learning_rate": 9.685173189503128e-08,
      "loss": 11.5,
      "step": 1136
    },
    {
      "epoch": 0.9869791666666666,
      "grad_norm": 0.001507507637143135,
      "learning_rate": 8.512525672353944e-08,
      "loss": 11.5,
      "step": 1137
    },
    {
      "epoch": 0.9878472222222222,
      "grad_norm": 0.0017390820430591702,
      "learning_rate": 7.415491319316959e-08,
      "loss": 11.5,
      "step": 1138
    },
    {
      "epoch": 0.9887152777777778,
      "grad_norm": 0.0020140372216701508,
      "learning_rate": 6.394078432482297e-08,
      "loss": 11.5,
      "step": 1139
    },
    {
      "epoch": 0.9895833333333334,
      "grad_norm": 0.0011658075964078307,
      "learning_rate": 5.4482947416567566e-08,
      "loss": 11.5,
      "step": 1140
    },
    {
      "epoch": 0.9904513888888888,
      "grad_norm": 0.0025239374954253435,
      "learning_rate": 4.578147404302735e-08,
      "loss": 11.5,
      "step": 1141
    },
    {
      "epoch": 0.9913194444444444,
      "grad_norm": 0.0011611297959461808,
      "learning_rate": 3.783643005484949e-08,
      "loss": 11.5,
      "step": 1142
    },
    {
      "epoch": 0.9921875,
      "grad_norm": 0.0018104587215930223,
      "learning_rate": 3.06478755782047e-08,
      "loss": 11.5,
      "step": 1143
    },
    {
      "epoch": 0.9930555555555556,
      "grad_norm": 0.0009618744370527565,
      "learning_rate": 2.4215865014354244e-08,
      "loss": 11.5,
      "step": 1144
    },
    {
      "epoch": 0.9939236111111112,
      "grad_norm": 0.007959657348692417,
      "learning_rate": 1.854044703917257e-08,
      "loss": 11.5,
      "step": 1145
    },
    {
      "epoch": 0.9947916666666666,
      "grad_norm": 0.0018928087083622813,
      "learning_rate": 1.3621664602880835e-08,
      "loss": 11.5,
      "step": 1146
    },
    {
      "epoch": 0.9956597222222222,
      "grad_norm": 0.0023763668723404408,
      "learning_rate": 9.459554929613923e-09,
      "loss": 11.5,
      "step": 1147
    },
    {
      "epoch": 0.9965277777777778,
      "grad_norm": 0.0031490277033299208,
      "learning_rate": 6.054149517220609e-09,
      "loss": 11.5,
      "step": 1148
    },
    {
      "epoch": 0.9973958333333334,
      "grad_norm": 0.004884097725152969,
      "learning_rate": 3.4054741369859975e-09,
      "loss": 11.5,
      "step": 1149
    },
    {
      "epoch": 0.9982638888888888,
      "grad_norm": 0.003937930800020695,
      "learning_rate": 1.5135488334538928e-09,
      "loss": 11.5,
      "step": 1150
    },
    {
      "epoch": 0.9991319444444444,
      "grad_norm": 0.0011430383892729878,
      "learning_rate": 3.7838792424915723e-10,
      "loss": 11.5,
      "step": 1151
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.006210098508745432,
      "learning_rate": 0.0,
      "loss": 11.5,
      "step": 1152
    },
    {
      "epoch": 1.0,
      "eval_loss": 11.5,
      "eval_runtime": 3.9898,
      "eval_samples_per_second": 121.56,
      "eval_steps_per_second": 60.905,
      "step": 1152
    }
  ],
  "logging_steps": 1,
  "max_steps": 1152,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 288,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 47222202679296.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}