{
  "best_metric": 11.5,
  "best_model_checkpoint": "miner_id_24/checkpoint-300",
  "epoch": 0.16387286197125397,
  "eval_steps": 300,
  "global_step": 1200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001365607183093783,
      "grad_norm": 9.676669833424967e-06,
      "learning_rate": 2e-05,
      "loss": 46.0,
      "step": 1
    },
    {
      "epoch": 0.0001365607183093783,
      "eval_loss": 11.5,
      "eval_runtime": 20.0819,
      "eval_samples_per_second": 153.571,
      "eval_steps_per_second": 76.786,
      "step": 1
    },
    {
      "epoch": 0.0002731214366187566,
      "grad_norm": 8.113798685371876e-06,
      "learning_rate": 4e-05,
      "loss": 46.0,
      "step": 2
    },
    {
      "epoch": 0.0004096821549281349,
      "grad_norm": 4.353820713731693e-06,
      "learning_rate": 6e-05,
      "loss": 46.0,
      "step": 3
    },
    {
      "epoch": 0.0005462428732375132,
      "grad_norm": 5.62772765988484e-06,
      "learning_rate": 8e-05,
      "loss": 46.0,
      "step": 4
    },
    {
      "epoch": 0.0006828035915468915,
      "grad_norm": 6.43259363641846e-06,
      "learning_rate": 0.0001,
      "loss": 46.0,
      "step": 5
    },
    {
      "epoch": 0.0008193643098562698,
      "grad_norm": 9.933234650816303e-06,
      "learning_rate": 0.00012,
      "loss": 46.0,
      "step": 6
    },
    {
      "epoch": 0.0009559250281656481,
      "grad_norm": 6.729349024681142e-06,
      "learning_rate": 0.00014,
      "loss": 46.0,
      "step": 7
    },
    {
      "epoch": 0.0010924857464750264,
      "grad_norm": 7.317645668081241e-06,
      "learning_rate": 0.00016,
      "loss": 46.0,
      "step": 8
    },
    {
      "epoch": 0.0012290464647844047,
      "grad_norm": 7.1731265052221715e-06,
      "learning_rate": 0.00018,
      "loss": 46.0,
      "step": 9
    },
    {
      "epoch": 0.001365607183093783,
      "grad_norm": 7.621179065608885e-06,
      "learning_rate": 0.0002,
      "loss": 46.0,
      "step": 10
    },
    {
      "epoch": 0.0015021679014031613,
      "grad_norm": 1.141078882938018e-05,
      "learning_rate": 0.00019999994480149276,
      "loss": 46.0,
      "step": 11
    },
    {
      "epoch": 0.0016387286197125396,
      "grad_norm": 9.140413567365613e-06,
      "learning_rate": 0.00019999977920603197,
      "loss": 46.0,
      "step": 12
    },
    {
      "epoch": 0.001775289338021918,
      "grad_norm": 1.240484562003985e-05,
      "learning_rate": 0.0001999995032138004,
      "loss": 46.0,
      "step": 13
    },
    {
      "epoch": 0.0019118500563312963,
      "grad_norm": 1.1790569260483608e-05,
      "learning_rate": 0.00019999911682510278,
      "loss": 46.0,
      "step": 14
    },
    {
      "epoch": 0.0020484107746406746,
      "grad_norm": 1.051307117450051e-05,
      "learning_rate": 0.00019999862004036568,
      "loss": 46.0,
      "step": 15
    },
    {
      "epoch": 0.0021849714929500527,
      "grad_norm": 9.398099791724235e-06,
      "learning_rate": 0.0001999980128601375,
      "loss": 46.0,
      "step": 16
    },
    {
      "epoch": 0.0023215322112594312,
      "grad_norm": 7.582193120470038e-06,
      "learning_rate": 0.00019999729528508855,
      "loss": 46.0,
      "step": 17
    },
    {
      "epoch": 0.0024580929295688093,
      "grad_norm": 1.940154834301211e-05,
      "learning_rate": 0.00019999646731601103,
      "loss": 46.0,
      "step": 18
    },
    {
      "epoch": 0.002594653647878188,
      "grad_norm": 7.919963536551222e-06,
      "learning_rate": 0.00019999552895381902,
      "loss": 46.0,
      "step": 19
    },
    {
      "epoch": 0.002731214366187566,
      "grad_norm": 1.3096555449010339e-05,
      "learning_rate": 0.0001999944801995484,
      "loss": 46.0,
      "step": 20
    },
    {
      "epoch": 0.0028677750844969445,
      "grad_norm": 1.2133096788602415e-05,
      "learning_rate": 0.00019999332105435696,
      "loss": 46.0,
      "step": 21
    },
    {
      "epoch": 0.0030043358028063226,
      "grad_norm": 3.7125832022866234e-05,
      "learning_rate": 0.00019999205151952437,
      "loss": 46.0,
      "step": 22
    },
    {
      "epoch": 0.003140896521115701,
      "grad_norm": 1.1414869732107036e-05,
      "learning_rate": 0.0001999906715964522,
      "loss": 46.0,
      "step": 23
    },
    {
      "epoch": 0.0032774572394250793,
      "grad_norm": 1.2319793313508853e-05,
      "learning_rate": 0.0001999891812866638,
      "loss": 46.0,
      "step": 24
    },
    {
      "epoch": 0.003414017957734458,
      "grad_norm": 1.1083939170930535e-05,
      "learning_rate": 0.00019998758059180447,
      "loss": 46.0,
      "step": 25
    },
    {
      "epoch": 0.003550578676043836,
      "grad_norm": 1.0406022738607135e-05,
      "learning_rate": 0.00019998586951364125,
      "loss": 46.0,
      "step": 26
    },
    {
      "epoch": 0.0036871393943532144,
      "grad_norm": 8.916207661968656e-06,
      "learning_rate": 0.0001999840480540632,
      "loss": 46.0,
      "step": 27
    },
    {
      "epoch": 0.0038237001126625926,
      "grad_norm": 8.375522156711668e-06,
      "learning_rate": 0.0001999821162150811,
      "loss": 46.0,
      "step": 28
    },
    {
      "epoch": 0.003960260830971971,
      "grad_norm": 5.647367288474925e-06,
      "learning_rate": 0.00019998007399882765,
      "loss": 46.0,
      "step": 29
    },
    {
      "epoch": 0.004096821549281349,
      "grad_norm": 2.2721666027791798e-05,
      "learning_rate": 0.00019997792140755746,
      "loss": 46.0,
      "step": 30
    },
    {
      "epoch": 0.004233382267590727,
      "grad_norm": 1.8854540030588396e-05,
      "learning_rate": 0.00019997565844364688,
      "loss": 46.0,
      "step": 31
    },
    {
      "epoch": 0.004369942985900105,
      "grad_norm": 8.220870768127497e-06,
      "learning_rate": 0.00019997328510959413,
      "loss": 46.0,
      "step": 32
    },
    {
      "epoch": 0.004506503704209484,
      "grad_norm": 7.226680736494018e-06,
      "learning_rate": 0.00019997080140801932,
      "loss": 46.0,
      "step": 33
    },
    {
      "epoch": 0.0046430644225188625,
      "grad_norm": 4.141399131185608e-06,
      "learning_rate": 0.0001999682073416644,
      "loss": 46.0,
      "step": 34
    },
    {
      "epoch": 0.004779625140828241,
      "grad_norm": 1.651368074817583e-05,
      "learning_rate": 0.00019996550291339311,
      "loss": 46.0,
      "step": 35
    },
    {
      "epoch": 0.004916185859137619,
      "grad_norm": 2.9052245736238547e-05,
      "learning_rate": 0.00019996268812619107,
      "loss": 46.0,
      "step": 36
    },
    {
      "epoch": 0.005052746577446998,
      "grad_norm": 9.355511792819016e-06,
      "learning_rate": 0.00019995976298316576,
      "loss": 46.0,
      "step": 37
    },
    {
      "epoch": 0.005189307295756376,
      "grad_norm": 1.852245804911945e-05,
      "learning_rate": 0.00019995672748754638,
      "loss": 46.0,
      "step": 38
    },
    {
      "epoch": 0.005325868014065754,
      "grad_norm": 2.2482845452032052e-05,
      "learning_rate": 0.0001999535816426841,
      "loss": 46.0,
      "step": 39
    },
    {
      "epoch": 0.005462428732375132,
      "grad_norm": 4.135522249271162e-05,
      "learning_rate": 0.0001999503254520518,
      "loss": 46.0,
      "step": 40
    },
    {
      "epoch": 0.005598989450684511,
      "grad_norm": 4.387225635582581e-05,
      "learning_rate": 0.0001999469589192442,
      "loss": 46.0,
      "step": 41
    },
    {
      "epoch": 0.005735550168993889,
      "grad_norm": 1.1143504707433749e-05,
      "learning_rate": 0.00019994348204797788,
      "loss": 46.0,
      "step": 42
    },
    {
      "epoch": 0.005872110887303267,
      "grad_norm": 1.7061322068911977e-05,
      "learning_rate": 0.00019993989484209118,
      "loss": 46.0,
      "step": 43
    },
    {
      "epoch": 0.006008671605612645,
      "grad_norm": 3.7752193748019636e-05,
      "learning_rate": 0.0001999361973055443,
      "loss": 46.0,
      "step": 44
    },
    {
      "epoch": 0.006145232323922024,
      "grad_norm": 2.867165494535584e-05,
      "learning_rate": 0.0001999323894424192,
      "loss": 46.0,
      "step": 45
    },
    {
      "epoch": 0.006281793042231402,
      "grad_norm": 1.418732153979363e-05,
      "learning_rate": 0.0001999284712569196,
      "loss": 46.0,
      "step": 46
    },
    {
      "epoch": 0.00641835376054078,
      "grad_norm": 5.592720117419958e-05,
      "learning_rate": 0.00019992444275337114,
      "loss": 46.0,
      "step": 47
    },
    {
      "epoch": 0.0065549144788501585,
      "grad_norm": 7.95181404100731e-05,
      "learning_rate": 0.0001999203039362211,
      "loss": 46.0,
      "step": 48
    },
    {
      "epoch": 0.006691475197159537,
      "grad_norm": 2.4339618903468363e-05,
      "learning_rate": 0.00019991605481003866,
      "loss": 46.0,
      "step": 49
    },
    {
      "epoch": 0.006828035915468916,
      "grad_norm": 3.441837543505244e-05,
      "learning_rate": 0.00019991169537951468,
      "loss": 46.0,
      "step": 50
    },
    {
      "epoch": 0.006964596633778294,
      "grad_norm": 1.7208472854690626e-05,
      "learning_rate": 0.0001999072256494619,
      "loss": 46.0,
      "step": 51
    },
    {
      "epoch": 0.007101157352087672,
      "grad_norm": 1.2097309991077054e-05,
      "learning_rate": 0.00019990264562481472,
      "loss": 46.0,
      "step": 52
    },
    {
      "epoch": 0.00723771807039705,
      "grad_norm": 1.3584556654677726e-05,
      "learning_rate": 0.00019989795531062936,
      "loss": 46.0,
      "step": 53
    },
    {
      "epoch": 0.007374278788706429,
      "grad_norm": 2.912199306592811e-05,
      "learning_rate": 0.00019989315471208378,
      "loss": 46.0,
      "step": 54
    },
    {
      "epoch": 0.007510839507015807,
      "grad_norm": 2.0452795070013963e-05,
      "learning_rate": 0.00019988824383447776,
      "loss": 46.0,
      "step": 55
    },
    {
      "epoch": 0.007647400225325185,
      "grad_norm": 1.590143256180454e-05,
      "learning_rate": 0.00019988322268323268,
      "loss": 46.0,
      "step": 56
    },
    {
      "epoch": 0.007783960943634563,
      "grad_norm": 1.094182789529441e-05,
      "learning_rate": 0.00019987809126389177,
      "loss": 46.0,
      "step": 57
    },
    {
      "epoch": 0.007920521661943942,
      "grad_norm": 1.5657904441468418e-05,
      "learning_rate": 0.00019987284958211996,
      "loss": 46.0,
      "step": 58
    },
    {
      "epoch": 0.00805708238025332,
      "grad_norm": 1.1172323866048828e-05,
      "learning_rate": 0.00019986749764370392,
      "loss": 46.0,
      "step": 59
    },
    {
      "epoch": 0.008193643098562698,
      "grad_norm": 1.1931785593333188e-05,
      "learning_rate": 0.00019986203545455203,
      "loss": 46.0,
      "step": 60
    },
    {
      "epoch": 0.008330203816872076,
      "grad_norm": 2.3814011001377366e-05,
      "learning_rate": 0.0001998564630206944,
      "loss": 46.0,
      "step": 61
    },
    {
      "epoch": 0.008466764535181455,
      "grad_norm": 1.1059896678489167e-05,
      "learning_rate": 0.0001998507803482828,
      "loss": 46.0,
      "step": 62
    },
    {
      "epoch": 0.008603325253490833,
      "grad_norm": 1.2055512343067676e-05,
      "learning_rate": 0.00019984498744359075,
      "loss": 46.0,
      "step": 63
    },
    {
      "epoch": 0.00873988597180021,
      "grad_norm": 3.0810657335678115e-05,
      "learning_rate": 0.00019983908431301343,
      "loss": 46.0,
      "step": 64
    },
    {
      "epoch": 0.00887644669010959,
      "grad_norm": 2.3847031116019934e-05,
      "learning_rate": 0.0001998330709630677,
      "loss": 46.0,
      "step": 65
    },
    {
      "epoch": 0.009013007408418969,
      "grad_norm": 2.5676057703094557e-05,
      "learning_rate": 0.0001998269474003922,
      "loss": 46.0,
      "step": 66
    },
    {
      "epoch": 0.009149568126728347,
      "grad_norm": 1.9099008568446152e-05,
      "learning_rate": 0.0001998207136317471,
      "loss": 46.0,
      "step": 67
    },
    {
      "epoch": 0.009286128845037725,
      "grad_norm": 1.620809234736953e-05,
      "learning_rate": 0.00019981436966401425,
      "loss": 46.0,
      "step": 68
    },
    {
      "epoch": 0.009422689563347103,
      "grad_norm": 2.771842628135346e-05,
      "learning_rate": 0.00019980791550419728,
      "loss": 46.0,
      "step": 69
    },
    {
      "epoch": 0.009559250281656481,
      "grad_norm": 1.6155812772922218e-05,
      "learning_rate": 0.00019980135115942136,
      "loss": 46.0,
      "step": 70
    },
    {
      "epoch": 0.00969581099996586,
      "grad_norm": 1.4296605513663962e-05,
      "learning_rate": 0.00019979467663693332,
      "loss": 46.0,
      "step": 71
    },
    {
      "epoch": 0.009832371718275237,
      "grad_norm": 2.5244138669222593e-05,
      "learning_rate": 0.00019978789194410168,
      "loss": 46.0,
      "step": 72
    },
    {
      "epoch": 0.009968932436584617,
      "grad_norm": 2.8768767151632346e-05,
      "learning_rate": 0.00019978099708841646,
      "loss": 46.0,
      "step": 73
    },
    {
      "epoch": 0.010105493154893995,
      "grad_norm": 2.3254493498825468e-05,
      "learning_rate": 0.00019977399207748943,
      "loss": 46.0,
      "step": 74
    },
    {
      "epoch": 0.010242053873203373,
      "grad_norm": 2.780866634566337e-05,
      "learning_rate": 0.00019976687691905393,
      "loss": 46.0,
      "step": 75
    },
    {
      "epoch": 0.010378614591512752,
      "grad_norm": 9.848828085523564e-06,
      "learning_rate": 0.00019975965162096485,
      "loss": 46.0,
      "step": 76
    },
    {
      "epoch": 0.01051517530982213,
      "grad_norm": 1.7771888451534323e-05,
      "learning_rate": 0.00019975231619119867,
      "loss": 46.0,
      "step": 77
    },
    {
      "epoch": 0.010651736028131508,
      "grad_norm": 2.449357634759508e-05,
      "learning_rate": 0.00019974487063785355,
      "loss": 46.0,
      "step": 78
    },
    {
      "epoch": 0.010788296746440886,
      "grad_norm": 2.3659646103624254e-05,
      "learning_rate": 0.00019973731496914914,
      "loss": 46.0,
      "step": 79
    },
    {
      "epoch": 0.010924857464750264,
      "grad_norm": 4.919664206681773e-05,
      "learning_rate": 0.00019972964919342663,
      "loss": 46.0,
      "step": 80
    },
    {
      "epoch": 0.011061418183059642,
      "grad_norm": 3.88891676266212e-05,
      "learning_rate": 0.00019972187331914886,
      "loss": 46.0,
      "step": 81
    },
    {
      "epoch": 0.011197978901369022,
      "grad_norm": 5.824596883030608e-05,
      "learning_rate": 0.00019971398735490014,
      "loss": 46.0,
      "step": 82
    },
    {
      "epoch": 0.0113345396196784,
      "grad_norm": 2.443828088871669e-05,
      "learning_rate": 0.00019970599130938633,
      "loss": 46.0,
      "step": 83
    },
    {
      "epoch": 0.011471100337987778,
      "grad_norm": 1.806908221624326e-05,
      "learning_rate": 0.0001996978851914349,
      "loss": 46.0,
      "step": 84
    },
    {
      "epoch": 0.011607661056297156,
      "grad_norm": 1.9875111320288852e-05,
      "learning_rate": 0.00019968966900999464,
      "loss": 46.0,
      "step": 85
    },
    {
      "epoch": 0.011744221774606534,
      "grad_norm": 2.811396734614391e-05,
      "learning_rate": 0.00019968134277413606,
      "loss": 46.0,
      "step": 86
    },
    {
      "epoch": 0.011880782492915912,
      "grad_norm": 2.5689738322398625e-05,
      "learning_rate": 0.00019967290649305103,
      "loss": 46.0,
      "step": 87
    },
    {
      "epoch": 0.01201734321122529,
      "grad_norm": 4.2773946915986016e-05,
      "learning_rate": 0.00019966436017605297,
      "loss": 46.0,
      "step": 88
    },
    {
      "epoch": 0.012153903929534669,
      "grad_norm": 0.00021493734675459564,
      "learning_rate": 0.00019965570383257677,
      "loss": 46.0,
      "step": 89
    },
    {
      "epoch": 0.012290464647844048,
      "grad_norm": 0.00024037304683588445,
      "learning_rate": 0.00019964693747217874,
      "loss": 46.0,
      "step": 90
    },
    {
      "epoch": 0.012427025366153427,
      "grad_norm": 4.650273695006035e-05,
      "learning_rate": 0.00019963806110453672,
      "loss": 46.0,
      "step": 91
    },
    {
      "epoch": 0.012563586084462805,
      "grad_norm": 2.4313370886375196e-05,
      "learning_rate": 0.00019962907473944995,
      "loss": 46.0,
      "step": 92
    },
    {
      "epoch": 0.012700146802772183,
      "grad_norm": 1.7518057575216517e-05,
      "learning_rate": 0.00019961997838683905,
      "loss": 46.0,
      "step": 93
    },
    {
      "epoch": 0.01283670752108156,
      "grad_norm": 3.366146847838536e-05,
      "learning_rate": 0.00019961077205674622,
      "loss": 46.0,
      "step": 94
    },
    {
      "epoch": 0.012973268239390939,
      "grad_norm": 4.310454460210167e-05,
      "learning_rate": 0.00019960145575933486,
      "loss": 46.0,
      "step": 95
    },
    {
      "epoch": 0.013109828957700317,
      "grad_norm": 4.665861342800781e-05,
      "learning_rate": 0.00019959202950489,
      "loss": 46.0,
      "step": 96
    },
    {
      "epoch": 0.013246389676009695,
      "grad_norm": 2.579794090706855e-05,
      "learning_rate": 0.00019958249330381787,
      "loss": 46.0,
      "step": 97
    },
    {
      "epoch": 0.013382950394319073,
      "grad_norm": 0.00010568476136540994,
      "learning_rate": 0.00019957284716664618,
      "loss": 46.0,
      "step": 98
    },
    {
      "epoch": 0.013519511112628453,
      "grad_norm": 3.9795751945348457e-05,
      "learning_rate": 0.00019956309110402397,
      "loss": 46.0,
      "step": 99
    },
    {
      "epoch": 0.013656071830937831,
      "grad_norm": 2.9642118533956818e-05,
      "learning_rate": 0.00019955322512672162,
      "loss": 46.0,
      "step": 100
    },
    {
      "epoch": 0.01379263254924721,
      "grad_norm": 1.9580385924200527e-05,
      "learning_rate": 0.00019954324924563089,
      "loss": 46.0,
      "step": 101
    },
    {
      "epoch": 0.013929193267556587,
      "grad_norm": 3.410055433050729e-05,
      "learning_rate": 0.00019953316347176488,
      "loss": 46.0,
      "step": 102
    },
    {
      "epoch": 0.014065753985865966,
      "grad_norm": 5.128211705596186e-05,
      "learning_rate": 0.00019952296781625795,
      "loss": 46.0,
      "step": 103
    },
    {
      "epoch": 0.014202314704175344,
      "grad_norm": 3.538643795764074e-05,
      "learning_rate": 0.0001995126622903658,
      "loss": 46.0,
      "step": 104
    },
    {
      "epoch": 0.014338875422484722,
      "grad_norm": 2.4323409888893366e-05,
      "learning_rate": 0.00019950224690546545,
      "loss": 46.0,
      "step": 105
    },
    {
      "epoch": 0.0144754361407941,
      "grad_norm": 3.726944123627618e-05,
      "learning_rate": 0.00019949172167305516,
      "loss": 46.0,
      "step": 106
    },
    {
      "epoch": 0.01461199685910348,
      "grad_norm": 3.0351222449098714e-05,
      "learning_rate": 0.00019948108660475445,
      "loss": 46.0,
      "step": 107
    },
    {
      "epoch": 0.014748557577412858,
      "grad_norm": 3.8205947930691764e-05,
      "learning_rate": 0.0001994703417123042,
      "loss": 46.0,
      "step": 108
    },
    {
      "epoch": 0.014885118295722236,
      "grad_norm": 3.468756040092558e-05,
      "learning_rate": 0.00019945948700756633,
      "loss": 46.0,
      "step": 109
    },
    {
      "epoch": 0.015021679014031614,
      "grad_norm": 2.4972347091534175e-05,
      "learning_rate": 0.00019944852250252418,
      "loss": 46.0,
      "step": 110
    },
    {
      "epoch": 0.015158239732340992,
      "grad_norm": 2.8265107175684534e-05,
      "learning_rate": 0.00019943744820928222,
      "loss": 46.0,
      "step": 111
    },
    {
      "epoch": 0.01529480045065037,
      "grad_norm": 2.0429773940122686e-05,
      "learning_rate": 0.00019942626414006615,
      "loss": 46.0,
      "step": 112
    },
    {
      "epoch": 0.015431361168959748,
      "grad_norm": 3.450764052104205e-05,
      "learning_rate": 0.00019941497030722286,
      "loss": 46.0,
      "step": 113
    },
    {
      "epoch": 0.015567921887269126,
      "grad_norm": 4.498309499467723e-05,
      "learning_rate": 0.00019940356672322037,
      "loss": 46.0,
      "step": 114
    },
    {
      "epoch": 0.015704482605578506,
      "grad_norm": 2.8786233087885194e-05,
      "learning_rate": 0.00019939205340064792,
      "loss": 46.0,
      "step": 115
    },
    {
      "epoch": 0.015841043323887884,
      "grad_norm": 3.189581184415147e-05,
      "learning_rate": 0.00019938043035221586,
      "loss": 46.0,
      "step": 116
    },
    {
      "epoch": 0.015977604042197262,
      "grad_norm": 4.335124685894698e-05,
      "learning_rate": 0.0001993686975907557,
      "loss": 46.0,
      "step": 117
    },
    {
      "epoch": 0.01611416476050664,
      "grad_norm": 4.708675987785682e-05,
      "learning_rate": 0.00019935685512922007,
      "loss": 46.0,
      "step": 118
    },
    {
      "epoch": 0.01625072547881602,
      "grad_norm": 3.432563244132325e-05,
      "learning_rate": 0.00019934490298068264,
      "loss": 46.0,
      "step": 119
    },
    {
      "epoch": 0.016387286197125397,
      "grad_norm": 4.133255788474344e-05,
      "learning_rate": 0.0001993328411583383,
      "loss": 46.0,
      "step": 120
    },
    {
      "epoch": 0.016523846915434775,
      "grad_norm": 2.959890480269678e-05,
      "learning_rate": 0.00019932066967550289,
      "loss": 46.0,
      "step": 121
    },
    {
      "epoch": 0.016660407633744153,
      "grad_norm": 5.350433275452815e-05,
      "learning_rate": 0.0001993083885456134,
      "loss": 46.0,
      "step": 122
    },
    {
      "epoch": 0.01679696835205353,
      "grad_norm": 2.8684948119916953e-05,
      "learning_rate": 0.0001992959977822278,
      "loss": 46.0,
      "step": 123
    },
    {
      "epoch": 0.01693352907036291,
      "grad_norm": 4.703548984252848e-05,
      "learning_rate": 0.0001992834973990251,
      "loss": 46.0,
      "step": 124
    },
    {
      "epoch": 0.017070089788672287,
      "grad_norm": 2.6726818759925663e-05,
      "learning_rate": 0.0001992708874098054,
      "loss": 46.0,
      "step": 125
    },
    {
      "epoch": 0.017206650506981665,
      "grad_norm": 3.8927741115912795e-05,
      "learning_rate": 0.00019925816782848975,
      "loss": 46.0,
      "step": 126
    },
    {
      "epoch": 0.017343211225291044,
      "grad_norm": 8.123937004711479e-05,
      "learning_rate": 0.00019924533866912017,
      "loss": 46.0,
      "step": 127
    },
    {
      "epoch": 0.01747977194360042,
      "grad_norm": 4.269002965884283e-05,
      "learning_rate": 0.00019923239994585967,
      "loss": 46.0,
      "step": 128
    },
    {
      "epoch": 0.017616332661909803,
      "grad_norm": 6.259434303501621e-05,
      "learning_rate": 0.0001992193516729922,
      "loss": 46.0,
      "step": 129
    },
    {
      "epoch": 0.01775289338021918,
      "grad_norm": 5.1137911214027554e-05,
      "learning_rate": 0.0001992061938649227,
      "loss": 46.0,
      "step": 130
    },
    {
      "epoch": 0.01788945409852856,
      "grad_norm": 8.54436366353184e-05,
      "learning_rate": 0.00019919292653617694,
      "loss": 46.0,
      "step": 131
    },
    {
      "epoch": 0.018026014816837937,
      "grad_norm": 3.590865890146233e-05,
      "learning_rate": 0.00019917954970140173,
      "loss": 46.0,
      "step": 132
    },
    {
      "epoch": 0.018162575535147316,
      "grad_norm": 3.2492869650013745e-05,
      "learning_rate": 0.00019916606337536466,
      "loss": 46.0,
      "step": 133
    },
    {
      "epoch": 0.018299136253456694,
      "grad_norm": 8.628293289802969e-05,
      "learning_rate": 0.00019915246757295417,
      "loss": 46.0,
      "step": 134
    },
    {
      "epoch": 0.018435696971766072,
      "grad_norm": 7.722469308646396e-05,
      "learning_rate": 0.00019913876230917975,
      "loss": 46.0,
      "step": 135
    },
    {
      "epoch": 0.01857225769007545,
      "grad_norm": 4.240256384946406e-05,
      "learning_rate": 0.00019912494759917148,
      "loss": 46.0,
      "step": 136
    },
    {
      "epoch": 0.018708818408384828,
      "grad_norm": 4.052065560244955e-05,
      "learning_rate": 0.00019911102345818046,
      "loss": 46.0,
      "step": 137
    },
    {
      "epoch": 0.018845379126694206,
      "grad_norm": 7.86216405685991e-05,
      "learning_rate": 0.00019909698990157852,
      "loss": 46.0,
      "step": 138
    },
    {
      "epoch": 0.018981939845003584,
      "grad_norm": 0.00010640006075846031,
      "learning_rate": 0.00019908284694485827,
      "loss": 46.0,
      "step": 139
    },
    {
      "epoch": 0.019118500563312962,
      "grad_norm": 0.00015501640154980123,
      "learning_rate": 0.00019906859460363307,
      "loss": 46.0,
      "step": 140
    },
    {
      "epoch": 0.01925506128162234,
      "grad_norm": 7.59594258852303e-05,
      "learning_rate": 0.00019905423289363715,
      "loss": 46.0,
      "step": 141
    },
    {
      "epoch": 0.01939162199993172,
      "grad_norm": 5.662858529831283e-05,
      "learning_rate": 0.0001990397618307254,
      "loss": 46.0,
      "step": 142
    },
    {
      "epoch": 0.019528182718241097,
      "grad_norm": 3.2056228519650176e-05,
      "learning_rate": 0.00019902518143087342,
      "loss": 46.0,
      "step": 143
    },
    {
      "epoch": 0.019664743436550475,
      "grad_norm": 6.27958943368867e-05,
      "learning_rate": 0.00019901049171017752,
      "loss": 46.0,
      "step": 144
    },
    {
      "epoch": 0.019801304154859853,
      "grad_norm": 8.007367432583123e-05,
      "learning_rate": 0.00019899569268485472,
      "loss": 46.0,
      "step": 145
    },
    {
      "epoch": 0.019937864873169234,
      "grad_norm": 6.982972263358533e-05,
      "learning_rate": 0.00019898078437124276,
      "loss": 46.0,
      "step": 146
    },
    {
      "epoch": 0.020074425591478613,
      "grad_norm": 4.9886282795341685e-05,
      "learning_rate": 0.0001989657667857999,
      "loss": 46.0,
      "step": 147
    },
    {
      "epoch": 0.02021098630978799,
      "grad_norm": 9.474890248384327e-05,
      "learning_rate": 0.0001989506399451051,
      "loss": 46.0,
      "step": 148
    },
    {
      "epoch": 0.02034754702809737,
      "grad_norm": 0.00012795208021998405,
      "learning_rate": 0.00019893540386585804,
      "loss": 46.0,
      "step": 149
    },
    {
      "epoch": 0.020484107746406747,
      "grad_norm": 8.636638813186437e-05,
      "learning_rate": 0.00019892005856487878,
      "loss": 46.0,
      "step": 150
    },
    {
      "epoch": 0.020620668464716125,
      "grad_norm": 5.324094672687352e-05,
      "learning_rate": 0.00019890460405910815,
      "loss": 46.0,
      "step": 151
    },
    {
      "epoch": 0.020757229183025503,
      "grad_norm": 5.794732351205312e-05,
      "learning_rate": 0.00019888904036560745,
      "loss": 46.0,
      "step": 152
    },
    {
      "epoch": 0.02089378990133488,
      "grad_norm": 6.407459295587614e-05,
      "learning_rate": 0.0001988733675015585,
      "loss": 46.0,
      "step": 153
    },
    {
      "epoch": 0.02103035061964426,
      "grad_norm": 5.669236270477995e-05,
      "learning_rate": 0.00019885758548426367,
      "loss": 46.0,
      "step": 154
    },
    {
      "epoch": 0.021166911337953637,
      "grad_norm": 8.20392815512605e-05,
      "learning_rate": 0.0001988416943311459,
      "loss": 46.0,
      "step": 155
    },
    {
      "epoch": 0.021303472056263015,
      "grad_norm": 4.120526136830449e-05,
      "learning_rate": 0.00019882569405974852,
      "loss": 46.0,
      "step": 156
    },
    {
      "epoch": 0.021440032774572394,
      "grad_norm": 6.0489343013614416e-05,
      "learning_rate": 0.0001988095846877353,
      "loss": 46.0,
      "step": 157
    },
    {
      "epoch": 0.02157659349288177,
      "grad_norm": 5.2780691476073116e-05,
      "learning_rate": 0.00019879336623289056,
      "loss": 46.0,
      "step": 158
    },
    {
      "epoch": 0.02171315421119115,
      "grad_norm": 7.062828808557242e-05,
      "learning_rate": 0.00019877703871311903,
      "loss": 46.0,
      "step": 159
    },
    {
      "epoch": 0.021849714929500528,
      "grad_norm": 8.607962081441656e-05,
      "learning_rate": 0.00019876060214644566,
      "loss": 46.0,
      "step": 160
    },
    {
      "epoch": 0.021986275647809906,
      "grad_norm": 5.568426786339842e-05,
      "learning_rate": 0.0001987440565510161,
      "loss": 46.0,
      "step": 161
    },
    {
      "epoch": 0.022122836366119284,
      "grad_norm": 2.0496960132732056e-05,
      "learning_rate": 0.00019872740194509607,
      "loss": 46.0,
      "step": 162
    },
    {
      "epoch": 0.022259397084428666,
      "grad_norm": 0.0001443786604795605,
      "learning_rate": 0.0001987106383470718,
      "loss": 46.0,
      "step": 163
    },
    {
      "epoch": 0.022395957802738044,
      "grad_norm": 0.00022565714607480913,
      "learning_rate": 0.00019869376577544984,
      "loss": 46.0,
      "step": 164
    },
    {
      "epoch": 0.022532518521047422,
      "grad_norm": 4.196175359538756e-05,
      "learning_rate": 0.00019867678424885692,
      "loss": 46.0,
      "step": 165
    },
    {
      "epoch": 0.0226690792393568,
      "grad_norm": 5.022220284445211e-05,
      "learning_rate": 0.0001986596937860402,
      "loss": 46.0,
      "step": 166
    },
    {
      "epoch": 0.022805639957666178,
      "grad_norm": 6.462670717155561e-05,
      "learning_rate": 0.00019864249440586704,
      "loss": 46.0,
      "step": 167
    },
    {
      "epoch": 0.022942200675975556,
      "grad_norm": 5.396630149334669e-05,
      "learning_rate": 0.00019862518612732502,
      "loss": 46.0,
      "step": 168
    },
    {
      "epoch": 0.023078761394284934,
      "grad_norm": 7.057916081976146e-05,
      "learning_rate": 0.00019860776896952201,
      "loss": 46.0,
      "step": 169
    },
    {
      "epoch": 0.023215322112594312,
      "grad_norm": 2.83908757410245e-05,
      "learning_rate": 0.00019859024295168593,
      "loss": 46.0,
      "step": 170
    },
    {
      "epoch": 0.02335188283090369,
      "grad_norm": 5.459811654873192e-05,
      "learning_rate": 0.0001985726080931651,
      "loss": 46.0,
      "step": 171
    },
    {
      "epoch": 0.02348844354921307,
      "grad_norm": 9.622200013836846e-05,
      "learning_rate": 0.0001985548644134278,
      "loss": 46.0,
      "step": 172
    },
    {
      "epoch": 0.023625004267522447,
      "grad_norm": 3.8583631976507604e-05,
      "learning_rate": 0.00019853701193206256,
      "loss": 46.0,
      "step": 173
    },
    {
      "epoch": 0.023761564985831825,
      "grad_norm": 1.6933201550273225e-05,
      "learning_rate": 0.00019851905066877796,
      "loss": 46.0,
      "step": 174
    },
    {
      "epoch": 0.023898125704141203,
      "grad_norm": 0.00014548096805810928,
      "learning_rate": 0.0001985009806434027,
      "loss": 46.0,
      "step": 175
    },
    {
      "epoch": 0.02403468642245058,
      "grad_norm": 3.331439438625239e-05,
      "learning_rate": 0.00019848280187588556,
      "loss": 46.0,
      "step": 176
    },
    {
      "epoch": 0.02417124714075996,
      "grad_norm": 0.00010656285303412005,
      "learning_rate": 0.00019846451438629536,
      "loss": 46.0,
      "step": 177
    },
    {
      "epoch": 0.024307807859069337,
      "grad_norm": 5.0110294978367165e-05,
      "learning_rate": 0.00019844611819482095,
      "loss": 46.0,
      "step": 178
    },
    {
      "epoch": 0.024444368577378715,
      "grad_norm": 8.202512981370091e-05,
      "learning_rate": 0.00019842761332177115,
      "loss": 46.0,
      "step": 179
    },
    {
      "epoch": 0.024580929295688097,
      "grad_norm": 4.755376357934438e-05,
      "learning_rate": 0.00019840899978757485,
      "loss": 46.0,
      "step": 180
    },
    {
      "epoch": 0.024717490013997475,
      "grad_norm": 7.185702270362526e-05,
      "learning_rate": 0.0001983902776127807,
      "loss": 46.0,
      "step": 181
    },
    {
      "epoch": 0.024854050732306853,
      "grad_norm": 4.723266465589404e-05,
      "learning_rate": 0.00019837144681805757,
      "loss": 46.0,
      "step": 182
    },
    {
      "epoch": 0.02499061145061623,
      "grad_norm": 0.00011025248386431485,
      "learning_rate": 0.000198352507424194,
      "loss": 46.0,
      "step": 183
    },
    {
      "epoch": 0.02512717216892561,
      "grad_norm": 0.00010296511027263477,
      "learning_rate": 0.00019833345945209857,
      "loss": 46.0,
      "step": 184
    },
    {
      "epoch": 0.025263732887234987,
      "grad_norm": 7.570455636596307e-05,
      "learning_rate": 0.00019831430292279966,
      "loss": 46.0,
      "step": 185
    },
    {
      "epoch": 0.025400293605544366,
      "grad_norm": 8.105228334898129e-05,
      "learning_rate": 0.0001982950378574455,
      "loss": 46.0,
      "step": 186
    },
    {
      "epoch": 0.025536854323853744,
      "grad_norm": 0.00013544574903789908,
      "learning_rate": 0.00019827566427730412,
      "loss": 46.0,
      "step": 187
    },
    {
      "epoch": 0.02567341504216312,
      "grad_norm": 6.9964567956049e-05,
      "learning_rate": 0.00019825618220376342,
      "loss": 46.0,
      "step": 188
    },
    {
      "epoch": 0.0258099757604725,
      "grad_norm": 9.811633208300918e-05,
      "learning_rate": 0.00019823659165833102,
      "loss": 46.0,
      "step": 189
    },
    {
      "epoch": 0.025946536478781878,
      "grad_norm": 0.00023017756757326424,
      "learning_rate": 0.00019821689266263427,
      "loss": 46.0,
      "step": 190
    },
    {
      "epoch": 0.026083097197091256,
      "grad_norm": 0.0003564099024515599,
      "learning_rate": 0.0001981970852384203,
      "loss": 46.0,
      "step": 191
    },
    {
      "epoch": 0.026219657915400634,
      "grad_norm": 5.261121259536594e-05,
      "learning_rate": 0.00019817716940755586,
      "loss": 46.0,
      "step": 192
    },
    {
      "epoch": 0.026356218633710012,
      "grad_norm": 0.00012212673027534038,
      "learning_rate": 0.00019815714519202753,
      "loss": 46.0,
      "step": 193
    },
    {
      "epoch": 0.02649277935201939,
      "grad_norm": 7.185459253378212e-05,
      "learning_rate": 0.00019813701261394136,
      "loss": 46.0,
      "step": 194
    },
    {
      "epoch": 0.02662934007032877,
      "grad_norm": 0.00010008271055994555,
      "learning_rate": 0.00019811677169552313,
      "loss": 46.0,
      "step": 195
    },
    {
      "epoch": 0.026765900788638147,
      "grad_norm": 0.00010963875683955848,
      "learning_rate": 0.0001980964224591183,
      "loss": 46.0,
      "step": 196
    },
    {
      "epoch": 0.026902461506947528,
      "grad_norm": 5.4636468121316284e-05,
      "learning_rate": 0.00019807596492719167,
      "loss": 46.0,
      "step": 197
    },
    {
      "epoch": 0.027039022225256906,
      "grad_norm": 5.760273052146658e-05,
      "learning_rate": 0.00019805539912232784,
      "loss": 46.0,
      "step": 198
    },
    {
      "epoch": 0.027175582943566284,
      "grad_norm": 0.0001271786750294268,
      "learning_rate": 0.00019803472506723085,
      "loss": 46.0,
      "step": 199
    },
    {
      "epoch": 0.027312143661875662,
      "grad_norm": 0.00014666210336145014,
      "learning_rate": 0.00019801394278472418,
      "loss": 46.0,
      "step": 200
    },
    {
      "epoch": 0.02744870438018504,
      "grad_norm": 3.408119664527476e-05,
      "learning_rate": 0.0001979930522977509,
      "loss": 46.0,
      "step": 201
    },
    {
      "epoch": 0.02758526509849442,
      "grad_norm": 0.00010019735782407224,
      "learning_rate": 0.00019797205362937347,
      "loss": 46.0,
      "step": 202
    },
    {
      "epoch": 0.027721825816803797,
      "grad_norm": 0.00011540239211171865,
      "learning_rate": 0.00019795094680277378,
      "loss": 46.0,
      "step": 203
    },
    {
      "epoch": 0.027858386535113175,
      "grad_norm": 8.116603567032143e-05,
      "learning_rate": 0.0001979297318412532,
      "loss": 46.0,
      "step": 204
    },
    {
      "epoch": 0.027994947253422553,
      "grad_norm": 0.0001576711074449122,
      "learning_rate": 0.00019790840876823232,
      "loss": 46.0,
      "step": 205
    },
    {
      "epoch": 0.02813150797173193,
      "grad_norm": 8.809396240394562e-05,
      "learning_rate": 0.0001978869776072512,
      "loss": 46.0,
      "step": 206
    },
    {
      "epoch": 0.02826806869004131,
      "grad_norm": 0.0001056291293934919,
      "learning_rate": 0.00019786543838196924,
      "loss": 46.0,
      "step": 207
    },
    {
      "epoch": 0.028404629408350687,
      "grad_norm": 0.0001859702606452629,
      "learning_rate": 0.00019784379111616507,
      "loss": 46.0,
      "step": 208
    },
    {
      "epoch": 0.028541190126660065,
      "grad_norm": 7.50935505493544e-05,
      "learning_rate": 0.00019782203583373664,
      "loss": 46.0,
      "step": 209
    },
    {
      "epoch": 0.028677750844969443,
      "grad_norm": 4.688434273703024e-05,
      "learning_rate": 0.00019780017255870114,
      "loss": 46.0,
      "step": 210
    },
    {
      "epoch": 0.02881431156327882,
      "grad_norm": 0.00032884004758670926,
      "learning_rate": 0.00019777820131519495,
      "loss": 46.0,
      "step": 211
    },
    {
      "epoch": 0.0289508722815882,
      "grad_norm": 0.0001322666648775339,
      "learning_rate": 0.0001977561221274737,
      "loss": 46.0,
      "step": 212
    },
    {
      "epoch": 0.029087432999897578,
      "grad_norm": 0.00014480279060080647,
      "learning_rate": 0.00019773393501991212,
      "loss": 46.0,
      "step": 213
    },
    {
      "epoch": 0.02922399371820696,
      "grad_norm": 0.00011657484719762579,
      "learning_rate": 0.0001977116400170041,
      "loss": 46.0,
      "step": 214
    },
    {
      "epoch": 0.029360554436516337,
      "grad_norm": 0.00011347379040671512,
      "learning_rate": 0.00019768923714336272,
      "loss": 46.0,
      "step": 215
    },
    {
      "epoch": 0.029497115154825716,
      "grad_norm": 0.00017761997878551483,
      "learning_rate": 0.00019766672642372002,
      "loss": 46.0,
      "step": 216
    },
    {
      "epoch": 0.029633675873135094,
      "grad_norm": 0.00014384661335498095,
      "learning_rate": 0.00019764410788292722,
      "loss": 46.0,
      "step": 217
    },
    {
      "epoch": 0.029770236591444472,
      "grad_norm": 7.11917455191724e-05,
      "learning_rate": 0.00019762138154595446,
      "loss": 46.0,
      "step": 218
    },
    {
      "epoch": 0.02990679730975385,
      "grad_norm": 0.00012330934987403452,
      "learning_rate": 0.00019759854743789097,
      "loss": 46.0,
      "step": 219
    },
    {
      "epoch": 0.030043358028063228,
      "grad_norm": 8.032290497794747e-05,
      "learning_rate": 0.00019757560558394493,
      "loss": 46.0,
      "step": 220
    },
    {
      "epoch": 0.030179918746372606,
      "grad_norm": 0.00021323734836187214,
      "learning_rate": 0.0001975525560094434,
      "loss": 46.0,
      "step": 221
    },
    {
      "epoch": 0.030316479464681984,
      "grad_norm": 0.00014698925951961428,
      "learning_rate": 0.00019752939873983255,
      "loss": 46.0,
      "step": 222
    },
    {
      "epoch": 0.030453040182991362,
      "grad_norm": 0.00018497723795007914,
      "learning_rate": 0.00019750613380067718,
      "loss": 46.0,
      "step": 223
    },
    {
      "epoch": 0.03058960090130074,
      "grad_norm": 0.0001770486414898187,
      "learning_rate": 0.00019748276121766116,
      "loss": 46.0,
      "step": 224
    },
    {
      "epoch": 0.03072616161961012,
      "grad_norm": 6.994479190325364e-05,
      "learning_rate": 0.00019745928101658707,
      "loss": 46.0,
      "step": 225
    },
    {
      "epoch": 0.030862722337919497,
      "grad_norm": 0.0001687954500084743,
      "learning_rate": 0.00019743569322337642,
      "loss": 46.0,
      "step": 226
    },
    {
      "epoch": 0.030999283056228875,
      "grad_norm": 0.00010247869795421138,
      "learning_rate": 0.00019741199786406938,
      "loss": 46.0,
      "step": 227
    },
    {
      "epoch": 0.031135843774538253,
      "grad_norm": 0.00013670619227923453,
      "learning_rate": 0.00019738819496482494,
      "loss": 46.0,
      "step": 228
    },
    {
      "epoch": 0.031272404492847634,
      "grad_norm": 0.00013827405928168446,
      "learning_rate": 0.0001973642845519208,
      "loss": 46.0,
      "step": 229
    },
    {
      "epoch": 0.03140896521115701,
      "grad_norm": 0.00014026669668965042,
      "learning_rate": 0.00019734026665175334,
      "loss": 46.0,
      "step": 230
    },
    {
      "epoch": 0.03154552592946639,
      "grad_norm": 0.00010120788647327572,
      "learning_rate": 0.00019731614129083754,
      "loss": 46.0,
      "step": 231
    },
    {
      "epoch": 0.03168208664777577,
      "grad_norm": 0.00014757270400878042,
      "learning_rate": 0.0001972919084958072,
      "loss": 46.0,
      "step": 232
    },
    {
      "epoch": 0.03181864736608515,
      "grad_norm": 8.340936619788408e-05,
      "learning_rate": 0.00019726756829341446,
      "loss": 46.0,
      "step": 233
    },
    {
      "epoch": 0.031955208084394525,
      "grad_norm": 0.00013478368055075407,
      "learning_rate": 0.0001972431207105303,
      "loss": 46.0,
      "step": 234
    },
    {
      "epoch": 0.0320917688027039,
      "grad_norm": 0.00013591728929895908,
      "learning_rate": 0.00019721856577414407,
      "loss": 46.0,
      "step": 235
    },
    {
      "epoch": 0.03222832952101328,
      "grad_norm": 0.0002845980925485492,
      "learning_rate": 0.00019719390351136365,
      "loss": 46.0,
      "step": 236
    },
    {
      "epoch": 0.03236489023932266,
      "grad_norm": 0.00021167262457311153,
      "learning_rate": 0.0001971691339494155,
      "loss": 46.0,
      "step": 237
    },
    {
      "epoch": 0.03250145095763204,
      "grad_norm": 0.00015637895558029413,
      "learning_rate": 0.00019714425711564446,
      "loss": 46.0,
      "step": 238
    },
    {
      "epoch": 0.032638011675941415,
      "grad_norm": 0.0004328020440880209,
      "learning_rate": 0.00019711927303751382,
      "loss": 46.0,
      "step": 239
    },
    {
      "epoch": 0.032774572394250794,
      "grad_norm": 7.109026773832738e-05,
      "learning_rate": 0.0001970941817426052,
      "loss": 46.0,
      "step": 240
    },
    {
      "epoch": 0.03291113311256017,
      "grad_norm": 0.00022207674919627607,
      "learning_rate": 0.00019706898325861874,
      "loss": 46.0,
      "step": 241
    },
    {
      "epoch": 0.03304769383086955,
      "grad_norm": 7.223385910037905e-05,
      "learning_rate": 0.0001970436776133727,
      "loss": 46.0,
      "step": 242
    },
    {
      "epoch": 0.03318425454917893,
      "grad_norm": 0.0002725286176428199,
      "learning_rate": 0.00019701826483480388,
      "loss": 46.0,
      "step": 243
    },
    {
      "epoch": 0.033320815267488306,
      "grad_norm": 0.00011271587572991848,
      "learning_rate": 0.00019699274495096712,
      "loss": 46.0,
      "step": 244
    },
    {
      "epoch": 0.033457375985797684,
      "grad_norm": 0.0001713872916297987,
      "learning_rate": 0.0001969671179900357,
      "loss": 46.0,
      "step": 245
    },
    {
      "epoch": 0.03359393670410706,
      "grad_norm": 0.0001251544599654153,
      "learning_rate": 0.00019694138398030094,
      "loss": 46.0,
      "step": 246
    },
    {
      "epoch": 0.03373049742241644,
      "grad_norm": 0.00030473063816316426,
      "learning_rate": 0.00019691554295017246,
      "loss": 46.0,
      "step": 247
    },
    {
      "epoch": 0.03386705814072582,
      "grad_norm": 0.00020300064352340996,
      "learning_rate": 0.000196889594928178,
      "loss": 46.0,
      "step": 248
    },
    {
      "epoch": 0.034003618859035196,
      "grad_norm": 0.0001950880396179855,
      "learning_rate": 0.00019686353994296333,
      "loss": 46.0,
      "step": 249
    },
    {
      "epoch": 0.034140179577344575,
      "grad_norm": 0.00034574157325550914,
      "learning_rate": 0.00019683737802329244,
      "loss": 46.0,
      "step": 250
    },
    {
      "epoch": 0.03427674029565395,
      "grad_norm": 0.0001567787694511935,
      "learning_rate": 0.0001968111091980473,
      "loss": 46.0,
      "step": 251
    },
    {
      "epoch": 0.03441330101396333,
      "grad_norm": 0.00012498951400630176,
      "learning_rate": 0.00019678473349622793,
      "loss": 46.0,
      "step": 252
    },
    {
      "epoch": 0.03454986173227271,
      "grad_norm": 0.0002493293723091483,
      "learning_rate": 0.0001967582509469523,
      "loss": 46.0,
      "step": 253
    },
    {
      "epoch": 0.03468642245058209,
      "grad_norm": 0.0003348199534229934,
      "learning_rate": 0.0001967316615794563,
      "loss": 46.0,
      "step": 254
    },
    {
      "epoch": 0.034822983168891465,
      "grad_norm": 0.00020134066289756447,
      "learning_rate": 0.00019670496542309384,
      "loss": 46.0,
      "step": 255
    },
    {
      "epoch": 0.03495954388720084,
      "grad_norm": 8.074977085925639e-05,
      "learning_rate": 0.0001966781625073367,
      "loss": 46.0,
      "step": 256
    },
    {
      "epoch": 0.03509610460551023,
      "grad_norm": 0.00018040316354017705,
      "learning_rate": 0.00019665125286177449,
      "loss": 46.0,
      "step": 257
    },
    {
      "epoch": 0.035232665323819606,
      "grad_norm": 0.00016175376367755234,
      "learning_rate": 0.00019662423651611464,
      "loss": 46.0,
      "step": 258
    },
    {
      "epoch": 0.035369226042128984,
      "grad_norm": 6.748022133251652e-05,
      "learning_rate": 0.00019659711350018239,
      "loss": 46.0,
      "step": 259
    },
    {
      "epoch": 0.03550578676043836,
      "grad_norm": 0.00014227218343876302,
      "learning_rate": 0.00019656988384392075,
      "loss": 46.0,
      "step": 260
    },
    {
      "epoch": 0.03564234747874774,
      "grad_norm": 0.0002607603382784873,
      "learning_rate": 0.00019654254757739043,
      "loss": 46.0,
      "step": 261
    },
    {
      "epoch": 0.03577890819705712,
      "grad_norm": 0.00026646576588973403,
      "learning_rate": 0.00019651510473076987,
      "loss": 46.0,
      "step": 262
    },
    {
      "epoch": 0.0359154689153665,
      "grad_norm": 0.00020209423382766545,
      "learning_rate": 0.00019648755533435518,
      "loss": 46.0,
      "step": 263
    },
    {
      "epoch": 0.036052029633675875,
      "grad_norm": 0.00013208483869675547,
      "learning_rate": 0.00019645989941855999,
      "loss": 46.0,
      "step": 264
    },
    {
      "epoch": 0.03618859035198525,
      "grad_norm": 0.0002046150912065059,
      "learning_rate": 0.00019643213701391567,
      "loss": 46.0,
      "step": 265
    },
    {
      "epoch": 0.03632515107029463,
      "grad_norm": 0.00022820701997261494,
      "learning_rate": 0.00019640426815107108,
      "loss": 46.0,
      "step": 266
    },
    {
      "epoch": 0.03646171178860401,
      "grad_norm": 0.00019359646830707788,
      "learning_rate": 0.0001963762928607926,
      "loss": 46.0,
      "step": 267
    },
    {
      "epoch": 0.03659827250691339,
      "grad_norm": 0.00015012026415206492,
      "learning_rate": 0.0001963482111739641,
      "loss": 46.0,
      "step": 268
    },
    {
      "epoch": 0.036734833225222766,
      "grad_norm": 0.00021516659762710333,
      "learning_rate": 0.00019632002312158697,
      "loss": 46.0,
      "step": 269
    },
    {
      "epoch": 0.036871393943532144,
      "grad_norm": 0.00019021316256839782,
      "learning_rate": 0.00019629172873477995,
      "loss": 46.0,
      "step": 270
    },
    {
      "epoch": 0.03700795466184152,
      "grad_norm": 0.00023805341334082186,
      "learning_rate": 0.00019626332804477915,
      "loss": 46.0,
      "step": 271
    },
    {
      "epoch": 0.0371445153801509,
      "grad_norm": 0.0002716032904572785,
      "learning_rate": 0.0001962348210829382,
      "loss": 46.0,
      "step": 272
    },
    {
      "epoch": 0.03728107609846028,
      "grad_norm": 0.0001799121528165415,
      "learning_rate": 0.00019620620788072783,
      "loss": 46.0,
      "step": 273
    },
    {
      "epoch": 0.037417636816769656,
      "grad_norm": 0.00041423438233323395,
      "learning_rate": 0.0001961774884697362,
      "loss": 46.0,
      "step": 274
    },
    {
      "epoch": 0.037554197535079034,
      "grad_norm": 0.0002172417298424989,
      "learning_rate": 0.0001961486628816687,
      "loss": 46.0,
      "step": 275
    },
    {
      "epoch": 0.03769075825338841,
      "grad_norm": 0.0002554766833782196,
      "learning_rate": 0.0001961197311483479,
      "loss": 46.0,
      "step": 276
    },
    {
      "epoch": 0.03782731897169779,
      "grad_norm": 0.0002692249254323542,
      "learning_rate": 0.0001960906933017135,
      "loss": 46.0,
      "step": 277
    },
    {
      "epoch": 0.03796387969000717,
      "grad_norm": 0.00040551606798544526,
      "learning_rate": 0.00019606154937382256,
      "loss": 46.0,
      "step": 278
    },
    {
      "epoch": 0.03810044040831655,
      "grad_norm": 0.0003460289444774389,
      "learning_rate": 0.000196032299396849,
      "loss": 46.0,
      "step": 279
    },
    {
      "epoch": 0.038237001126625925,
      "grad_norm": 0.000246795651037246,
      "learning_rate": 0.00019600294340308398,
      "loss": 46.0,
      "step": 280
    },
    {
      "epoch": 0.0383735618449353,
      "grad_norm": 0.0005187865463085473,
      "learning_rate": 0.00019597348142493562,
      "loss": 46.0,
      "step": 281
    },
    {
      "epoch": 0.03851012256324468,
      "grad_norm": 0.0005177973653189838,
      "learning_rate": 0.00019594391349492902,
      "loss": 46.0,
      "step": 282
    },
    {
      "epoch": 0.03864668328155406,
      "grad_norm": 0.00031362145091407,
      "learning_rate": 0.00019591423964570632,
      "loss": 46.0,
      "step": 283
    },
    {
      "epoch": 0.03878324399986344,
      "grad_norm": 0.0003161428030580282,
      "learning_rate": 0.0001958844599100266,
      "loss": 46.0,
      "step": 284
    },
    {
      "epoch": 0.038919804718172815,
      "grad_norm": 0.0002518398978281766,
      "learning_rate": 0.00019585457432076578,
      "loss": 46.0,
      "step": 285
    },
    {
      "epoch": 0.03905636543648219,
      "grad_norm": 0.00017934896459337324,
      "learning_rate": 0.00019582458291091663,
      "loss": 46.0,
      "step": 286
    },
    {
      "epoch": 0.03919292615479157,
      "grad_norm": 0.00032432653824798763,
      "learning_rate": 0.0001957944857135888,
      "loss": 46.0,
      "step": 287
    },
    {
      "epoch": 0.03932948687310095,
      "grad_norm": 0.00021099011064507067,
      "learning_rate": 0.00019576428276200868,
      "loss": 46.0,
      "step": 288
    },
    {
      "epoch": 0.03946604759141033,
      "grad_norm": 0.0005440306267701089,
      "learning_rate": 0.00019573397408951943,
      "loss": 46.0,
      "step": 289
    },
    {
      "epoch": 0.039602608309719706,
      "grad_norm": 0.0005642606993205845,
      "learning_rate": 0.00019570355972958097,
      "loss": 46.0,
      "step": 290
    },
    {
      "epoch": 0.03973916902802909,
      "grad_norm": 0.0007911530556157231,
      "learning_rate": 0.00019567303971576976,
      "loss": 46.0,
      "step": 291
    },
    {
      "epoch": 0.03987572974633847,
      "grad_norm": 0.00017880380619317293,
      "learning_rate": 0.000195642414081779,
      "loss": 46.0,
      "step": 292
    },
    {
      "epoch": 0.04001229046464785,
      "grad_norm": 0.00048157072160393,
      "learning_rate": 0.00019561168286141856,
      "loss": 46.0,
      "step": 293
    },
    {
      "epoch": 0.040148851182957225,
      "grad_norm": 0.00010301580186933279,
      "learning_rate": 0.00019558084608861472,
      "loss": 46.0,
      "step": 294
    },
    {
      "epoch": 0.0402854119012666,
      "grad_norm": 0.0003147012903355062,
      "learning_rate": 0.00019554990379741033,
      "loss": 46.0,
      "step": 295
    },
    {
      "epoch": 0.04042197261957598,
      "grad_norm": 0.00039921182906255126,
      "learning_rate": 0.0001955188560219648,
      "loss": 46.0,
      "step": 296
    },
    {
      "epoch": 0.04055853333788536,
      "grad_norm": 0.0004582660039886832,
      "learning_rate": 0.00019548770279655397,
      "loss": 46.0,
      "step": 297
    },
    {
      "epoch": 0.04069509405619474,
      "grad_norm": 0.0001638657267903909,
      "learning_rate": 0.00019545644415557,
      "loss": 46.0,
      "step": 298
    },
    {
      "epoch": 0.040831654774504116,
      "grad_norm": 0.00041633055661804974,
      "learning_rate": 0.00019542508013352156,
      "loss": 46.0,
      "step": 299
    },
    {
      "epoch": 0.040968215492813494,
      "grad_norm": 0.0005134938983246684,
      "learning_rate": 0.0001953936107650336,
      "loss": 46.0,
      "step": 300
    },
    {
      "epoch": 0.040968215492813494,
      "eval_loss": 11.5,
      "eval_runtime": 20.4404,
      "eval_samples_per_second": 150.878,
      "eval_steps_per_second": 75.439,
      "step": 300
    },
    {
      "epoch": 0.04110477621112287,
      "grad_norm": 0.00037575350143015385,
      "learning_rate": 0.0001953620360848473,
      "loss": 46.0,
      "step": 301
    },
    {
      "epoch": 0.04124133692943225,
      "grad_norm": 0.00024376453075092286,
      "learning_rate": 0.00019533035612782017,
      "loss": 46.0,
      "step": 302
    },
    {
      "epoch": 0.04137789764774163,
      "grad_norm": 0.00043027085484936833,
      "learning_rate": 0.00019529857092892602,
      "loss": 46.0,
      "step": 303
    },
    {
      "epoch": 0.041514458366051006,
      "grad_norm": 0.00039237432065419853,
      "learning_rate": 0.00019526668052325467,
      "loss": 46.0,
      "step": 304
    },
    {
      "epoch": 0.041651019084360384,
      "grad_norm": 0.0001755830307956785,
      "learning_rate": 0.00019523468494601223,
      "loss": 46.0,
      "step": 305
    },
    {
      "epoch": 0.04178757980266976,
      "grad_norm": 0.0001863718789536506,
      "learning_rate": 0.00019520258423252082,
      "loss": 46.0,
      "step": 306
    },
    {
      "epoch": 0.04192414052097914,
      "grad_norm": 0.0003355692024342716,
      "learning_rate": 0.00019517037841821873,
      "loss": 46.0,
      "step": 307
    },
    {
      "epoch": 0.04206070123928852,
      "grad_norm": 0.0002629165828693658,
      "learning_rate": 0.00019513806753866016,
      "loss": 46.0,
      "step": 308
    },
    {
      "epoch": 0.0421972619575979,
      "grad_norm": 0.0004353369877208024,
      "learning_rate": 0.00019510565162951537,
      "loss": 46.0,
      "step": 309
    },
    {
      "epoch": 0.042333822675907275,
      "grad_norm": 0.0001725061738397926,
      "learning_rate": 0.00019507313072657055,
      "loss": 46.0,
      "step": 310
    },
    {
      "epoch": 0.04247038339421665,
      "grad_norm": 0.00021753301552962512,
      "learning_rate": 0.00019504050486572784,
      "loss": 46.0,
      "step": 311
    },
    {
      "epoch": 0.04260694411252603,
      "grad_norm": 0.00035614983062259853,
      "learning_rate": 0.00019500777408300519,
      "loss": 46.0,
      "step": 312
    },
    {
      "epoch": 0.04274350483083541,
      "grad_norm": 0.00025182642275467515,
      "learning_rate": 0.00019497493841453642,
      "loss": 46.0,
      "step": 313
    },
    {
      "epoch": 0.04288006554914479,
      "grad_norm": 0.0003710365854203701,
      "learning_rate": 0.0001949419978965711,
      "loss": 46.0,
      "step": 314
    },
    {
      "epoch": 0.043016626267454165,
      "grad_norm": 0.00031021906761452556,
      "learning_rate": 0.00019490895256547464,
      "loss": 46.0,
      "step": 315
    },
    {
      "epoch": 0.04315318698576354,
      "grad_norm": 0.0002598558203317225,
      "learning_rate": 0.000194875802457728,
      "loss": 46.0,
      "step": 316
    },
    {
      "epoch": 0.04328974770407292,
      "grad_norm": 0.00025477109011262655,
      "learning_rate": 0.000194842547609928,
      "loss": 46.0,
      "step": 317
    },
    {
      "epoch": 0.0434263084223823,
      "grad_norm": 0.0003966864896938205,
      "learning_rate": 0.00019480918805878697,
      "loss": 46.0,
      "step": 318
    },
    {
      "epoch": 0.04356286914069168,
      "grad_norm": 0.0001289808569708839,
      "learning_rate": 0.00019477572384113282,
      "loss": 46.0,
      "step": 319
    },
    {
      "epoch": 0.043699429859001056,
      "grad_norm": 0.00031020533060655,
      "learning_rate": 0.00019474215499390912,
      "loss": 46.0,
      "step": 320
    },
    {
      "epoch": 0.043835990577310434,
      "grad_norm": 0.00045745153329335153,
      "learning_rate": 0.0001947084815541748,
      "loss": 46.0,
      "step": 321
    },
    {
      "epoch": 0.04397255129561981,
      "grad_norm": 0.00031357730040326715,
      "learning_rate": 0.00019467470355910438,
      "loss": 46.0,
      "step": 322
    },
    {
      "epoch": 0.04410911201392919,
      "grad_norm": 0.00021334455232135952,
      "learning_rate": 0.00019464082104598776,
      "loss": 46.0,
      "step": 323
    },
    {
      "epoch": 0.04424567273223857,
      "grad_norm": 0.00033166687353514135,
      "learning_rate": 0.0001946068340522302,
      "loss": 46.0,
      "step": 324
    },
    {
      "epoch": 0.04438223345054795,
      "grad_norm": 0.0004193445493001491,
      "learning_rate": 0.00019457274261535236,
      "loss": 46.0,
      "step": 325
    },
    {
      "epoch": 0.04451879416885733,
      "grad_norm": 0.0005776687175966799,
      "learning_rate": 0.0001945385467729901,
      "loss": 46.0,
      "step": 326
    },
    {
      "epoch": 0.04465535488716671,
      "grad_norm": 0.00021739969088230282,
      "learning_rate": 0.00019450424656289466,
      "loss": 46.0,
      "step": 327
    },
    {
      "epoch": 0.04479191560547609,
      "grad_norm": 0.00025186152197420597,
      "learning_rate": 0.00019446984202293246,
      "loss": 46.0,
      "step": 328
    },
    {
      "epoch": 0.044928476323785466,
      "grad_norm": 0.0004120633821003139,
      "learning_rate": 0.00019443533319108504,
      "loss": 46.0,
      "step": 329
    },
    {
      "epoch": 0.045065037042094844,
      "grad_norm": 0.00028226643917150795,
      "learning_rate": 0.00019440072010544918,
      "loss": 46.0,
      "step": 330
    },
    {
      "epoch": 0.04520159776040422,
      "grad_norm": 0.00048744879313744605,
      "learning_rate": 0.00019436600280423665,
      "loss": 46.0,
      "step": 331
    },
    {
      "epoch": 0.0453381584787136,
      "grad_norm": 0.00019058110774494708,
      "learning_rate": 0.0001943311813257743,
      "loss": 46.0,
      "step": 332
    },
    {
      "epoch": 0.04547471919702298,
      "grad_norm": 0.00047706879558973014,
      "learning_rate": 0.00019429625570850404,
      "loss": 46.0,
      "step": 333
    },
    {
      "epoch": 0.045611279915332356,
      "grad_norm": 0.0005120193236507475,
      "learning_rate": 0.0001942612259909827,
      "loss": 46.0,
      "step": 334
    },
    {
      "epoch": 0.045747840633641734,
      "grad_norm": 0.0002128657652065158,
      "learning_rate": 0.00019422609221188207,
      "loss": 46.0,
      "step": 335
    },
    {
      "epoch": 0.04588440135195111,
      "grad_norm": 0.0005021935794502497,
      "learning_rate": 0.00019419085440998873,
      "loss": 46.0,
      "step": 336
    },
    {
      "epoch": 0.04602096207026049,
      "grad_norm": 0.000529598502907902,
      "learning_rate": 0.00019415551262420418,
      "loss": 46.0,
      "step": 337
    },
    {
      "epoch": 0.04615752278856987,
      "grad_norm": 0.000645966618321836,
      "learning_rate": 0.0001941200668935447,
      "loss": 46.0,
      "step": 338
    },
    {
      "epoch": 0.04629408350687925,
      "grad_norm": 0.0012579227332025766,
      "learning_rate": 0.00019408451725714136,
      "loss": 46.0,
      "step": 339
    },
    {
      "epoch": 0.046430644225188625,
      "grad_norm": 0.0003929708036594093,
      "learning_rate": 0.00019404886375423984,
      "loss": 46.0,
      "step": 340
    },
    {
      "epoch": 0.046567204943498,
      "grad_norm": 0.0008281446644105017,
      "learning_rate": 0.00019401310642420058,
      "loss": 46.0,
      "step": 341
    },
    {
      "epoch": 0.04670376566180738,
      "grad_norm": 0.0003685842384584248,
      "learning_rate": 0.00019397724530649857,
      "loss": 46.0,
      "step": 342
    },
    {
      "epoch": 0.04684032638011676,
      "grad_norm": 0.00041180921834893525,
      "learning_rate": 0.00019394128044072345,
      "loss": 46.0,
      "step": 343
    },
    {
      "epoch": 0.04697688709842614,
      "grad_norm": 0.00038018723716959357,
      "learning_rate": 0.00019390521186657934,
      "loss": 46.0,
      "step": 344
    },
    {
      "epoch": 0.047113447816735515,
      "grad_norm": 0.0006593601428903639,
      "learning_rate": 0.00019386903962388487,
      "loss": 46.0,
      "step": 345
    },
    {
      "epoch": 0.04725000853504489,
      "grad_norm": 0.0003346616867929697,
      "learning_rate": 0.0001938327637525731,
      "loss": 46.0,
      "step": 346
    },
    {
      "epoch": 0.04738656925335427,
      "grad_norm": 0.0006303668487817049,
      "learning_rate": 0.00019379638429269157,
      "loss": 46.0,
      "step": 347
    },
    {
      "epoch": 0.04752312997166365,
      "grad_norm": 0.0009288009605370462,
      "learning_rate": 0.00019375990128440204,
      "loss": 46.0,
      "step": 348
    },
    {
      "epoch": 0.04765969068997303,
      "grad_norm": 0.0009077245485968888,
      "learning_rate": 0.00019372331476798072,
      "loss": 46.0,
      "step": 349
    },
    {
      "epoch": 0.047796251408282406,
      "grad_norm": 0.0006878585554659367,
      "learning_rate": 0.00019368662478381799,
      "loss": 46.0,
      "step": 350
    },
    {
      "epoch": 0.047932812126591784,
      "grad_norm": 0.0005428345175459981,
      "learning_rate": 0.00019364983137241853,
      "loss": 46.0,
      "step": 351
    },
    {
      "epoch": 0.04806937284490116,
      "grad_norm": 0.0005264700739644468,
      "learning_rate": 0.0001936129345744011,
      "loss": 46.0,
      "step": 352
    },
    {
      "epoch": 0.04820593356321054,
      "grad_norm": 0.00034603691892698407,
      "learning_rate": 0.00019357593443049877,
      "loss": 46.0,
      "step": 353
    },
    {
      "epoch": 0.04834249428151992,
      "grad_norm": 0.0005551993381232023,
      "learning_rate": 0.00019353883098155854,
      "loss": 46.0,
      "step": 354
    },
    {
      "epoch": 0.048479054999829296,
      "grad_norm": 0.0005989357596263289,
      "learning_rate": 0.0001935016242685415,
      "loss": 46.0,
      "step": 355
    },
    {
      "epoch": 0.048615615718138674,
      "grad_norm": 0.0003730835160240531,
      "learning_rate": 0.00019346431433252276,
      "loss": 46.0,
      "step": 356
    },
    {
      "epoch": 0.04875217643644805,
      "grad_norm": 0.0006811637431383133,
      "learning_rate": 0.00019342690121469138,
      "loss": 46.0,
      "step": 357
    },
    {
      "epoch": 0.04888873715475743,
      "grad_norm": 0.000448873353889212,
      "learning_rate": 0.0001933893849563503,
      "loss": 46.0,
      "step": 358
    },
    {
      "epoch": 0.049025297873066816,
      "grad_norm": 0.00046228739665821195,
      "learning_rate": 0.0001933517655989164,
      "loss": 46.0,
      "step": 359
    },
    {
      "epoch": 0.049161858591376194,
      "grad_norm": 0.000341800187015906,
      "learning_rate": 0.00019331404318392027,
      "loss": 46.0,
      "step": 360
    },
    {
      "epoch": 0.04929841930968557,
      "grad_norm": 0.0007170014432631433,
      "learning_rate": 0.00019327621775300637,
      "loss": 46.0,
      "step": 361
    },
    {
      "epoch": 0.04943498002799495,
      "grad_norm": 0.0009279394871555269,
      "learning_rate": 0.00019323828934793286,
      "loss": 46.0,
      "step": 362
    },
    {
      "epoch": 0.04957154074630433,
      "grad_norm": 0.0007022646022960544,
      "learning_rate": 0.0001932002580105715,
      "loss": 46.0,
      "step": 363
    },
    {
      "epoch": 0.049708101464613706,
      "grad_norm": 0.0005995425744913518,
      "learning_rate": 0.0001931621237829078,
      "loss": 46.0,
      "step": 364
    },
    {
      "epoch": 0.049844662182923084,
      "grad_norm": 0.0006767901941202581,
      "learning_rate": 0.00019312388670704081,
      "loss": 46.0,
      "step": 365
    },
    {
      "epoch": 0.04998122290123246,
      "grad_norm": 0.00040845770854502916,
      "learning_rate": 0.00019308554682518313,
      "loss": 46.0,
      "step": 366
    },
    {
      "epoch": 0.05011778361954184,
      "grad_norm": 0.00040534368599765003,
      "learning_rate": 0.00019304710417966079,
      "loss": 46.0,
      "step": 367
    },
    {
      "epoch": 0.05025434433785122,
      "grad_norm": 0.00040592235745862126,
      "learning_rate": 0.0001930085588129134,
      "loss": 46.0,
      "step": 368
    },
    {
      "epoch": 0.0503909050561606,
      "grad_norm": 0.00048625541967339814,
      "learning_rate": 0.00019296991076749381,
      "loss": 46.0,
      "step": 369
    },
    {
      "epoch": 0.050527465774469975,
      "grad_norm": 0.0010227779857814312,
      "learning_rate": 0.00019293116008606837,
      "loss": 46.0,
      "step": 370
    },
    {
      "epoch": 0.05066402649277935,
      "grad_norm": 0.0005206182249821723,
      "learning_rate": 0.00019289230681141667,
      "loss": 46.0,
      "step": 371
    },
    {
      "epoch": 0.05080058721108873,
      "grad_norm": 0.0005789480055682361,
      "learning_rate": 0.00019285335098643153,
      "loss": 46.0,
      "step": 372
    },
    {
      "epoch": 0.05093714792939811,
      "grad_norm": 0.00046148046385496855,
      "learning_rate": 0.00019281429265411907,
      "loss": 46.0,
      "step": 373
    },
    {
      "epoch": 0.05107370864770749,
      "grad_norm": 0.0005185164045542479,
      "learning_rate": 0.00019277513185759844,
      "loss": 46.0,
      "step": 374
    },
    {
      "epoch": 0.051210269366016865,
      "grad_norm": 0.0005086156306788325,
      "learning_rate": 0.0001927358686401021,
      "loss": 46.0,
      "step": 375
    },
    {
      "epoch": 0.05134683008432624,
      "grad_norm": 0.0005038722883909941,
      "learning_rate": 0.0001926965030449754,
      "loss": 46.0,
      "step": 376
    },
    {
      "epoch": 0.05148339080263562,
      "grad_norm": 0.001132496865466237,
      "learning_rate": 0.00019265703511567677,
      "loss": 46.0,
      "step": 377
    },
    {
      "epoch": 0.051619951520945,
      "grad_norm": 0.0011954177170991898,
      "learning_rate": 0.00019261746489577765,
      "loss": 46.0,
      "step": 378
    },
    {
      "epoch": 0.05175651223925438,
      "grad_norm": 0.0006181654753163457,
      "learning_rate": 0.0001925777924289624,
      "loss": 46.0,
      "step": 379
    },
    {
      "epoch": 0.051893072957563756,
      "grad_norm": 0.0005807424895465374,
      "learning_rate": 0.00019253801775902824,
      "loss": 46.0,
      "step": 380
    },
    {
      "epoch": 0.052029633675873134,
      "grad_norm": 0.0007045441307127476,
      "learning_rate": 0.00019249814092988515,
      "loss": 46.0,
      "step": 381
    },
    {
      "epoch": 0.05216619439418251,
      "grad_norm": 0.0005537315737456083,
      "learning_rate": 0.00019245816198555605,
      "loss": 46.0,
      "step": 382
    },
    {
      "epoch": 0.05230275511249189,
      "grad_norm": 0.0006181203643791378,
      "learning_rate": 0.00019241808097017642,
      "loss": 46.0,
      "step": 383
    },
    {
      "epoch": 0.05243931583080127,
      "grad_norm": 0.0005752414581365883,
      "learning_rate": 0.00019237789792799458,
      "loss": 46.0,
      "step": 384
    },
    {
      "epoch": 0.052575876549110646,
      "grad_norm": 0.0012608635006472468,
      "learning_rate": 0.00019233761290337134,
      "loss": 46.0,
      "step": 385
    },
    {
      "epoch": 0.052712437267420025,
      "grad_norm": 0.001415454433299601,
      "learning_rate": 0.0001922972259407802,
      "loss": 46.0,
      "step": 386
    },
    {
      "epoch": 0.0528489979857294,
      "grad_norm": 0.001285754144191742,
      "learning_rate": 0.00019225673708480717,
      "loss": 46.0,
      "step": 387
    },
    {
      "epoch": 0.05298555870403878,
      "grad_norm": 0.0007671714411117136,
      "learning_rate": 0.00019221614638015075,
      "loss": 46.0,
      "step": 388
    },
    {
      "epoch": 0.05312211942234816,
      "grad_norm": 0.0009842630242928863,
      "learning_rate": 0.0001921754538716218,
      "loss": 46.0,
      "step": 389
    },
    {
      "epoch": 0.05325868014065754,
      "grad_norm": 0.0023981237318366766,
      "learning_rate": 0.00019213465960414368,
      "loss": 46.0,
      "step": 390
    },
    {
      "epoch": 0.053395240858966915,
      "grad_norm": 0.0003951654944103211,
      "learning_rate": 0.00019209376362275206,
      "loss": 46.0,
      "step": 391
    },
    {
      "epoch": 0.05353180157727629,
      "grad_norm": 0.0011894862400367856,
      "learning_rate": 0.00019205276597259485,
      "loss": 46.0,
      "step": 392
    },
    {
      "epoch": 0.05366836229558568,
      "grad_norm": 0.0006607277318835258,
      "learning_rate": 0.00019201166669893227,
      "loss": 46.0,
      "step": 393
    },
    {
      "epoch": 0.053804923013895056,
      "grad_norm": 0.0026427984703332186,
      "learning_rate": 0.00019197046584713663,
      "loss": 46.0,
      "step": 394
    },
    {
      "epoch": 0.053941483732204434,
      "grad_norm": 0.0005352182779461145,
      "learning_rate": 0.00019192916346269246,
      "loss": 46.0,
      "step": 395
    },
    {
      "epoch": 0.05407804445051381,
      "grad_norm": 0.0007665826706215739,
      "learning_rate": 0.00019188775959119643,
      "loss": 46.0,
      "step": 396
    },
    {
      "epoch": 0.05421460516882319,
      "grad_norm": 0.0006750879692845047,
      "learning_rate": 0.0001918462542783571,
      "loss": 46.0,
      "step": 397
    },
    {
      "epoch": 0.05435116588713257,
      "grad_norm": 0.0007010844419710338,
      "learning_rate": 0.0001918046475699951,
      "loss": 46.0,
      "step": 398
    },
    {
      "epoch": 0.05448772660544195,
      "grad_norm": 0.0007815820863470435,
      "learning_rate": 0.00019176293951204303,
      "loss": 46.0,
      "step": 399
    },
    {
      "epoch": 0.054624287323751325,
      "grad_norm": 0.0012023310409858823,
      "learning_rate": 0.00019172113015054532,
      "loss": 46.0,
      "step": 400
    },
    {
      "epoch": 0.0547608480420607,
      "grad_norm": 0.0008429251029156148,
      "learning_rate": 0.00019167921953165825,
      "loss": 46.0,
      "step": 401
    },
    {
      "epoch": 0.05489740876037008,
      "grad_norm": 0.0011086566373705864,
      "learning_rate": 0.00019163720770164991,
      "loss": 46.0,
      "step": 402
    },
    {
      "epoch": 0.05503396947867946,
      "grad_norm": 0.0006057535065338016,
      "learning_rate": 0.00019159509470690012,
      "loss": 46.0,
      "step": 403
    },
    {
      "epoch": 0.05517053019698884,
      "grad_norm": 0.0005650485400110483,
      "learning_rate": 0.0001915528805939003,
      "loss": 46.0,
      "step": 404
    },
    {
      "epoch": 0.055307090915298215,
      "grad_norm": 0.00042634617420844734,
      "learning_rate": 0.00019151056540925364,
      "loss": 46.0,
      "step": 405
    },
    {
      "epoch": 0.055443651633607594,
      "grad_norm": 0.0010889278491958976,
      "learning_rate": 0.0001914681491996748,
      "loss": 46.0,
      "step": 406
    },
    {
      "epoch": 0.05558021235191697,
      "grad_norm": 0.0005564565653912723,
      "learning_rate": 0.00019142563201199008,
      "loss": 46.0,
      "step": 407
    },
    {
      "epoch": 0.05571677307022635,
      "grad_norm": 0.0007656107773073018,
      "learning_rate": 0.0001913830138931371,
      "loss": 46.0,
      "step": 408
    },
    {
      "epoch": 0.05585333378853573,
      "grad_norm": 0.0008188536739908159,
      "learning_rate": 0.00019134029489016502,
      "loss": 46.0,
      "step": 409
    },
    {
      "epoch": 0.055989894506845106,
      "grad_norm": 0.0009277886711061001,
      "learning_rate": 0.00019129747505023436,
      "loss": 46.0,
      "step": 410
    },
    {
      "epoch": 0.056126455225154484,
      "grad_norm": 0.0008007950964383781,
      "learning_rate": 0.00019125455442061691,
      "loss": 46.0,
      "step": 411
    },
    {
      "epoch": 0.05626301594346386,
      "grad_norm": 0.000565837137401104,
      "learning_rate": 0.00019121153304869584,
      "loss": 46.0,
      "step": 412
    },
    {
      "epoch": 0.05639957666177324,
      "grad_norm": 0.0009090682142414153,
      "learning_rate": 0.00019116841098196536,
      "loss": 46.0,
      "step": 413
    },
    {
      "epoch": 0.05653613738008262,
      "grad_norm": 0.0010395282879471779,
      "learning_rate": 0.000191125188268031,
      "loss": 46.0,
      "step": 414
    },
    {
      "epoch": 0.056672698098391996,
      "grad_norm": 0.0004872768186032772,
      "learning_rate": 0.00019108186495460933,
      "loss": 46.0,
      "step": 415
    },
    {
      "epoch": 0.056809258816701375,
      "grad_norm": 0.0007016431773081422,
      "learning_rate": 0.00019103844108952803,
      "loss": 46.0,
      "step": 416
    },
    {
      "epoch": 0.05694581953501075,
      "grad_norm": 0.0005011600442230701,
      "learning_rate": 0.00019099491672072566,
      "loss": 46.0,
      "step": 417
    },
    {
      "epoch": 0.05708238025332013,
      "grad_norm": 0.0009304819977842271,
      "learning_rate": 0.00019095129189625193,
      "loss": 46.0,
      "step": 418
    },
    {
      "epoch": 0.05721894097162951,
      "grad_norm": 0.0009160469635389745,
      "learning_rate": 0.0001909075666642673,
      "loss": 46.0,
      "step": 419
    },
    {
      "epoch": 0.05735550168993889,
      "grad_norm": 0.001117922831326723,
      "learning_rate": 0.00019086374107304312,
      "loss": 46.0,
      "step": 420
    },
    {
      "epoch": 0.057492062408248265,
      "grad_norm": 0.0009813562501221895,
      "learning_rate": 0.00019081981517096152,
      "loss": 46.0,
      "step": 421
    },
    {
      "epoch": 0.05762862312655764,
      "grad_norm": 0.0006970268441364169,
      "learning_rate": 0.00019077578900651544,
      "loss": 46.0,
      "step": 422
    },
    {
      "epoch": 0.05776518384486702,
      "grad_norm": 0.0004595222999341786,
      "learning_rate": 0.00019073166262830834,
      "loss": 46.0,
      "step": 423
    },
    {
      "epoch": 0.0579017445631764,
      "grad_norm": 0.0009433355298824608,
      "learning_rate": 0.00019068743608505455,
      "loss": 46.0,
      "step": 424
    },
    {
      "epoch": 0.05803830528148578,
      "grad_norm": 0.001090813777409494,
      "learning_rate": 0.00019064310942557878,
      "loss": 46.0,
      "step": 425
    },
    {
      "epoch": 0.058174865999795156,
      "grad_norm": 0.00044983444968238473,
      "learning_rate": 0.0001905986826988164,
      "loss": 46.0,
      "step": 426
    },
    {
      "epoch": 0.05831142671810454,
      "grad_norm": 0.0008178472053259611,
      "learning_rate": 0.00019055415595381305,
      "loss": 46.0,
      "step": 427
    },
    {
      "epoch": 0.05844798743641392,
      "grad_norm": 0.0005727699608542025,
      "learning_rate": 0.0001905095292397251,
      "loss": 46.0,
      "step": 428
    },
    {
      "epoch": 0.0585845481547233,
      "grad_norm": 0.0013587451539933681,
      "learning_rate": 0.00019046480260581902,
      "loss": 46.0,
      "step": 429
    },
    {
      "epoch": 0.058721108873032675,
      "grad_norm": 0.0004678687546402216,
      "learning_rate": 0.00019041997610147167,
      "loss": 46.0,
      "step": 430
    },
    {
      "epoch": 0.05885766959134205,
      "grad_norm": 0.00045540923019871116,
      "learning_rate": 0.0001903750497761702,
      "loss": 46.0,
      "step": 431
    },
    {
      "epoch": 0.05899423030965143,
      "grad_norm": 0.0006064171902835369,
      "learning_rate": 0.00019033002367951194,
      "loss": 46.0,
      "step": 432
    },
    {
      "epoch": 0.05913079102796081,
      "grad_norm": 0.0002765974495559931,
      "learning_rate": 0.0001902848978612043,
      "loss": 46.0,
      "step": 433
    },
    {
      "epoch": 0.05926735174627019,
      "grad_norm": 0.000879188475664705,
      "learning_rate": 0.00019023967237106492,
      "loss": 46.0,
      "step": 434
    },
    {
      "epoch": 0.059403912464579565,
      "grad_norm": 0.0005185411428101361,
      "learning_rate": 0.00019019434725902137,
      "loss": 46.0,
      "step": 435
    },
    {
      "epoch": 0.059540473182888944,
      "grad_norm": 0.0008257310255430639,
      "learning_rate": 0.00019014892257511118,
      "loss": 46.0,
      "step": 436
    },
    {
      "epoch": 0.05967703390119832,
      "grad_norm": 0.0009346020524390042,
      "learning_rate": 0.00019010339836948186,
      "loss": 46.0,
      "step": 437
    },
    {
      "epoch": 0.0598135946195077,
      "grad_norm": 0.0010087540140375495,
      "learning_rate": 0.00019005777469239076,
      "loss": 46.0,
      "step": 438
    },
    {
      "epoch": 0.05995015533781708,
      "grad_norm": 0.0015897548291832209,
      "learning_rate": 0.00019001205159420513,
      "loss": 46.0,
      "step": 439
    },
    {
      "epoch": 0.060086716056126456,
      "grad_norm": 0.0007276605465449393,
      "learning_rate": 0.0001899662291254018,
      "loss": 46.0,
      "step": 440
    },
    {
      "epoch": 0.060223276774435834,
      "grad_norm": 0.0019181488314643502,
      "learning_rate": 0.00018992030733656746,
      "loss": 46.0,
      "step": 441
    },
    {
      "epoch": 0.06035983749274521,
      "grad_norm": 0.0009860562859103084,
      "learning_rate": 0.00018987428627839843,
      "loss": 46.0,
      "step": 442
    },
    {
      "epoch": 0.06049639821105459,
      "grad_norm": 0.0009881850564852357,
      "learning_rate": 0.0001898281660017005,
      "loss": 46.0,
      "step": 443
    },
    {
      "epoch": 0.06063295892936397,
      "grad_norm": 0.0016714398516342044,
      "learning_rate": 0.00018978194655738917,
      "loss": 46.0,
      "step": 444
    },
    {
      "epoch": 0.060769519647673347,
      "grad_norm": 0.000832723337225616,
      "learning_rate": 0.00018973562799648927,
      "loss": 46.0,
      "step": 445
    },
    {
      "epoch": 0.060906080365982725,
      "grad_norm": 0.0007889857515692711,
      "learning_rate": 0.00018968921037013512,
      "loss": 46.0,
      "step": 446
    },
    {
      "epoch": 0.0610426410842921,
      "grad_norm": 0.001141861779615283,
      "learning_rate": 0.00018964269372957038,
      "loss": 46.0,
      "step": 447
    },
    {
      "epoch": 0.06117920180260148,
      "grad_norm": 0.001163587556220591,
      "learning_rate": 0.00018959607812614807,
      "loss": 46.0,
      "step": 448
    },
    {
      "epoch": 0.06131576252091086,
      "grad_norm": 0.0006048906943760812,
      "learning_rate": 0.0001895493636113304,
      "loss": 46.0,
      "step": 449
    },
    {
      "epoch": 0.06145232323922024,
      "grad_norm": 0.0009424586896784604,
      "learning_rate": 0.00018950255023668876,
      "loss": 46.0,
      "step": 450
    },
    {
      "epoch": 0.061588883957529615,
      "grad_norm": 0.000706047285348177,
      "learning_rate": 0.00018945563805390381,
      "loss": 46.0,
      "step": 451
    },
    {
      "epoch": 0.06172544467583899,
      "grad_norm": 0.000651683600153774,
      "learning_rate": 0.00018940862711476513,
      "loss": 46.0,
      "step": 452
    },
    {
      "epoch": 0.06186200539414837,
      "grad_norm": 0.001372483093291521,
      "learning_rate": 0.00018936151747117141,
      "loss": 46.0,
      "step": 453
    },
    {
      "epoch": 0.06199856611245775,
      "grad_norm": 0.0011862257961183786,
      "learning_rate": 0.0001893143091751303,
      "loss": 46.0,
      "step": 454
    },
    {
      "epoch": 0.06213512683076713,
      "grad_norm": 0.0015178897883743048,
      "learning_rate": 0.00018926700227875833,
      "loss": 46.0,
      "step": 455
    },
    {
      "epoch": 0.062271687549076506,
      "grad_norm": 0.0008582820883020759,
      "learning_rate": 0.0001892195968342809,
      "loss": 46.0,
      "step": 456
    },
    {
      "epoch": 0.062408248267385884,
      "grad_norm": 0.000795324333012104,
      "learning_rate": 0.00018917209289403227,
      "loss": 46.0,
      "step": 457
    },
    {
      "epoch": 0.06254480898569527,
      "grad_norm": 0.001082447823137045,
      "learning_rate": 0.00018912449051045527,
      "loss": 46.0,
      "step": 458
    },
    {
      "epoch": 0.06268136970400465,
      "grad_norm": 0.001177507103420794,
      "learning_rate": 0.00018907678973610156,
      "loss": 46.0,
      "step": 459
    },
    {
      "epoch": 0.06281793042231403,
      "grad_norm": 0.0007584211998619139,
      "learning_rate": 0.00018902899062363143,
      "loss": 46.0,
      "step": 460
    },
    {
      "epoch": 0.0629544911406234,
      "grad_norm": 0.0005909963510930538,
      "learning_rate": 0.00018898109322581356,
      "loss": 46.0,
      "step": 461
    },
    {
      "epoch": 0.06309105185893278,
      "grad_norm": 0.0007048872066661716,
      "learning_rate": 0.0001889330975955253,
      "loss": 46.0,
      "step": 462
    },
    {
      "epoch": 0.06322761257724216,
      "grad_norm": 0.0005063001881353557,
      "learning_rate": 0.0001888850037857524,
      "loss": 46.0,
      "step": 463
    },
    {
      "epoch": 0.06336417329555154,
      "grad_norm": 0.000993978581391275,
      "learning_rate": 0.000188836811849589,
      "loss": 46.0,
      "step": 464
    },
    {
      "epoch": 0.06350073401386092,
      "grad_norm": 0.0010828451486304402,
      "learning_rate": 0.0001887885218402375,
      "loss": 46.0,
      "step": 465
    },
    {
      "epoch": 0.0636372947321703,
      "grad_norm": 0.0008432026370428503,
      "learning_rate": 0.00018874013381100875,
      "loss": 46.0,
      "step": 466
    },
    {
      "epoch": 0.06377385545047967,
      "grad_norm": 0.0007918166811577976,
      "learning_rate": 0.00018869164781532157,
      "loss": 46.0,
      "step": 467
    },
    {
      "epoch": 0.06391041616878905,
      "grad_norm": 0.0007451958954334259,
      "learning_rate": 0.00018864306390670307,
      "loss": 46.0,
      "step": 468
    },
    {
      "epoch": 0.06404697688709843,
      "grad_norm": 0.0007615243084728718,
      "learning_rate": 0.00018859438213878849,
      "loss": 46.0,
      "step": 469
    },
    {
      "epoch": 0.0641835376054078,
      "grad_norm": 0.00018180711776949465,
      "learning_rate": 0.000188545602565321,
      "loss": 46.0,
      "step": 470
    },
    {
      "epoch": 0.06432009832371718,
      "grad_norm": 0.0009969191160053015,
      "learning_rate": 0.0001884967252401518,
      "loss": 46.0,
      "step": 471
    },
    {
      "epoch": 0.06445665904202656,
      "grad_norm": 0.0008999738493002951,
      "learning_rate": 0.00018844775021724004,
      "loss": 46.0,
      "step": 472
    },
    {
      "epoch": 0.06459321976033594,
      "grad_norm": 0.0006670115399174392,
      "learning_rate": 0.00018839867755065265,
      "loss": 46.0,
      "step": 473
    },
    {
      "epoch": 0.06472978047864532,
      "grad_norm": 0.0011296794982627034,
      "learning_rate": 0.00018834950729456433,
      "loss": 46.0,
      "step": 474
    },
    {
      "epoch": 0.0648663411969547,
      "grad_norm": 0.0004901388892903924,
      "learning_rate": 0.0001883002395032577,
      "loss": 46.0,
      "step": 475
    },
    {
      "epoch": 0.06500290191526407,
      "grad_norm": 0.0017039328813552856,
      "learning_rate": 0.00018825087423112282,
      "loss": 46.0,
      "step": 476
    },
    {
      "epoch": 0.06513946263357345,
      "grad_norm": 0.0009402755531482399,
      "learning_rate": 0.00018820141153265754,
      "loss": 46.0,
      "step": 477
    },
    {
      "epoch": 0.06527602335188283,
      "grad_norm": 0.0008238424779847264,
      "learning_rate": 0.00018815185146246716,
      "loss": 46.0,
      "step": 478
    },
    {
      "epoch": 0.06541258407019221,
      "grad_norm": 0.0007881290512159467,
      "learning_rate": 0.00018810219407526456,
      "loss": 46.0,
      "step": 479
    },
    {
      "epoch": 0.06554914478850159,
      "grad_norm": 0.0010467070387676358,
      "learning_rate": 0.00018805243942587,
      "loss": 46.0,
      "step": 480
    },
    {
      "epoch": 0.06568570550681097,
      "grad_norm": 0.0009283073595725,
      "learning_rate": 0.0001880025875692111,
      "loss": 46.0,
      "step": 481
    },
    {
      "epoch": 0.06582226622512034,
      "grad_norm": 0.000698375515639782,
      "learning_rate": 0.00018795263856032288,
      "loss": 46.0,
      "step": 482
    },
    {
      "epoch": 0.06595882694342972,
      "grad_norm": 0.0015646845567971468,
      "learning_rate": 0.00018790259245434748,
      "loss": 46.0,
      "step": 483
    },
    {
      "epoch": 0.0660953876617391,
      "grad_norm": 0.0008225208730436862,
      "learning_rate": 0.00018785244930653438,
      "loss": 46.0,
      "step": 484
    },
    {
      "epoch": 0.06623194838004848,
      "grad_norm": 0.0006926036439836025,
      "learning_rate": 0.00018780220917224006,
      "loss": 46.0,
      "step": 485
    },
    {
      "epoch": 0.06636850909835786,
      "grad_norm": 0.000991306733340025,
      "learning_rate": 0.00018775187210692815,
      "loss": 46.0,
      "step": 486
    },
    {
      "epoch": 0.06650506981666723,
      "grad_norm": 0.0006662954692728817,
      "learning_rate": 0.00018770143816616928,
      "loss": 46.0,
      "step": 487
    },
    {
      "epoch": 0.06664163053497661,
      "grad_norm": 0.000875332101713866,
      "learning_rate": 0.000187650907405641,
      "loss": 46.0,
      "step": 488
    },
    {
      "epoch": 0.06677819125328599,
      "grad_norm": 0.002434828784316778,
      "learning_rate": 0.00018760027988112775,
      "loss": 46.0,
      "step": 489
    },
    {
      "epoch": 0.06691475197159537,
      "grad_norm": 0.002048447262495756,
      "learning_rate": 0.0001875495556485208,
      "loss": 46.0,
      "step": 490
    },
    {
      "epoch": 0.06705131268990475,
      "grad_norm": 0.0005600312724709511,
      "learning_rate": 0.00018749873476381828,
      "loss": 46.0,
      "step": 491
    },
    {
      "epoch": 0.06718787340821412,
      "grad_norm": 0.00041424104711040854,
      "learning_rate": 0.00018744781728312479,
      "loss": 46.0,
      "step": 492
    },
    {
      "epoch": 0.0673244341265235,
      "grad_norm": 0.0009647294646129012,
      "learning_rate": 0.0001873968032626518,
      "loss": 46.0,
      "step": 493
    },
    {
      "epoch": 0.06746099484483288,
      "grad_norm": 0.0007067355909384787,
      "learning_rate": 0.00018734569275871726,
      "loss": 46.0,
      "step": 494
    },
    {
      "epoch": 0.06759755556314226,
      "grad_norm": 0.000527632946614176,
      "learning_rate": 0.00018729448582774559,
      "loss": 46.0,
      "step": 495
    },
    {
      "epoch": 0.06773411628145164,
      "grad_norm": 0.000945943349506706,
      "learning_rate": 0.00018724318252626775,
      "loss": 46.0,
      "step": 496
    },
    {
      "epoch": 0.06787067699976101,
      "grad_norm": 0.0016438892344012856,
      "learning_rate": 0.00018719178291092106,
      "loss": 46.0,
      "step": 497
    },
    {
      "epoch": 0.06800723771807039,
      "grad_norm": 0.0018535932758823037,
      "learning_rate": 0.00018714028703844914,
      "loss": 46.0,
      "step": 498
    },
    {
      "epoch": 0.06814379843637977,
      "grad_norm": 0.0012148134410381317,
      "learning_rate": 0.00018708869496570192,
      "loss": 46.0,
      "step": 499
    },
    {
      "epoch": 0.06828035915468915,
      "grad_norm": 0.0008952637435868382,
      "learning_rate": 0.00018703700674963547,
      "loss": 46.0,
      "step": 500
    },
    {
      "epoch": 0.06841691987299853,
      "grad_norm": 0.000657785392832011,
      "learning_rate": 0.0001869852224473121,
      "loss": 46.0,
      "step": 501
    },
    {
      "epoch": 0.0685534805913079,
      "grad_norm": 0.0008411743910983205,
      "learning_rate": 0.00018693334211590006,
      "loss": 46.0,
      "step": 502
    },
    {
      "epoch": 0.06869004130961728,
      "grad_norm": 0.0008810686995275319,
      "learning_rate": 0.00018688136581267373,
      "loss": 46.0,
      "step": 503
    },
    {
      "epoch": 0.06882660202792666,
      "grad_norm": 0.0005853201728314161,
      "learning_rate": 0.00018682929359501338,
      "loss": 46.0,
      "step": 504
    },
    {
      "epoch": 0.06896316274623604,
      "grad_norm": 0.0004718601703643799,
      "learning_rate": 0.00018677712552040522,
      "loss": 46.0,
      "step": 505
    },
    {
      "epoch": 0.06909972346454542,
      "grad_norm": 0.0007315895054489374,
      "learning_rate": 0.00018672486164644116,
      "loss": 46.0,
      "step": 506
    },
    {
      "epoch": 0.0692362841828548,
      "grad_norm": 0.0009641025681048632,
      "learning_rate": 0.00018667250203081905,
      "loss": 46.0,
      "step": 507
    },
    {
      "epoch": 0.06937284490116417,
      "grad_norm": 0.0008396725752390921,
      "learning_rate": 0.00018662004673134232,
      "loss": 46.0,
      "step": 508
    },
    {
      "epoch": 0.06950940561947355,
      "grad_norm": 0.000584542634896934,
      "learning_rate": 0.00018656749580592003,
      "loss": 46.0,
      "step": 509
    },
    {
      "epoch": 0.06964596633778293,
      "grad_norm": 0.0005784454988315701,
      "learning_rate": 0.00018651484931256685,
      "loss": 46.0,
      "step": 510
    },
    {
      "epoch": 0.06978252705609231,
      "grad_norm": 0.0003768317692447454,
      "learning_rate": 0.00018646210730940293,
      "loss": 46.0,
      "step": 511
    },
    {
      "epoch": 0.06991908777440169,
      "grad_norm": 0.0012037859996780753,
      "learning_rate": 0.00018640926985465388,
      "loss": 46.0,
      "step": 512
    },
    {
      "epoch": 0.07005564849271108,
      "grad_norm": 0.0007435141014866531,
      "learning_rate": 0.00018635633700665063,
      "loss": 46.0,
      "step": 513
    },
    {
      "epoch": 0.07019220921102046,
      "grad_norm": 0.0009005676256492734,
      "learning_rate": 0.00018630330882382951,
      "loss": 46.0,
      "step": 514
    },
    {
      "epoch": 0.07032876992932983,
      "grad_norm": 0.0005016371724195778,
      "learning_rate": 0.00018625018536473206,
      "loss": 46.0,
      "step": 515
    },
    {
      "epoch": 0.07046533064763921,
      "grad_norm": 0.0012827449245378375,
      "learning_rate": 0.00018619696668800492,
      "loss": 46.0,
      "step": 516
    },
    {
      "epoch": 0.07060189136594859,
      "grad_norm": 0.0004301304288674146,
      "learning_rate": 0.0001861436528524,
      "loss": 46.0,
      "step": 517
    },
    {
      "epoch": 0.07073845208425797,
      "grad_norm": 0.00036730722058564425,
      "learning_rate": 0.00018609024391677418,
      "loss": 46.0,
      "step": 518
    },
    {
      "epoch": 0.07087501280256735,
      "grad_norm": 0.0008029394666664302,
      "learning_rate": 0.00018603673994008925,
      "loss": 46.0,
      "step": 519
    },
    {
      "epoch": 0.07101157352087673,
      "grad_norm": 0.0006513711996376514,
      "learning_rate": 0.00018598314098141206,
      "loss": 46.0,
      "step": 520
    },
    {
      "epoch": 0.0711481342391861,
      "grad_norm": 0.00077268440509215,
      "learning_rate": 0.00018592944709991426,
      "loss": 46.0,
      "step": 521
    },
    {
      "epoch": 0.07128469495749548,
      "grad_norm": 0.0004973417380824685,
      "learning_rate": 0.00018587565835487233,
      "loss": 46.0,
      "step": 522
    },
    {
      "epoch": 0.07142125567580486,
      "grad_norm": 0.000682865793351084,
      "learning_rate": 0.00018582177480566735,
      "loss": 46.0,
      "step": 523
    },
    {
      "epoch": 0.07155781639411424,
      "grad_norm": 0.0006797179230488837,
      "learning_rate": 0.00018576779651178522,
      "loss": 46.0,
      "step": 524
    },
    {
      "epoch": 0.07169437711242362,
      "grad_norm": 0.000731765350792557,
      "learning_rate": 0.00018571372353281632,
      "loss": 46.0,
      "step": 525
    },
    {
      "epoch": 0.071830937830733,
      "grad_norm": 0.00029318922315724194,
      "learning_rate": 0.00018565955592845563,
      "loss": 46.0,
      "step": 526
    },
    {
      "epoch": 0.07196749854904237,
      "grad_norm": 0.0011708553647622466,
      "learning_rate": 0.00018560529375850259,
      "loss": 46.0,
      "step": 527
    },
    {
      "epoch": 0.07210405926735175,
      "grad_norm": 0.00033764285035431385,
      "learning_rate": 0.00018555093708286094,
      "loss": 46.0,
      "step": 528
    },
    {
      "epoch": 0.07224061998566113,
      "grad_norm": 0.0011742584174498916,
      "learning_rate": 0.00018549648596153891,
      "loss": 46.0,
      "step": 529
    },
    {
      "epoch": 0.0723771807039705,
      "grad_norm": 0.0011071540648117661,
      "learning_rate": 0.00018544194045464886,
      "loss": 46.0,
      "step": 530
    },
    {
      "epoch": 0.07251374142227988,
      "grad_norm": 0.0004732667875941843,
      "learning_rate": 0.00018538730062240744,
      "loss": 46.0,
      "step": 531
    },
    {
      "epoch": 0.07265030214058926,
      "grad_norm": 0.0006753505440428853,
      "learning_rate": 0.00018533256652513536,
      "loss": 46.0,
      "step": 532
    },
    {
      "epoch": 0.07278686285889864,
      "grad_norm": 0.0013869997346773744,
      "learning_rate": 0.00018527773822325742,
      "loss": 46.0,
      "step": 533
    },
    {
      "epoch": 0.07292342357720802,
      "grad_norm": 0.0004685988824348897,
      "learning_rate": 0.0001852228157773025,
      "loss": 46.0,
      "step": 534
    },
    {
      "epoch": 0.0730599842955174,
      "grad_norm": 0.0005608046194538474,
      "learning_rate": 0.00018516779924790324,
      "loss": 46.0,
      "step": 535
    },
    {
      "epoch": 0.07319654501382677,
      "grad_norm": 0.0007237467798404396,
      "learning_rate": 0.00018511268869579635,
      "loss": 46.0,
      "step": 536
    },
    {
      "epoch": 0.07333310573213615,
      "grad_norm": 0.0007371974061243236,
      "learning_rate": 0.00018505748418182213,
      "loss": 46.0,
      "step": 537
    },
    {
      "epoch": 0.07346966645044553,
      "grad_norm": 0.0021626208908855915,
      "learning_rate": 0.0001850021857669248,
      "loss": 46.0,
      "step": 538
    },
    {
      "epoch": 0.07360622716875491,
      "grad_norm": 0.0044371578842401505,
      "learning_rate": 0.0001849467935121521,
      "loss": 46.0,
      "step": 539
    },
    {
      "epoch": 0.07374278788706429,
      "grad_norm": 0.001232149894349277,
      "learning_rate": 0.00018489130747865548,
      "loss": 46.0,
      "step": 540
    },
    {
      "epoch": 0.07387934860537367,
      "grad_norm": 0.0007343983743339777,
      "learning_rate": 0.00018483572772768982,
      "loss": 46.0,
      "step": 541
    },
    {
      "epoch": 0.07401590932368304,
      "grad_norm": 0.00047310179797932506,
      "learning_rate": 0.00018478005432061352,
      "loss": 46.0,
      "step": 542
    },
    {
      "epoch": 0.07415247004199242,
      "grad_norm": 0.0008101825369521976,
      "learning_rate": 0.00018472428731888837,
      "loss": 46.0,
      "step": 543
    },
    {
      "epoch": 0.0742890307603018,
      "grad_norm": 0.001507743145339191,
      "learning_rate": 0.00018466842678407946,
      "loss": 46.0,
      "step": 544
    },
    {
      "epoch": 0.07442559147861118,
      "grad_norm": 0.0009909087093546987,
      "learning_rate": 0.00018461247277785513,
      "loss": 46.0,
      "step": 545
    },
    {
      "epoch": 0.07456215219692056,
      "grad_norm": 0.0013652259949594736,
      "learning_rate": 0.000184556425361987,
      "loss": 46.0,
      "step": 546
    },
    {
      "epoch": 0.07469871291522993,
      "grad_norm": 0.0008130900096148252,
      "learning_rate": 0.0001845002845983497,
      "loss": 46.0,
      "step": 547
    },
    {
      "epoch": 0.07483527363353931,
      "grad_norm": 0.0012740385718643665,
      "learning_rate": 0.00018444405054892092,
      "loss": 46.0,
      "step": 548
    },
    {
      "epoch": 0.07497183435184869,
      "grad_norm": 0.000746730831451714,
      "learning_rate": 0.0001843877232757815,
      "loss": 46.0,
      "step": 549
    },
    {
      "epoch": 0.07510839507015807,
      "grad_norm": 0.0019112954614683986,
      "learning_rate": 0.0001843313028411149,
      "loss": 46.0,
      "step": 550
    },
    {
      "epoch": 0.07524495578846745,
      "grad_norm": 0.0005015329807065427,
      "learning_rate": 0.0001842747893072077,
      "loss": 46.0,
      "step": 551
    },
    {
      "epoch": 0.07538151650677682,
      "grad_norm": 0.0004962061066180468,
      "learning_rate": 0.00018421818273644912,
      "loss": 46.0,
      "step": 552
    },
    {
      "epoch": 0.0755180772250862,
      "grad_norm": 0.00037836559931747615,
      "learning_rate": 0.00018416148319133117,
      "loss": 46.0,
      "step": 553
    },
    {
      "epoch": 0.07565463794339558,
      "grad_norm": 0.0003992395068053156,
      "learning_rate": 0.0001841046907344484,
      "loss": 46.0,
      "step": 554
    },
    {
      "epoch": 0.07579119866170496,
      "grad_norm": 0.0004277300031390041,
      "learning_rate": 0.000184047805428498,
      "loss": 46.0,
      "step": 555
    },
    {
      "epoch": 0.07592775938001434,
      "grad_norm": 0.0005832565948367119,
      "learning_rate": 0.00018399082733627965,
      "loss": 46.0,
      "step": 556
    },
    {
      "epoch": 0.07606432009832371,
      "grad_norm": 0.0006913339020684361,
      "learning_rate": 0.00018393375652069548,
      "loss": 46.0,
      "step": 557
    },
    {
      "epoch": 0.0762008808166331,
      "grad_norm": 0.00086840835865587,
      "learning_rate": 0.00018387659304474994,
      "loss": 46.0,
      "step": 558
    },
    {
      "epoch": 0.07633744153494247,
      "grad_norm": 0.0007002664497122169,
      "learning_rate": 0.00018381933697154986,
      "loss": 46.0,
      "step": 559
    },
    {
      "epoch": 0.07647400225325185,
      "grad_norm": 0.0008870341116562486,
      "learning_rate": 0.00018376198836430417,
      "loss": 46.0,
      "step": 560
    },
    {
      "epoch": 0.07661056297156123,
      "grad_norm": 0.0006294609629549086,
      "learning_rate": 0.00018370454728632404,
      "loss": 46.0,
      "step": 561
    },
    {
      "epoch": 0.0767471236898706,
      "grad_norm": 0.0004686205938924104,
      "learning_rate": 0.00018364701380102266,
      "loss": 46.0,
      "step": 562
    },
    {
      "epoch": 0.07688368440817998,
      "grad_norm": 0.0008394161704927683,
      "learning_rate": 0.0001835893879719154,
      "loss": 46.0,
      "step": 563
    },
    {
      "epoch": 0.07702024512648936,
      "grad_norm": 0.0006610259879380465,
      "learning_rate": 0.00018353166986261935,
      "loss": 46.0,
      "step": 564
    },
    {
      "epoch": 0.07715680584479874,
      "grad_norm": 0.000717335322406143,
      "learning_rate": 0.0001834738595368536,
      "loss": 46.0,
      "step": 565
    },
    {
      "epoch": 0.07729336656310812,
      "grad_norm": 0.0005708184908144176,
      "learning_rate": 0.00018341595705843907,
      "loss": 46.0,
      "step": 566
    },
    {
      "epoch": 0.0774299272814175,
      "grad_norm": 0.0009451278601773083,
      "learning_rate": 0.00018335796249129832,
      "loss": 46.0,
      "step": 567
    },
    {
      "epoch": 0.07756648799972687,
      "grad_norm": 0.0005919419345445931,
      "learning_rate": 0.0001832998758994556,
      "loss": 46.0,
      "step": 568
    },
    {
      "epoch": 0.07770304871803625,
      "grad_norm": 0.0006907092756591737,
      "learning_rate": 0.00018324169734703683,
      "loss": 46.0,
      "step": 569
    },
    {
      "epoch": 0.07783960943634563,
      "grad_norm": 0.0008807244012132287,
      "learning_rate": 0.00018318342689826938,
      "loss": 46.0,
      "step": 570
    },
    {
      "epoch": 0.07797617015465501,
      "grad_norm": 0.0006545766955241561,
      "learning_rate": 0.00018312506461748207,
      "loss": 46.0,
      "step": 571
    },
    {
      "epoch": 0.07811273087296439,
      "grad_norm": 0.00029055686900392175,
      "learning_rate": 0.0001830666105691051,
      "loss": 46.0,
      "step": 572
    },
    {
      "epoch": 0.07824929159127376,
      "grad_norm": 0.000587637594435364,
      "learning_rate": 0.00018300806481767005,
      "loss": 46.0,
      "step": 573
    },
    {
      "epoch": 0.07838585230958314,
      "grad_norm": 0.0003420762368477881,
      "learning_rate": 0.00018294942742780966,
      "loss": 46.0,
      "step": 574
    },
    {
      "epoch": 0.07852241302789252,
      "grad_norm": 0.00046790859778411686,
      "learning_rate": 0.00018289069846425782,
      "loss": 46.0,
      "step": 575
    },
    {
      "epoch": 0.0786589737462019,
      "grad_norm": 0.00026647665072232485,
      "learning_rate": 0.00018283187799184958,
      "loss": 46.0,
      "step": 576
    },
    {
      "epoch": 0.07879553446451128,
      "grad_norm": 0.0015470724320039153,
      "learning_rate": 0.000182772966075521,
      "loss": 46.0,
      "step": 577
    },
    {
      "epoch": 0.07893209518282066,
      "grad_norm": 0.00032806419767439365,
      "learning_rate": 0.00018271396278030905,
      "loss": 46.0,
      "step": 578
    },
    {
      "epoch": 0.07906865590113003,
      "grad_norm": 0.0004820665344595909,
      "learning_rate": 0.0001826548681713516,
      "loss": 46.0,
      "step": 579
    },
    {
      "epoch": 0.07920521661943941,
      "grad_norm": 0.0006422748556360602,
      "learning_rate": 0.00018259568231388738,
      "loss": 46.0,
      "step": 580
    },
    {
      "epoch": 0.0793417773377488,
      "grad_norm": 0.0002866037539206445,
      "learning_rate": 0.00018253640527325578,
      "loss": 46.0,
      "step": 581
    },
    {
      "epoch": 0.07947833805605818,
      "grad_norm": 0.0005615049158222973,
      "learning_rate": 0.00018247703711489686,
      "loss": 46.0,
      "step": 582
    },
    {
      "epoch": 0.07961489877436756,
      "grad_norm": 0.001207325840368867,
      "learning_rate": 0.00018241757790435134,
      "loss": 46.0,
      "step": 583
    },
    {
      "epoch": 0.07975145949267694,
      "grad_norm": 0.0005774226738139987,
      "learning_rate": 0.00018235802770726037,
      "loss": 46.0,
      "step": 584
    },
    {
      "epoch": 0.07988802021098632,
      "grad_norm": 0.0005512305651791394,
      "learning_rate": 0.00018229838658936564,
      "loss": 46.0,
      "step": 585
    },
    {
      "epoch": 0.0800245809292957,
      "grad_norm": 0.0021268404088914394,
      "learning_rate": 0.00018223865461650912,
      "loss": 46.0,
      "step": 586
    },
    {
      "epoch": 0.08016114164760507,
      "grad_norm": 0.0017917539225891232,
      "learning_rate": 0.00018217883185463315,
      "loss": 46.0,
      "step": 587
    },
    {
      "epoch": 0.08029770236591445,
      "grad_norm": 0.004704636055976152,
      "learning_rate": 0.00018211891836978028,
      "loss": 46.0,
      "step": 588
    },
    {
      "epoch": 0.08043426308422383,
      "grad_norm": 0.0016004083445295691,
      "learning_rate": 0.00018205891422809316,
      "loss": 46.0,
      "step": 589
    },
    {
      "epoch": 0.0805708238025332,
      "grad_norm": 0.0008631657692603767,
      "learning_rate": 0.0001819988194958146,
      "loss": 46.0,
      "step": 590
    },
    {
      "epoch": 0.08070738452084258,
      "grad_norm": 0.000875883677508682,
      "learning_rate": 0.00018193863423928742,
      "loss": 46.0,
      "step": 591
    },
    {
      "epoch": 0.08084394523915196,
      "grad_norm": 0.0007616846705786884,
      "learning_rate": 0.0001818783585249543,
      "loss": 46.0,
      "step": 592
    },
    {
      "epoch": 0.08098050595746134,
      "grad_norm": 0.0017507924931123853,
      "learning_rate": 0.00018181799241935787,
      "loss": 46.0,
      "step": 593
    },
    {
      "epoch": 0.08111706667577072,
      "grad_norm": 0.0015062005259096622,
      "learning_rate": 0.00018175753598914047,
      "loss": 46.0,
      "step": 594
    },
    {
      "epoch": 0.0812536273940801,
      "grad_norm": 0.0009979240130633116,
      "learning_rate": 0.0001816969893010442,
      "loss": 46.0,
      "step": 595
    },
    {
      "epoch": 0.08139018811238947,
      "grad_norm": 0.0014799052150920033,
      "learning_rate": 0.00018163635242191085,
      "loss": 46.0,
      "step": 596
    },
    {
      "epoch": 0.08152674883069885,
      "grad_norm": 0.002407307270914316,
      "learning_rate": 0.00018157562541868164,
      "loss": 46.0,
      "step": 597
    },
    {
      "epoch": 0.08166330954900823,
      "grad_norm": 0.001063771778717637,
      "learning_rate": 0.00018151480835839741,
      "loss": 46.0,
      "step": 598
    },
    {
      "epoch": 0.08179987026731761,
      "grad_norm": 0.00132046639919281,
      "learning_rate": 0.0001814539013081984,
      "loss": 46.0,
      "step": 599
    },
    {
      "epoch": 0.08193643098562699,
      "grad_norm": 0.001031374093145132,
      "learning_rate": 0.00018139290433532416,
      "loss": 46.0,
      "step": 600
    },
    {
      "epoch": 0.08193643098562699,
      "eval_loss": 11.5,
      "eval_runtime": 20.7447,
      "eval_samples_per_second": 148.665,
      "eval_steps_per_second": 74.332,
      "step": 600
    },
    {
      "epoch": 0.08207299170393637,
      "grad_norm": 0.0006209348211996257,
      "learning_rate": 0.00018133181750711348,
      "loss": 46.0,
      "step": 601
    },
    {
      "epoch": 0.08220955242224574,
      "grad_norm": 0.0009648207924328744,
      "learning_rate": 0.00018127064089100447,
      "loss": 46.0,
      "step": 602
    },
    {
      "epoch": 0.08234611314055512,
      "grad_norm": 0.0010155495256185532,
      "learning_rate": 0.00018120937455453424,
      "loss": 46.0,
      "step": 603
    },
    {
      "epoch": 0.0824826738588645,
      "grad_norm": 0.0008265697979368269,
      "learning_rate": 0.000181148018565339,
      "loss": 46.0,
      "step": 604
    },
    {
      "epoch": 0.08261923457717388,
      "grad_norm": 0.0006557560409419239,
      "learning_rate": 0.00018108657299115396,
      "loss": 46.0,
      "step": 605
    },
    {
      "epoch": 0.08275579529548326,
      "grad_norm": 0.0003027521597687155,
      "learning_rate": 0.0001810250378998132,
      "loss": 46.0,
      "step": 606
    },
    {
      "epoch": 0.08289235601379263,
      "grad_norm": 0.00038604583824053407,
      "learning_rate": 0.00018096341335924955,
      "loss": 46.0,
      "step": 607
    },
    {
      "epoch": 0.08302891673210201,
      "grad_norm": 0.0011505828006193042,
      "learning_rate": 0.00018090169943749476,
      "loss": 46.0,
      "step": 608
    },
    {
      "epoch": 0.08316547745041139,
      "grad_norm": 0.00021457420371007174,
      "learning_rate": 0.00018083989620267907,
      "loss": 46.0,
      "step": 609
    },
    {
      "epoch": 0.08330203816872077,
      "grad_norm": 0.000474292115541175,
      "learning_rate": 0.0001807780037230315,
      "loss": 46.0,
      "step": 610
    },
    {
      "epoch": 0.08343859888703015,
      "grad_norm": 0.00048646898358128965,
      "learning_rate": 0.00018071602206687942,
      "loss": 46.0,
      "step": 611
    },
    {
      "epoch": 0.08357515960533952,
      "grad_norm": 0.0005354878958314657,
      "learning_rate": 0.00018065395130264876,
      "loss": 46.0,
      "step": 612
    },
    {
      "epoch": 0.0837117203236489,
      "grad_norm": 0.00048499630065634847,
      "learning_rate": 0.00018059179149886378,
      "loss": 46.0,
      "step": 613
    },
    {
      "epoch": 0.08384828104195828,
      "grad_norm": 0.0008654086268506944,
      "learning_rate": 0.00018052954272414706,
      "loss": 46.0,
      "step": 614
    },
    {
      "epoch": 0.08398484176026766,
      "grad_norm": 0.0005253584822639823,
      "learning_rate": 0.0001804672050472194,
      "loss": 46.0,
      "step": 615
    },
    {
      "epoch": 0.08412140247857704,
      "grad_norm": 0.0017661650199443102,
      "learning_rate": 0.0001804047785368997,
      "loss": 46.0,
      "step": 616
    },
    {
      "epoch": 0.08425796319688642,
      "grad_norm": 0.0003864025929942727,
      "learning_rate": 0.00018034226326210496,
      "loss": 46.0,
      "step": 617
    },
    {
      "epoch": 0.0843945239151958,
      "grad_norm": 0.000856466474942863,
      "learning_rate": 0.00018027965929185024,
      "loss": 46.0,
      "step": 618
    },
    {
      "epoch": 0.08453108463350517,
      "grad_norm": 0.0004072580486536026,
      "learning_rate": 0.00018021696669524842,
      "loss": 46.0,
      "step": 619
    },
    {
      "epoch": 0.08466764535181455,
      "grad_norm": 0.0010099663631990552,
      "learning_rate": 0.0001801541855415102,
      "loss": 46.0,
      "step": 620
    },
    {
      "epoch": 0.08480420607012393,
      "grad_norm": 0.001016309019178152,
      "learning_rate": 0.00018009131589994418,
      "loss": 46.0,
      "step": 621
    },
    {
      "epoch": 0.0849407667884333,
      "grad_norm": 0.001154162921011448,
      "learning_rate": 0.00018002835783995652,
      "loss": 46.0,
      "step": 622
    },
    {
      "epoch": 0.08507732750674268,
      "grad_norm": 0.0006390147027559578,
      "learning_rate": 0.00017996531143105106,
      "loss": 46.0,
      "step": 623
    },
    {
      "epoch": 0.08521388822505206,
      "grad_norm": 0.0012196438619866967,
      "learning_rate": 0.00017990217674282915,
      "loss": 46.0,
      "step": 624
    },
    {
      "epoch": 0.08535044894336144,
      "grad_norm": 0.0003661528753582388,
      "learning_rate": 0.0001798389538449896,
      "loss": 46.0,
      "step": 625
    },
    {
      "epoch": 0.08548700966167082,
      "grad_norm": 0.0006461184821091592,
      "learning_rate": 0.0001797756428073286,
      "loss": 46.0,
      "step": 626
    },
    {
      "epoch": 0.0856235703799802,
      "grad_norm": 0.0010678149992600083,
      "learning_rate": 0.00017971224369973964,
      "loss": 46.0,
      "step": 627
    },
    {
      "epoch": 0.08576013109828957,
      "grad_norm": 0.0006297577056102455,
      "learning_rate": 0.00017964875659221344,
      "loss": 46.0,
      "step": 628
    },
    {
      "epoch": 0.08589669181659895,
      "grad_norm": 0.000396767514757812,
      "learning_rate": 0.00017958518155483788,
      "loss": 46.0,
      "step": 629
    },
    {
      "epoch": 0.08603325253490833,
      "grad_norm": 0.0011105970479547977,
      "learning_rate": 0.00017952151865779792,
      "loss": 46.0,
      "step": 630
    },
    {
      "epoch": 0.08616981325321771,
      "grad_norm": 0.0012717852368950844,
      "learning_rate": 0.00017945776797137543,
      "loss": 46.0,
      "step": 631
    },
    {
      "epoch": 0.08630637397152709,
      "grad_norm": 0.0007417348097078502,
      "learning_rate": 0.00017939392956594933,
      "loss": 46.0,
      "step": 632
    },
    {
      "epoch": 0.08644293468983646,
      "grad_norm": 0.00036522196023724973,
      "learning_rate": 0.00017933000351199533,
      "loss": 46.0,
      "step": 633
    },
    {
      "epoch": 0.08657949540814584,
      "grad_norm": 0.0013521965593099594,
      "learning_rate": 0.00017926598988008582,
      "loss": 46.0,
      "step": 634
    },
    {
      "epoch": 0.08671605612645522,
      "grad_norm": 0.0007052735309116542,
      "learning_rate": 0.00017920188874089,
      "loss": 46.0,
      "step": 635
    },
    {
      "epoch": 0.0868526168447646,
      "grad_norm": 0.0010762631427496672,
      "learning_rate": 0.00017913770016517354,
      "loss": 46.0,
      "step": 636
    },
    {
      "epoch": 0.08698917756307398,
      "grad_norm": 0.002226311946287751,
      "learning_rate": 0.0001790734242237988,
      "loss": 46.0,
      "step": 637
    },
    {
      "epoch": 0.08712573828138336,
      "grad_norm": 0.004666191525757313,
      "learning_rate": 0.00017900906098772444,
      "loss": 46.0,
      "step": 638
    },
    {
      "epoch": 0.08726229899969273,
      "grad_norm": 0.0010003356728702784,
      "learning_rate": 0.00017894461052800557,
      "loss": 46.0,
      "step": 639
    },
    {
      "epoch": 0.08739885971800211,
      "grad_norm": 0.0011451984755694866,
      "learning_rate": 0.00017888007291579357,
      "loss": 46.0,
      "step": 640
    },
    {
      "epoch": 0.08753542043631149,
      "grad_norm": 0.0011838976060971618,
      "learning_rate": 0.000178815448222336,
      "loss": 46.0,
      "step": 641
    },
    {
      "epoch": 0.08767198115462087,
      "grad_norm": 0.0011408502468839288,
      "learning_rate": 0.0001787507365189767,
      "loss": 46.0,
      "step": 642
    },
    {
      "epoch": 0.08780854187293025,
      "grad_norm": 0.0007302387966774404,
      "learning_rate": 0.00017868593787715535,
      "loss": 46.0,
      "step": 643
    },
    {
      "epoch": 0.08794510259123962,
      "grad_norm": 0.0010645872680470347,
      "learning_rate": 0.00017862105236840777,
      "loss": 46.0,
      "step": 644
    },
    {
      "epoch": 0.088081663309549,
      "grad_norm": 0.0014955222140997648,
      "learning_rate": 0.00017855608006436558,
      "loss": 46.0,
      "step": 645
    },
    {
      "epoch": 0.08821822402785838,
      "grad_norm": 0.0011010526213794947,
      "learning_rate": 0.0001784910210367563,
      "loss": 46.0,
      "step": 646
    },
    {
      "epoch": 0.08835478474616776,
      "grad_norm": 0.0005369166028685868,
      "learning_rate": 0.00017842587535740314,
      "loss": 46.0,
      "step": 647
    },
    {
      "epoch": 0.08849134546447714,
      "grad_norm": 0.0007034659502096474,
      "learning_rate": 0.00017836064309822503,
      "loss": 46.0,
      "step": 648
    },
    {
      "epoch": 0.08862790618278653,
      "grad_norm": 0.0008996776887215674,
      "learning_rate": 0.00017829532433123635,
      "loss": 46.0,
      "step": 649
    },
    {
      "epoch": 0.0887644669010959,
      "grad_norm": 0.001349107245914638,
      "learning_rate": 0.00017822991912854713,
      "loss": 46.0,
      "step": 650
    },
    {
      "epoch": 0.08890102761940528,
      "grad_norm": 0.00062900735065341,
      "learning_rate": 0.00017816442756236276,
      "loss": 46.0,
      "step": 651
    },
    {
      "epoch": 0.08903758833771466,
      "grad_norm": 0.000961163139436394,
      "learning_rate": 0.00017809884970498396,
      "loss": 46.0,
      "step": 652
    },
    {
      "epoch": 0.08917414905602404,
      "grad_norm": 0.0008951184572651982,
      "learning_rate": 0.00017803318562880673,
      "loss": 46.0,
      "step": 653
    },
    {
      "epoch": 0.08931070977433342,
      "grad_norm": 0.000987289589829743,
      "learning_rate": 0.00017796743540632223,
      "loss": 46.0,
      "step": 654
    },
    {
      "epoch": 0.0894472704926428,
      "grad_norm": 0.0005511721828952432,
      "learning_rate": 0.0001779015991101168,
      "loss": 46.0,
      "step": 655
    },
    {
      "epoch": 0.08958383121095218,
      "grad_norm": 0.0008138107368722558,
      "learning_rate": 0.00017783567681287166,
      "loss": 46.0,
      "step": 656
    },
    {
      "epoch": 0.08972039192926155,
      "grad_norm": 0.0005222151521593332,
      "learning_rate": 0.00017776966858736314,
      "loss": 46.0,
      "step": 657
    },
    {
      "epoch": 0.08985695264757093,
      "grad_norm": 0.0005912959459237754,
      "learning_rate": 0.00017770357450646232,
      "loss": 46.0,
      "step": 658
    },
    {
      "epoch": 0.08999351336588031,
      "grad_norm": 0.00042330275755375624,
      "learning_rate": 0.00017763739464313506,
      "loss": 46.0,
      "step": 659
    },
    {
      "epoch": 0.09013007408418969,
      "grad_norm": 0.0006147885578684509,
      "learning_rate": 0.000177571129070442,
      "loss": 46.0,
      "step": 660
    },
    {
      "epoch": 0.09026663480249907,
      "grad_norm": 0.0013564558466896415,
      "learning_rate": 0.00017750477786153832,
      "loss": 46.0,
      "step": 661
    },
    {
      "epoch": 0.09040319552080844,
      "grad_norm": 0.0008140000863932073,
      "learning_rate": 0.0001774383410896738,
      "loss": 46.0,
      "step": 662
    },
    {
      "epoch": 0.09053975623911782,
      "grad_norm": 0.0005956863751634955,
      "learning_rate": 0.00017737181882819262,
      "loss": 46.0,
      "step": 663
    },
    {
      "epoch": 0.0906763169574272,
      "grad_norm": 0.0005575847462750971,
      "learning_rate": 0.0001773052111505334,
      "loss": 46.0,
      "step": 664
    },
    {
      "epoch": 0.09081287767573658,
      "grad_norm": 0.00038412457797676325,
      "learning_rate": 0.00017723851813022901,
      "loss": 46.0,
      "step": 665
    },
    {
      "epoch": 0.09094943839404596,
      "grad_norm": 0.0009578867466188967,
      "learning_rate": 0.00017717173984090658,
      "loss": 46.0,
      "step": 666
    },
    {
      "epoch": 0.09108599911235533,
      "grad_norm": 0.0004775691486429423,
      "learning_rate": 0.00017710487635628735,
      "loss": 46.0,
      "step": 667
    },
    {
      "epoch": 0.09122255983066471,
      "grad_norm": 0.0006319622043520212,
      "learning_rate": 0.00017703792775018655,
      "loss": 46.0,
      "step": 668
    },
    {
      "epoch": 0.09135912054897409,
      "grad_norm": 0.0006505327764898539,
      "learning_rate": 0.0001769708940965135,
      "loss": 46.0,
      "step": 669
    },
    {
      "epoch": 0.09149568126728347,
      "grad_norm": 0.00035890881554223597,
      "learning_rate": 0.00017690377546927133,
      "loss": 46.0,
      "step": 670
    },
    {
      "epoch": 0.09163224198559285,
      "grad_norm": 0.0005791863077320158,
      "learning_rate": 0.000176836571942557,
      "loss": 46.0,
      "step": 671
    },
    {
      "epoch": 0.09176880270390222,
      "grad_norm": 0.0005439603119157255,
      "learning_rate": 0.00017676928359056123,
      "loss": 46.0,
      "step": 672
    },
    {
      "epoch": 0.0919053634222116,
      "grad_norm": 0.0006497172289527953,
      "learning_rate": 0.0001767019104875683,
      "loss": 46.0,
      "step": 673
    },
    {
      "epoch": 0.09204192414052098,
      "grad_norm": 0.0004997221985831857,
      "learning_rate": 0.00017663445270795611,
      "loss": 46.0,
      "step": 674
    },
    {
      "epoch": 0.09217848485883036,
      "grad_norm": 0.0010348627110943198,
      "learning_rate": 0.0001765669103261961,
      "loss": 46.0,
      "step": 675
    },
    {
      "epoch": 0.09231504557713974,
      "grad_norm": 0.0006982755148783326,
      "learning_rate": 0.00017649928341685297,
      "loss": 46.0,
      "step": 676
    },
    {
      "epoch": 0.09245160629544912,
      "grad_norm": 0.0008973072981461883,
      "learning_rate": 0.00017643157205458483,
      "loss": 46.0,
      "step": 677
    },
    {
      "epoch": 0.0925881670137585,
      "grad_norm": 0.0009211792494170368,
      "learning_rate": 0.00017636377631414303,
      "loss": 46.0,
      "step": 678
    },
    {
      "epoch": 0.09272472773206787,
      "grad_norm": 0.0013491098070517182,
      "learning_rate": 0.00017629589627037203,
      "loss": 46.0,
      "step": 679
    },
    {
      "epoch": 0.09286128845037725,
      "grad_norm": 0.0011835723416879773,
      "learning_rate": 0.00017622793199820934,
      "loss": 46.0,
      "step": 680
    },
    {
      "epoch": 0.09299784916868663,
      "grad_norm": 0.0003937036672141403,
      "learning_rate": 0.0001761598835726855,
      "loss": 46.0,
      "step": 681
    },
    {
      "epoch": 0.093134409886996,
      "grad_norm": 0.00029390319832600653,
      "learning_rate": 0.00017609175106892395,
      "loss": 46.0,
      "step": 682
    },
    {
      "epoch": 0.09327097060530538,
      "grad_norm": 0.0005982140428386629,
      "learning_rate": 0.00017602353456214095,
      "loss": 46.0,
      "step": 683
    },
    {
      "epoch": 0.09340753132361476,
      "grad_norm": 0.0007088780985213816,
      "learning_rate": 0.00017595523412764549,
      "loss": 46.0,
      "step": 684
    },
    {
      "epoch": 0.09354409204192414,
      "grad_norm": 0.000541395100299269,
      "learning_rate": 0.0001758868498408392,
      "loss": 46.0,
      "step": 685
    },
    {
      "epoch": 0.09368065276023352,
      "grad_norm": 0.0010750001529231668,
      "learning_rate": 0.0001758183817772163,
      "loss": 46.0,
      "step": 686
    },
    {
      "epoch": 0.0938172134785429,
      "grad_norm": 0.0009917879942804575,
      "learning_rate": 0.00017574983001236345,
      "loss": 46.0,
      "step": 687
    },
    {
      "epoch": 0.09395377419685227,
      "grad_norm": 0.0007594460621476173,
      "learning_rate": 0.00017568119462195978,
      "loss": 46.0,
      "step": 688
    },
    {
      "epoch": 0.09409033491516165,
      "grad_norm": 0.0013289398048073053,
      "learning_rate": 0.00017561247568177672,
      "loss": 46.0,
      "step": 689
    },
    {
      "epoch": 0.09422689563347103,
      "grad_norm": 0.002443774603307247,
      "learning_rate": 0.00017554367326767792,
      "loss": 46.0,
      "step": 690
    },
    {
      "epoch": 0.09436345635178041,
      "grad_norm": 0.000834045116789639,
      "learning_rate": 0.0001754747874556192,
      "loss": 46.0,
      "step": 691
    },
    {
      "epoch": 0.09450001707008979,
      "grad_norm": 0.0008974446100182831,
      "learning_rate": 0.0001754058183216484,
      "loss": 46.0,
      "step": 692
    },
    {
      "epoch": 0.09463657778839916,
      "grad_norm": 0.0006684563704766333,
      "learning_rate": 0.00017533676594190544,
      "loss": 46.0,
      "step": 693
    },
    {
      "epoch": 0.09477313850670854,
      "grad_norm": 0.0005444415146484971,
      "learning_rate": 0.00017526763039262206,
      "loss": 46.0,
      "step": 694
    },
    {
      "epoch": 0.09490969922501792,
      "grad_norm": 0.00041295934352092445,
      "learning_rate": 0.00017519841175012184,
      "loss": 46.0,
      "step": 695
    },
    {
      "epoch": 0.0950462599433273,
      "grad_norm": 0.0014025474665686488,
      "learning_rate": 0.0001751291100908201,
      "loss": 46.0,
      "step": 696
    },
    {
      "epoch": 0.09518282066163668,
      "grad_norm": 0.0016710846684873104,
      "learning_rate": 0.0001750597254912238,
      "loss": 46.0,
      "step": 697
    },
    {
      "epoch": 0.09531938137994606,
      "grad_norm": 0.002275792183354497,
      "learning_rate": 0.00017499025802793146,
      "loss": 46.0,
      "step": 698
    },
    {
      "epoch": 0.09545594209825543,
      "grad_norm": 0.001069681253284216,
      "learning_rate": 0.0001749207077776331,
      "loss": 46.0,
      "step": 699
    },
    {
      "epoch": 0.09559250281656481,
      "grad_norm": 0.0005686444346792996,
      "learning_rate": 0.00017485107481711012,
      "loss": 46.0,
      "step": 700
    },
    {
      "epoch": 0.09572906353487419,
      "grad_norm": 0.0004446564707905054,
      "learning_rate": 0.00017478135922323522,
      "loss": 46.0,
      "step": 701
    },
    {
      "epoch": 0.09586562425318357,
      "grad_norm": 0.0005210356903262436,
      "learning_rate": 0.00017471156107297232,
      "loss": 46.0,
      "step": 702
    },
    {
      "epoch": 0.09600218497149295,
      "grad_norm": 0.0006958620506338775,
      "learning_rate": 0.00017464168044337654,
      "loss": 46.0,
      "step": 703
    },
    {
      "epoch": 0.09613874568980232,
      "grad_norm": 0.000465748249553144,
      "learning_rate": 0.00017457171741159394,
      "loss": 46.0,
      "step": 704
    },
    {
      "epoch": 0.0962753064081117,
      "grad_norm": 0.0003542457125149667,
      "learning_rate": 0.0001745016720548617,
      "loss": 46.0,
      "step": 705
    },
    {
      "epoch": 0.09641186712642108,
      "grad_norm": 0.0006130662513896823,
      "learning_rate": 0.00017443154445050775,
      "loss": 46.0,
      "step": 706
    },
    {
      "epoch": 0.09654842784473046,
      "grad_norm": 0.0005357970949262381,
      "learning_rate": 0.00017436133467595087,
      "loss": 46.0,
      "step": 707
    },
    {
      "epoch": 0.09668498856303984,
      "grad_norm": 0.0003605932288337499,
      "learning_rate": 0.00017429104280870057,
      "loss": 46.0,
      "step": 708
    },
    {
      "epoch": 0.09682154928134921,
      "grad_norm": 0.0004822358023375273,
      "learning_rate": 0.00017422066892635696,
      "loss": 46.0,
      "step": 709
    },
    {
      "epoch": 0.09695810999965859,
      "grad_norm": 0.000799324014224112,
      "learning_rate": 0.0001741502131066107,
      "loss": 46.0,
      "step": 710
    },
    {
      "epoch": 0.09709467071796797,
      "grad_norm": 0.0005530801718123257,
      "learning_rate": 0.00017407967542724297,
      "loss": 46.0,
      "step": 711
    },
    {
      "epoch": 0.09723123143627735,
      "grad_norm": 0.0008446394931524992,
      "learning_rate": 0.0001740090559661252,
      "loss": 46.0,
      "step": 712
    },
    {
      "epoch": 0.09736779215458673,
      "grad_norm": 0.0004706636827904731,
      "learning_rate": 0.0001739383548012192,
      "loss": 46.0,
      "step": 713
    },
    {
      "epoch": 0.0975043528728961,
      "grad_norm": 0.0003858576819766313,
      "learning_rate": 0.00017386757201057692,
      "loss": 46.0,
      "step": 714
    },
    {
      "epoch": 0.09764091359120548,
      "grad_norm": 0.0006433392409235239,
      "learning_rate": 0.00017379670767234045,
      "loss": 46.0,
      "step": 715
    },
    {
      "epoch": 0.09777747430951486,
      "grad_norm": 0.00046265096170827746,
      "learning_rate": 0.0001737257618647419,
      "loss": 46.0,
      "step": 716
    },
    {
      "epoch": 0.09791403502782425,
      "grad_norm": 0.0004183817654848099,
      "learning_rate": 0.00017365473466610337,
      "loss": 46.0,
      "step": 717
    },
    {
      "epoch": 0.09805059574613363,
      "grad_norm": 0.0005469456664286554,
      "learning_rate": 0.0001735836261548367,
      "loss": 46.0,
      "step": 718
    },
    {
      "epoch": 0.09818715646444301,
      "grad_norm": 0.000383463193429634,
      "learning_rate": 0.00017351243640944362,
      "loss": 46.0,
      "step": 719
    },
    {
      "epoch": 0.09832371718275239,
      "grad_norm": 0.0005470316973514855,
      "learning_rate": 0.00017344116550851543,
      "loss": 46.0,
      "step": 720
    },
    {
      "epoch": 0.09846027790106177,
      "grad_norm": 0.00037759976112283766,
      "learning_rate": 0.00017336981353073314,
      "loss": 46.0,
      "step": 721
    },
    {
      "epoch": 0.09859683861937114,
      "grad_norm": 0.0006073216791264713,
      "learning_rate": 0.00017329838055486717,
      "loss": 46.0,
      "step": 722
    },
    {
      "epoch": 0.09873339933768052,
      "grad_norm": 0.0004972846945747733,
      "learning_rate": 0.00017322686665977737,
      "loss": 46.0,
      "step": 723
    },
    {
      "epoch": 0.0988699600559899,
      "grad_norm": 0.0004591084725689143,
      "learning_rate": 0.00017315527192441298,
      "loss": 46.0,
      "step": 724
    },
    {
      "epoch": 0.09900652077429928,
      "grad_norm": 0.0008169691427610815,
      "learning_rate": 0.00017308359642781242,
      "loss": 46.0,
      "step": 725
    },
    {
      "epoch": 0.09914308149260866,
      "grad_norm": 0.0005359476199373603,
      "learning_rate": 0.00017301184024910333,
      "loss": 46.0,
      "step": 726
    },
    {
      "epoch": 0.09927964221091803,
      "grad_norm": 0.0005213018739596009,
      "learning_rate": 0.0001729400034675024,
      "loss": 46.0,
      "step": 727
    },
    {
      "epoch": 0.09941620292922741,
      "grad_norm": 0.0006647670525126159,
      "learning_rate": 0.00017286808616231522,
      "loss": 46.0,
      "step": 728
    },
    {
      "epoch": 0.09955276364753679,
      "grad_norm": 0.0007033472065813839,
      "learning_rate": 0.00017279608841293639,
      "loss": 46.0,
      "step": 729
    },
    {
      "epoch": 0.09968932436584617,
      "grad_norm": 0.0009473874815739691,
      "learning_rate": 0.00017272401029884933,
      "loss": 46.0,
      "step": 730
    },
    {
      "epoch": 0.09982588508415555,
      "grad_norm": 0.0005871194880455732,
      "learning_rate": 0.00017265185189962608,
      "loss": 46.0,
      "step": 731
    },
    {
      "epoch": 0.09996244580246492,
      "grad_norm": 0.00048681360203772783,
      "learning_rate": 0.00017257961329492728,
      "loss": 46.0,
      "step": 732
    },
    {
      "epoch": 0.1000990065207743,
      "grad_norm": 0.0005745171220041811,
      "learning_rate": 0.00017250729456450234,
      "loss": 46.0,
      "step": 733
    },
    {
      "epoch": 0.10023556723908368,
      "grad_norm": 0.00050855748122558,
      "learning_rate": 0.0001724348957881889,
      "loss": 46.0,
      "step": 734
    },
    {
      "epoch": 0.10037212795739306,
      "grad_norm": 0.00042842066613957286,
      "learning_rate": 0.00017236241704591304,
      "loss": 46.0,
      "step": 735
    },
    {
      "epoch": 0.10050868867570244,
      "grad_norm": 0.0010201798286288977,
      "learning_rate": 0.00017228985841768915,
      "loss": 46.0,
      "step": 736
    },
    {
      "epoch": 0.10064524939401182,
      "grad_norm": 0.0005850894376635551,
      "learning_rate": 0.00017221721998361976,
      "loss": 46.0,
      "step": 737
    },
    {
      "epoch": 0.1007818101123212,
      "grad_norm": 0.0009064356563612819,
      "learning_rate": 0.00017214450182389559,
      "loss": 46.0,
      "step": 738
    },
    {
      "epoch": 0.10091837083063057,
      "grad_norm": 0.0015590882394462824,
      "learning_rate": 0.00017207170401879526,
      "loss": 46.0,
      "step": 739
    },
    {
      "epoch": 0.10105493154893995,
      "grad_norm": 0.0011711895931512117,
      "learning_rate": 0.00017199882664868538,
      "loss": 46.0,
      "step": 740
    },
    {
      "epoch": 0.10119149226724933,
      "grad_norm": 0.0029380624182522297,
      "learning_rate": 0.00017192586979402044,
      "loss": 46.0,
      "step": 741
    },
    {
      "epoch": 0.1013280529855587,
      "grad_norm": 0.0007488722330890596,
      "learning_rate": 0.0001718528335353426,
      "loss": 46.0,
      "step": 742
    },
    {
      "epoch": 0.10146461370386808,
      "grad_norm": 0.0006716151256114244,
      "learning_rate": 0.00017177971795328167,
      "loss": 46.0,
      "step": 743
    },
    {
      "epoch": 0.10160117442217746,
      "grad_norm": 0.0008320304332301021,
      "learning_rate": 0.00017170652312855514,
      "loss": 46.0,
      "step": 744
    },
    {
      "epoch": 0.10173773514048684,
      "grad_norm": 0.002169104292988777,
      "learning_rate": 0.00017163324914196783,
      "loss": 46.0,
      "step": 745
    },
    {
      "epoch": 0.10187429585879622,
      "grad_norm": 0.0008557327091693878,
      "learning_rate": 0.00017155989607441213,
      "loss": 46.0,
      "step": 746
    },
    {
      "epoch": 0.1020108565771056,
      "grad_norm": 0.0009351296466775239,
      "learning_rate": 0.00017148646400686753,
      "loss": 46.0,
      "step": 747
    },
    {
      "epoch": 0.10214741729541497,
      "grad_norm": 0.0019438541494309902,
      "learning_rate": 0.00017141295302040095,
      "loss": 46.0,
      "step": 748
    },
    {
      "epoch": 0.10228397801372435,
      "grad_norm": 0.0014289816608652472,
      "learning_rate": 0.00017133936319616626,
      "loss": 46.0,
      "step": 749
    },
    {
      "epoch": 0.10242053873203373,
      "grad_norm": 0.003017352195456624,
      "learning_rate": 0.00017126569461540443,
      "loss": 46.0,
      "step": 750
    },
    {
      "epoch": 0.10255709945034311,
      "grad_norm": 0.0006331245531328022,
      "learning_rate": 0.00017119194735944337,
      "loss": 46.0,
      "step": 751
    },
    {
      "epoch": 0.10269366016865249,
      "grad_norm": 0.0009659952484071255,
      "learning_rate": 0.0001711181215096979,
      "loss": 46.0,
      "step": 752
    },
    {
      "epoch": 0.10283022088696187,
      "grad_norm": 0.0003564142098184675,
      "learning_rate": 0.00017104421714766947,
      "loss": 46.0,
      "step": 753
    },
    {
      "epoch": 0.10296678160527124,
      "grad_norm": 0.0004242552968207747,
      "learning_rate": 0.00017097023435494636,
      "loss": 46.0,
      "step": 754
    },
    {
      "epoch": 0.10310334232358062,
      "grad_norm": 0.00037972754216752946,
      "learning_rate": 0.00017089617321320335,
      "loss": 46.0,
      "step": 755
    },
    {
      "epoch": 0.10323990304189,
      "grad_norm": 0.00022272802016232163,
      "learning_rate": 0.0001708220338042017,
      "loss": 46.0,
      "step": 756
    },
    {
      "epoch": 0.10337646376019938,
      "grad_norm": 0.0004986607236787677,
      "learning_rate": 0.0001707478162097891,
      "loss": 46.0,
      "step": 757
    },
    {
      "epoch": 0.10351302447850876,
      "grad_norm": 0.0006160014308989048,
      "learning_rate": 0.00017067352051189965,
      "loss": 46.0,
      "step": 758
    },
    {
      "epoch": 0.10364958519681813,
      "grad_norm": 0.0006992130074650049,
      "learning_rate": 0.0001705991467925535,
      "loss": 46.0,
      "step": 759
    },
    {
      "epoch": 0.10378614591512751,
      "grad_norm": 0.0003626852994784713,
      "learning_rate": 0.000170524695133857,
      "loss": 46.0,
      "step": 760
    },
    {
      "epoch": 0.10392270663343689,
      "grad_norm": 0.0008579789428040385,
      "learning_rate": 0.0001704501656180026,
      "loss": 46.0,
      "step": 761
    },
    {
      "epoch": 0.10405926735174627,
      "grad_norm": 0.0009895421098917723,
      "learning_rate": 0.00017037555832726865,
      "loss": 46.0,
      "step": 762
    },
    {
      "epoch": 0.10419582807005565,
      "grad_norm": 0.0005099592381156981,
      "learning_rate": 0.00017030087334401936,
      "loss": 46.0,
      "step": 763
    },
    {
      "epoch": 0.10433238878836502,
      "grad_norm": 0.0006343593122437596,
      "learning_rate": 0.00017022611075070474,
      "loss": 46.0,
      "step": 764
    },
    {
      "epoch": 0.1044689495066744,
      "grad_norm": 0.0002918439276982099,
      "learning_rate": 0.00017015127062986043,
      "loss": 46.0,
      "step": 765
    },
    {
      "epoch": 0.10460551022498378,
      "grad_norm": 0.00021448293409775943,
      "learning_rate": 0.00017007635306410775,
      "loss": 46.0,
      "step": 766
    },
    {
      "epoch": 0.10474207094329316,
      "grad_norm": 0.0003549446410033852,
      "learning_rate": 0.00017000135813615338,
      "loss": 46.0,
      "step": 767
    },
    {
      "epoch": 0.10487863166160254,
      "grad_norm": 0.0008276899461634457,
      "learning_rate": 0.00016992628592878956,
      "loss": 46.0,
      "step": 768
    },
    {
      "epoch": 0.10501519237991191,
      "grad_norm": 0.0006797234527766705,
      "learning_rate": 0.00016985113652489374,
      "loss": 46.0,
      "step": 769
    },
    {
      "epoch": 0.10515175309822129,
      "grad_norm": 0.0012585432268679142,
      "learning_rate": 0.00016977591000742854,
      "loss": 46.0,
      "step": 770
    },
    {
      "epoch": 0.10528831381653067,
      "grad_norm": 0.0007930306601338089,
      "learning_rate": 0.0001697006064594419,
      "loss": 46.0,
      "step": 771
    },
    {
      "epoch": 0.10542487453484005,
      "grad_norm": 0.0008263712516054511,
      "learning_rate": 0.00016962522596406662,
      "loss": 46.0,
      "step": 772
    },
    {
      "epoch": 0.10556143525314943,
      "grad_norm": 0.0004895622842013836,
      "learning_rate": 0.00016954976860452054,
      "loss": 46.0,
      "step": 773
    },
    {
      "epoch": 0.1056979959714588,
      "grad_norm": 0.000630986993201077,
      "learning_rate": 0.00016947423446410636,
      "loss": 46.0,
      "step": 774
    },
    {
      "epoch": 0.10583455668976818,
      "grad_norm": 0.0006404675077646971,
      "learning_rate": 0.00016939862362621146,
      "loss": 46.0,
      "step": 775
    },
    {
      "epoch": 0.10597111740807756,
      "grad_norm": 0.0023967279121279716,
      "learning_rate": 0.00016932293617430796,
      "loss": 46.0,
      "step": 776
    },
    {
      "epoch": 0.10610767812638694,
      "grad_norm": 0.0005658793961629272,
      "learning_rate": 0.0001692471721919526,
      "loss": 46.0,
      "step": 777
    },
    {
      "epoch": 0.10624423884469632,
      "grad_norm": 0.0009352597990073264,
      "learning_rate": 0.00016917133176278648,
      "loss": 46.0,
      "step": 778
    },
    {
      "epoch": 0.1063807995630057,
      "grad_norm": 0.0011438351357355714,
      "learning_rate": 0.00016909541497053522,
      "loss": 46.0,
      "step": 779
    },
    {
      "epoch": 0.10651736028131507,
      "grad_norm": 0.0010559734655544162,
      "learning_rate": 0.00016901942189900867,
      "loss": 46.0,
      "step": 780
    },
    {
      "epoch": 0.10665392099962445,
      "grad_norm": 0.0005015085334889591,
      "learning_rate": 0.0001689433526321009,
      "loss": 46.0,
      "step": 781
    },
    {
      "epoch": 0.10679048171793383,
      "grad_norm": 0.0003511472314130515,
      "learning_rate": 0.0001688672072537902,
      "loss": 46.0,
      "step": 782
    },
    {
      "epoch": 0.10692704243624321,
      "grad_norm": 0.000647745851892978,
      "learning_rate": 0.00016879098584813865,
      "loss": 46.0,
      "step": 783
    },
    {
      "epoch": 0.10706360315455259,
      "grad_norm": 0.0014171921648085117,
      "learning_rate": 0.00016871468849929253,
      "loss": 46.0,
      "step": 784
    },
    {
      "epoch": 0.10720016387286196,
      "grad_norm": 0.0005998522392474115,
      "learning_rate": 0.00016863831529148176,
      "loss": 46.0,
      "step": 785
    },
    {
      "epoch": 0.10733672459117136,
      "grad_norm": 0.0008481833501718938,
      "learning_rate": 0.00016856186630902014,
      "loss": 46.0,
      "step": 786
    },
    {
      "epoch": 0.10747328530948073,
      "grad_norm": 0.001625437056645751,
      "learning_rate": 0.00016848534163630498,
      "loss": 46.0,
      "step": 787
    },
    {
      "epoch": 0.10760984602779011,
      "grad_norm": 0.004598119296133518,
      "learning_rate": 0.0001684087413578173,
      "loss": 46.0,
      "step": 788
    },
    {
      "epoch": 0.10774640674609949,
      "grad_norm": 0.0032096696086227894,
      "learning_rate": 0.00016833206555812153,
      "loss": 46.0,
      "step": 789
    },
    {
      "epoch": 0.10788296746440887,
      "grad_norm": 0.00042951159412041306,
      "learning_rate": 0.00016825531432186543,
      "loss": 46.0,
      "step": 790
    },
    {
      "epoch": 0.10801952818271825,
      "grad_norm": 0.0017844205722212791,
      "learning_rate": 0.00016817848773378007,
      "loss": 46.0,
      "step": 791
    },
    {
      "epoch": 0.10815608890102762,
      "grad_norm": 0.0006350985495373607,
      "learning_rate": 0.00016810158587867973,
      "loss": 46.0,
      "step": 792
    },
    {
      "epoch": 0.108292649619337,
      "grad_norm": 0.0009360946132801473,
      "learning_rate": 0.00016802460884146175,
      "loss": 46.0,
      "step": 793
    },
    {
      "epoch": 0.10842921033764638,
      "grad_norm": 0.00030124749173410237,
      "learning_rate": 0.0001679475567071065,
      "loss": 46.0,
      "step": 794
    },
    {
      "epoch": 0.10856577105595576,
      "grad_norm": 0.00164910894818604,
      "learning_rate": 0.0001678704295606772,
      "loss": 46.0,
      "step": 795
    },
    {
      "epoch": 0.10870233177426514,
      "grad_norm": 0.0012204207014292479,
      "learning_rate": 0.00016779322748731995,
      "loss": 46.0,
      "step": 796
    },
    {
      "epoch": 0.10883889249257452,
      "grad_norm": 0.0007130260928533971,
      "learning_rate": 0.0001677159505722635,
      "loss": 46.0,
      "step": 797
    },
    {
      "epoch": 0.1089754532108839,
      "grad_norm": 0.0006258345092646778,
      "learning_rate": 0.0001676385989008193,
      "loss": 46.0,
      "step": 798
    },
    {
      "epoch": 0.10911201392919327,
      "grad_norm": 0.0013600183883681893,
      "learning_rate": 0.00016756117255838128,
      "loss": 46.0,
      "step": 799
    },
    {
      "epoch": 0.10924857464750265,
      "grad_norm": 0.001245712861418724,
      "learning_rate": 0.00016748367163042576,
      "loss": 46.0,
      "step": 800
    },
    {
      "epoch": 0.10938513536581203,
      "grad_norm": 0.00043424879550002515,
      "learning_rate": 0.0001674060962025115,
      "loss": 46.0,
      "step": 801
    },
    {
      "epoch": 0.1095216960841214,
      "grad_norm": 0.00040041119791567326,
      "learning_rate": 0.00016732844636027948,
      "loss": 46.0,
      "step": 802
    },
    {
      "epoch": 0.10965825680243078,
      "grad_norm": 0.00047825041110627353,
      "learning_rate": 0.00016725072218945272,
      "loss": 46.0,
      "step": 803
    },
    {
      "epoch": 0.10979481752074016,
      "grad_norm": 0.0006943688495084643,
      "learning_rate": 0.00016717292377583647,
      "loss": 46.0,
      "step": 804
    },
    {
      "epoch": 0.10993137823904954,
      "grad_norm": 0.00046805053716525435,
      "learning_rate": 0.00016709505120531782,
      "loss": 46.0,
      "step": 805
    },
    {
      "epoch": 0.11006793895735892,
      "grad_norm": 0.001021806849166751,
      "learning_rate": 0.00016701710456386572,
      "loss": 46.0,
      "step": 806
    },
    {
      "epoch": 0.1102044996756683,
      "grad_norm": 0.000839448010083288,
      "learning_rate": 0.000166939083937531,
      "loss": 46.0,
      "step": 807
    },
    {
      "epoch": 0.11034106039397767,
      "grad_norm": 0.0007610208704136312,
      "learning_rate": 0.0001668609894124461,
      "loss": 46.0,
      "step": 808
    },
    {
      "epoch": 0.11047762111228705,
      "grad_norm": 0.0008387729176320136,
      "learning_rate": 0.00016678282107482502,
      "loss": 46.0,
      "step": 809
    },
    {
      "epoch": 0.11061418183059643,
      "grad_norm": 0.0005413633771240711,
      "learning_rate": 0.00016670457901096328,
      "loss": 46.0,
      "step": 810
    },
    {
      "epoch": 0.11075074254890581,
      "grad_norm": 0.0008596319821663201,
      "learning_rate": 0.0001666262633072378,
      "loss": 46.0,
      "step": 811
    },
    {
      "epoch": 0.11088730326721519,
      "grad_norm": 0.0005809023859910667,
      "learning_rate": 0.0001665478740501067,
      "loss": 46.0,
      "step": 812
    },
    {
      "epoch": 0.11102386398552457,
      "grad_norm": 0.0005002027610316873,
      "learning_rate": 0.00016646941132610947,
      "loss": 46.0,
      "step": 813
    },
    {
      "epoch": 0.11116042470383394,
      "grad_norm": 0.0005074172513559461,
      "learning_rate": 0.0001663908752218666,
      "loss": 46.0,
      "step": 814
    },
    {
      "epoch": 0.11129698542214332,
      "grad_norm": 0.00038702471647411585,
      "learning_rate": 0.00016631226582407952,
      "loss": 46.0,
      "step": 815
    },
    {
      "epoch": 0.1114335461404527,
      "grad_norm": 0.0005355363246053457,
      "learning_rate": 0.00016623358321953078,
      "loss": 46.0,
      "step": 816
    },
    {
      "epoch": 0.11157010685876208,
      "grad_norm": 0.000400405318941921,
      "learning_rate": 0.00016615482749508356,
      "loss": 46.0,
      "step": 817
    },
    {
      "epoch": 0.11170666757707146,
      "grad_norm": 0.0003890878870151937,
      "learning_rate": 0.00016607599873768182,
      "loss": 46.0,
      "step": 818
    },
    {
      "epoch": 0.11184322829538083,
      "grad_norm": 0.0006321795517578721,
      "learning_rate": 0.0001659970970343502,
      "loss": 46.0,
      "step": 819
    },
    {
      "epoch": 0.11197978901369021,
      "grad_norm": 0.0007353540859185159,
      "learning_rate": 0.00016591812247219377,
      "loss": 46.0,
      "step": 820
    },
    {
      "epoch": 0.11211634973199959,
      "grad_norm": 0.0012658998603001237,
      "learning_rate": 0.00016583907513839817,
      "loss": 46.0,
      "step": 821
    },
    {
      "epoch": 0.11225291045030897,
      "grad_norm": 0.0012359356041997671,
      "learning_rate": 0.00016575995512022921,
      "loss": 46.0,
      "step": 822
    },
    {
      "epoch": 0.11238947116861835,
      "grad_norm": 0.00024977774592116475,
      "learning_rate": 0.00016568076250503304,
      "loss": 46.0,
      "step": 823
    },
    {
      "epoch": 0.11252603188692772,
      "grad_norm": 0.0007921140058897436,
      "learning_rate": 0.000165601497380236,
      "loss": 46.0,
      "step": 824
    },
    {
      "epoch": 0.1126625926052371,
      "grad_norm": 0.00028611160814762115,
      "learning_rate": 0.00016552215983334437,
      "loss": 46.0,
      "step": 825
    },
    {
      "epoch": 0.11279915332354648,
      "grad_norm": 0.00045781530207023025,
      "learning_rate": 0.00016544274995194448,
      "loss": 46.0,
      "step": 826
    },
    {
      "epoch": 0.11293571404185586,
      "grad_norm": 0.0010054416488856077,
      "learning_rate": 0.0001653632678237024,
      "loss": 46.0,
      "step": 827
    },
    {
      "epoch": 0.11307227476016524,
      "grad_norm": 0.0003318900417070836,
      "learning_rate": 0.00016528371353636406,
      "loss": 46.0,
      "step": 828
    },
    {
      "epoch": 0.11320883547847461,
      "grad_norm": 0.0006165113882161677,
      "learning_rate": 0.00016520408717775507,
      "loss": 46.0,
      "step": 829
    },
    {
      "epoch": 0.11334539619678399,
      "grad_norm": 0.0005957252578809857,
      "learning_rate": 0.00016512438883578044,
      "loss": 46.0,
      "step": 830
    },
    {
      "epoch": 0.11348195691509337,
      "grad_norm": 0.0002892489719670266,
      "learning_rate": 0.00016504461859842486,
      "loss": 46.0,
      "step": 831
    },
    {
      "epoch": 0.11361851763340275,
      "grad_norm": 0.00041660640272311866,
      "learning_rate": 0.00016496477655375227,
      "loss": 46.0,
      "step": 832
    },
    {
      "epoch": 0.11375507835171213,
      "grad_norm": 0.00023521836556028575,
      "learning_rate": 0.00016488486278990586,
      "loss": 46.0,
      "step": 833
    },
    {
      "epoch": 0.1138916390700215,
      "grad_norm": 0.0009512827964499593,
      "learning_rate": 0.00016480487739510807,
      "loss": 46.0,
      "step": 834
    },
    {
      "epoch": 0.11402819978833088,
      "grad_norm": 0.0008759453776292503,
      "learning_rate": 0.00016472482045766043,
      "loss": 46.0,
      "step": 835
    },
    {
      "epoch": 0.11416476050664026,
      "grad_norm": 0.000294568162644282,
      "learning_rate": 0.00016464469206594332,
      "loss": 46.0,
      "step": 836
    },
    {
      "epoch": 0.11430132122494964,
      "grad_norm": 0.0007791619864292443,
      "learning_rate": 0.00016456449230841617,
      "loss": 46.0,
      "step": 837
    },
    {
      "epoch": 0.11443788194325902,
      "grad_norm": 0.0015861823922023177,
      "learning_rate": 0.00016448422127361706,
      "loss": 46.0,
      "step": 838
    },
    {
      "epoch": 0.1145744426615684,
      "grad_norm": 0.0011900209356099367,
      "learning_rate": 0.00016440387905016285,
      "loss": 46.0,
      "step": 839
    },
    {
      "epoch": 0.11471100337987777,
      "grad_norm": 0.0017578421393409371,
      "learning_rate": 0.00016432346572674896,
      "loss": 46.0,
      "step": 840
    },
    {
      "epoch": 0.11484756409818715,
      "grad_norm": 0.0018410708289593458,
      "learning_rate": 0.00016424298139214929,
      "loss": 46.0,
      "step": 841
    },
    {
      "epoch": 0.11498412481649653,
      "grad_norm": 0.00044194411020725965,
      "learning_rate": 0.0001641624261352161,
      "loss": 46.0,
      "step": 842
    },
    {
      "epoch": 0.11512068553480591,
      "grad_norm": 0.0007466517854481936,
      "learning_rate": 0.00016408180004488007,
      "loss": 46.0,
      "step": 843
    },
    {
      "epoch": 0.11525724625311529,
      "grad_norm": 0.0008741529891267419,
      "learning_rate": 0.00016400110321014992,
      "loss": 46.0,
      "step": 844
    },
    {
      "epoch": 0.11539380697142466,
      "grad_norm": 0.0008493126952089369,
      "learning_rate": 0.00016392033572011261,
      "loss": 46.0,
      "step": 845
    },
    {
      "epoch": 0.11553036768973404,
      "grad_norm": 0.0007634422508999705,
      "learning_rate": 0.000163839497663933,
      "loss": 46.0,
      "step": 846
    },
    {
      "epoch": 0.11566692840804342,
      "grad_norm": 0.0005714827566407621,
      "learning_rate": 0.0001637585891308539,
      "loss": 46.0,
      "step": 847
    },
    {
      "epoch": 0.1158034891263528,
      "grad_norm": 0.0008292211568914354,
      "learning_rate": 0.0001636776102101959,
      "loss": 46.0,
      "step": 848
    },
    {
      "epoch": 0.11594004984466218,
      "grad_norm": 0.00044870973215438426,
      "learning_rate": 0.00016359656099135733,
      "loss": 46.0,
      "step": 849
    },
    {
      "epoch": 0.11607661056297155,
      "grad_norm": 0.0012383662397041917,
      "learning_rate": 0.00016351544156381414,
      "loss": 46.0,
      "step": 850
    },
    {
      "epoch": 0.11621317128128093,
      "grad_norm": 0.0004602587141562253,
      "learning_rate": 0.00016343425201711966,
      "loss": 46.0,
      "step": 851
    },
    {
      "epoch": 0.11634973199959031,
      "grad_norm": 0.0005955328815616667,
      "learning_rate": 0.00016335299244090478,
      "loss": 46.0,
      "step": 852
    },
    {
      "epoch": 0.11648629271789969,
      "grad_norm": 0.0005287445383146405,
      "learning_rate": 0.0001632716629248777,
      "loss": 46.0,
      "step": 853
    },
    {
      "epoch": 0.11662285343620908,
      "grad_norm": 0.0004926318651996553,
      "learning_rate": 0.0001631902635588237,
      "loss": 46.0,
      "step": 854
    },
    {
      "epoch": 0.11675941415451846,
      "grad_norm": 0.0010656327940523624,
      "learning_rate": 0.00016310879443260528,
      "loss": 46.0,
      "step": 855
    },
    {
      "epoch": 0.11689597487282784,
      "grad_norm": 0.0005354030872695148,
      "learning_rate": 0.00016302725563616192,
      "loss": 46.0,
      "step": 856
    },
    {
      "epoch": 0.11703253559113722,
      "grad_norm": 0.0005059898248873651,
      "learning_rate": 0.00016294564725951002,
      "loss": 46.0,
      "step": 857
    },
    {
      "epoch": 0.1171690963094466,
      "grad_norm": 0.0004201128613203764,
      "learning_rate": 0.0001628639693927428,
      "loss": 46.0,
      "step": 858
    },
    {
      "epoch": 0.11730565702775597,
      "grad_norm": 0.0003003796737175435,
      "learning_rate": 0.00016278222212603018,
      "loss": 46.0,
      "step": 859
    },
    {
      "epoch": 0.11744221774606535,
      "grad_norm": 0.0005390554433688521,
      "learning_rate": 0.00016270040554961868,
      "loss": 46.0,
      "step": 860
    },
    {
      "epoch": 0.11757877846437473,
      "grad_norm": 0.0015715021872892976,
      "learning_rate": 0.00016261851975383137,
      "loss": 46.0,
      "step": 861
    },
    {
      "epoch": 0.1177153391826841,
      "grad_norm": 0.0010319905122742057,
      "learning_rate": 0.00016253656482906776,
      "loss": 46.0,
      "step": 862
    },
    {
      "epoch": 0.11785189990099348,
      "grad_norm": 0.000347215129295364,
      "learning_rate": 0.0001624545408658036,
      "loss": 46.0,
      "step": 863
    },
    {
      "epoch": 0.11798846061930286,
      "grad_norm": 0.0006791274063289165,
      "learning_rate": 0.00016237244795459086,
      "loss": 46.0,
      "step": 864
    },
    {
      "epoch": 0.11812502133761224,
      "grad_norm": 0.00031977854087017477,
      "learning_rate": 0.00016229028618605775,
      "loss": 46.0,
      "step": 865
    },
    {
      "epoch": 0.11826158205592162,
      "grad_norm": 0.0037054885178804398,
      "learning_rate": 0.00016220805565090836,
      "loss": 46.0,
      "step": 866
    },
    {
      "epoch": 0.118398142774231,
      "grad_norm": 0.0005012017791159451,
      "learning_rate": 0.00016212575643992277,
      "loss": 46.0,
      "step": 867
    },
    {
      "epoch": 0.11853470349254037,
      "grad_norm": 0.00028602650854736567,
      "learning_rate": 0.00016204338864395684,
      "loss": 46.0,
      "step": 868
    },
    {
      "epoch": 0.11867126421084975,
      "grad_norm": 0.0006842486909590662,
      "learning_rate": 0.00016196095235394207,
      "loss": 46.0,
      "step": 869
    },
    {
      "epoch": 0.11880782492915913,
      "grad_norm": 0.000561655790079385,
      "learning_rate": 0.00016187844766088586,
      "loss": 46.0,
      "step": 870
    },
    {
      "epoch": 0.11894438564746851,
      "grad_norm": 0.002418296178802848,
      "learning_rate": 0.00016179587465587077,
      "loss": 46.0,
      "step": 871
    },
    {
      "epoch": 0.11908094636577789,
      "grad_norm": 0.00027192741981707513,
      "learning_rate": 0.00016171323343005498,
      "loss": 46.0,
      "step": 872
    },
    {
      "epoch": 0.11921750708408727,
      "grad_norm": 0.0004957255441695452,
      "learning_rate": 0.0001616305240746719,
      "loss": 46.0,
      "step": 873
    },
    {
      "epoch": 0.11935406780239664,
      "grad_norm": 0.00048530122148804367,
      "learning_rate": 0.00016154774668103027,
      "loss": 46.0,
      "step": 874
    },
    {
      "epoch": 0.11949062852070602,
      "grad_norm": 0.0009217667393386364,
      "learning_rate": 0.0001614649013405138,
      "loss": 46.0,
      "step": 875
    },
    {
      "epoch": 0.1196271892390154,
      "grad_norm": 0.0015625512460246682,
      "learning_rate": 0.0001613819881445813,
      "loss": 46.0,
      "step": 876
    },
    {
      "epoch": 0.11976374995732478,
      "grad_norm": 0.0009254494798369706,
      "learning_rate": 0.00016129900718476637,
      "loss": 46.0,
      "step": 877
    },
    {
      "epoch": 0.11990031067563416,
      "grad_norm": 0.00046171454596333206,
      "learning_rate": 0.00016121595855267767,
      "loss": 46.0,
      "step": 878
    },
    {
      "epoch": 0.12003687139394353,
      "grad_norm": 0.0003148307732772082,
      "learning_rate": 0.0001611328423399983,
      "loss": 46.0,
      "step": 879
    },
    {
      "epoch": 0.12017343211225291,
      "grad_norm": 0.0004730523796752095,
      "learning_rate": 0.00016104965863848617,
      "loss": 46.0,
      "step": 880
    },
    {
      "epoch": 0.12030999283056229,
      "grad_norm": 0.001140785519964993,
      "learning_rate": 0.00016096640753997346,
      "loss": 46.0,
      "step": 881
    },
    {
      "epoch": 0.12044655354887167,
      "grad_norm": 0.0007769656367599964,
      "learning_rate": 0.00016088308913636703,
      "loss": 46.0,
      "step": 882
    },
    {
      "epoch": 0.12058311426718105,
      "grad_norm": 0.000732703018002212,
      "learning_rate": 0.00016079970351964783,
      "loss": 46.0,
      "step": 883
    },
    {
      "epoch": 0.12071967498549042,
      "grad_norm": 0.0007818607264198363,
      "learning_rate": 0.00016071625078187114,
      "loss": 46.0,
      "step": 884
    },
    {
      "epoch": 0.1208562357037998,
      "grad_norm": 0.0006149871041998267,
      "learning_rate": 0.00016063273101516625,
      "loss": 46.0,
      "step": 885
    },
    {
      "epoch": 0.12099279642210918,
      "grad_norm": 0.0008054501377046108,
      "learning_rate": 0.00016054914431173654,
      "loss": 46.0,
      "step": 886
    },
    {
      "epoch": 0.12112935714041856,
      "grad_norm": 0.0008161257137544453,
      "learning_rate": 0.0001604654907638592,
      "loss": 46.0,
      "step": 887
    },
    {
      "epoch": 0.12126591785872794,
      "grad_norm": 0.0030461640562862158,
      "learning_rate": 0.00016038177046388523,
      "loss": 46.0,
      "step": 888
    },
    {
      "epoch": 0.12140247857703731,
      "grad_norm": 0.0007848728564567864,
      "learning_rate": 0.0001602979835042394,
      "loss": 46.0,
      "step": 889
    },
    {
      "epoch": 0.12153903929534669,
      "grad_norm": 0.005675900261849165,
      "learning_rate": 0.00016021412997741993,
      "loss": 46.0,
      "step": 890
    },
    {
      "epoch": 0.12167560001365607,
      "grad_norm": 0.00039349167491309345,
      "learning_rate": 0.0001601302099759987,
      "loss": 46.0,
      "step": 891
    },
    {
      "epoch": 0.12181216073196545,
      "grad_norm": 0.0006075625424273312,
      "learning_rate": 0.00016004622359262085,
      "loss": 46.0,
      "step": 892
    },
    {
      "epoch": 0.12194872145027483,
      "grad_norm": 0.0003772106138058007,
      "learning_rate": 0.0001599621709200048,
      "loss": 46.0,
      "step": 893
    },
    {
      "epoch": 0.1220852821685842,
      "grad_norm": 0.0015227465191856027,
      "learning_rate": 0.00015987805205094227,
      "loss": 46.0,
      "step": 894
    },
    {
      "epoch": 0.12222184288689358,
      "grad_norm": 0.00073139468440786,
      "learning_rate": 0.00015979386707829792,
      "loss": 46.0,
      "step": 895
    },
    {
      "epoch": 0.12235840360520296,
      "grad_norm": 0.0011622250312939286,
      "learning_rate": 0.00015970961609500944,
      "loss": 46.0,
      "step": 896
    },
    {
      "epoch": 0.12249496432351234,
      "grad_norm": 0.001449939445592463,
      "learning_rate": 0.00015962529919408746,
      "loss": 46.0,
      "step": 897
    },
    {
      "epoch": 0.12263152504182172,
      "grad_norm": 0.0005385968834161758,
      "learning_rate": 0.00015954091646861525,
      "loss": 46.0,
      "step": 898
    },
    {
      "epoch": 0.1227680857601311,
      "grad_norm": 0.0007052323780953884,
      "learning_rate": 0.00015945646801174886,
      "loss": 46.0,
      "step": 899
    },
    {
      "epoch": 0.12290464647844047,
      "grad_norm": 0.001713512814603746,
      "learning_rate": 0.0001593719539167169,
      "loss": 46.0,
      "step": 900
    },
    {
      "epoch": 0.12290464647844047,
      "eval_loss": 11.5,
      "eval_runtime": 20.6643,
      "eval_samples_per_second": 149.243,
      "eval_steps_per_second": 74.621,
      "step": 900
    },
    {
      "epoch": 0.12304120719674985,
      "grad_norm": 0.0009241271764039993,
      "learning_rate": 0.00015928737427682032,
      "loss": 46.0,
      "step": 901
    },
    {
      "epoch": 0.12317776791505923,
      "grad_norm": 0.0003521353646647185,
      "learning_rate": 0.00015920272918543257,
      "loss": 46.0,
      "step": 902
    },
    {
      "epoch": 0.12331432863336861,
      "grad_norm": 0.0004476907488424331,
      "learning_rate": 0.00015911801873599933,
      "loss": 46.0,
      "step": 903
    },
    {
      "epoch": 0.12345088935167799,
      "grad_norm": 0.0008625802001915872,
      "learning_rate": 0.00015903324302203836,
      "loss": 46.0,
      "step": 904
    },
    {
      "epoch": 0.12358745006998736,
      "grad_norm": 0.000347345310728997,
      "learning_rate": 0.00015894840213713952,
      "loss": 46.0,
      "step": 905
    },
    {
      "epoch": 0.12372401078829674,
      "grad_norm": 0.00042961168219335377,
      "learning_rate": 0.0001588634961749646,
      "loss": 46.0,
      "step": 906
    },
    {
      "epoch": 0.12386057150660612,
      "grad_norm": 0.0005479567334987223,
      "learning_rate": 0.00015877852522924732,
      "loss": 46.0,
      "step": 907
    },
    {
      "epoch": 0.1239971322249155,
      "grad_norm": 0.000546832219697535,
      "learning_rate": 0.00015869348939379302,
      "loss": 46.0,
      "step": 908
    },
    {
      "epoch": 0.12413369294322488,
      "grad_norm": 0.0005068538011983037,
      "learning_rate": 0.0001586083887624787,
      "loss": 46.0,
      "step": 909
    },
    {
      "epoch": 0.12427025366153426,
      "grad_norm": 0.0005834728945046663,
      "learning_rate": 0.00015852322342925295,
      "loss": 46.0,
      "step": 910
    },
    {
      "epoch": 0.12440681437984363,
      "grad_norm": 0.0004933670861646533,
      "learning_rate": 0.00015843799348813574,
      "loss": 46.0,
      "step": 911
    },
    {
      "epoch": 0.12454337509815301,
      "grad_norm": 0.0011595729738473892,
      "learning_rate": 0.0001583526990332184,
      "loss": 46.0,
      "step": 912
    },
    {
      "epoch": 0.12467993581646239,
      "grad_norm": 0.00029905018163844943,
      "learning_rate": 0.00015826734015866344,
      "loss": 46.0,
      "step": 913
    },
    {
      "epoch": 0.12481649653477177,
      "grad_norm": 0.000434244517236948,
      "learning_rate": 0.00015818191695870452,
      "loss": 46.0,
      "step": 914
    },
    {
      "epoch": 0.12495305725308115,
      "grad_norm": 0.0006040096050128341,
      "learning_rate": 0.00015809642952764632,
      "loss": 46.0,
      "step": 915
    },
    {
      "epoch": 0.12508961797139054,
      "grad_norm": 0.0007016469608061016,
      "learning_rate": 0.00015801087795986438,
      "loss": 46.0,
      "step": 916
    },
    {
      "epoch": 0.1252261786896999,
      "grad_norm": 0.0003513791016303003,
      "learning_rate": 0.0001579252623498051,
      "loss": 46.0,
      "step": 917
    },
    {
      "epoch": 0.1253627394080093,
      "grad_norm": 0.0003278540389146656,
      "learning_rate": 0.0001578395827919855,
      "loss": 46.0,
      "step": 918
    },
    {
      "epoch": 0.12549930012631866,
      "grad_norm": 0.000646027154289186,
      "learning_rate": 0.00015775383938099332,
      "loss": 46.0,
      "step": 919
    },
    {
      "epoch": 0.12563586084462805,
      "grad_norm": 0.0005723676295019686,
      "learning_rate": 0.00015766803221148673,
      "loss": 46.0,
      "step": 920
    },
    {
      "epoch": 0.12577242156293741,
      "grad_norm": 0.0015359300887212157,
      "learning_rate": 0.00015758216137819422,
      "loss": 46.0,
      "step": 921
    },
    {
      "epoch": 0.1259089822812468,
      "grad_norm": 0.00043970157275907695,
      "learning_rate": 0.0001574962269759147,
      "loss": 46.0,
      "step": 922
    },
    {
      "epoch": 0.12604554299955617,
      "grad_norm": 0.00028622214449569583,
      "learning_rate": 0.00015741022909951716,
      "loss": 46.0,
      "step": 923
    },
    {
      "epoch": 0.12618210371786556,
      "grad_norm": 0.00038283158210106194,
      "learning_rate": 0.00015732416784394065,
      "loss": 46.0,
      "step": 924
    },
    {
      "epoch": 0.12631866443617493,
      "grad_norm": 0.00039500248385593295,
      "learning_rate": 0.00015723804330419422,
      "loss": 46.0,
      "step": 925
    },
    {
      "epoch": 0.12645522515448432,
      "grad_norm": 0.0004930765135213733,
      "learning_rate": 0.00015715185557535689,
      "loss": 46.0,
      "step": 926
    },
    {
      "epoch": 0.12659178587279368,
      "grad_norm": 0.0005405626725405455,
      "learning_rate": 0.00015706560475257727,
      "loss": 46.0,
      "step": 927
    },
    {
      "epoch": 0.12672834659110307,
      "grad_norm": 0.00043443331378512084,
      "learning_rate": 0.00015697929093107365,
      "loss": 46.0,
      "step": 928
    },
    {
      "epoch": 0.12686490730941244,
      "grad_norm": 0.0005110527272336185,
      "learning_rate": 0.000156892914206134,
      "loss": 46.0,
      "step": 929
    },
    {
      "epoch": 0.12700146802772183,
      "grad_norm": 0.00031187915010377765,
      "learning_rate": 0.00015680647467311557,
      "loss": 46.0,
      "step": 930
    },
    {
      "epoch": 0.1271380287460312,
      "grad_norm": 0.0001981136156246066,
      "learning_rate": 0.00015671997242744511,
      "loss": 46.0,
      "step": 931
    },
    {
      "epoch": 0.1272745894643406,
      "grad_norm": 0.0026429896242916584,
      "learning_rate": 0.00015663340756461844,
      "loss": 46.0,
      "step": 932
    },
    {
      "epoch": 0.12741115018264995,
      "grad_norm": 0.0008942155982367694,
      "learning_rate": 0.0001565467801802006,
      "loss": 46.0,
      "step": 933
    },
    {
      "epoch": 0.12754771090095934,
      "grad_norm": 0.0006840588175691664,
      "learning_rate": 0.00015646009036982567,
      "loss": 46.0,
      "step": 934
    },
    {
      "epoch": 0.1276842716192687,
      "grad_norm": 0.0009611474233679473,
      "learning_rate": 0.00015637333822919656,
      "loss": 46.0,
      "step": 935
    },
    {
      "epoch": 0.1278208323375781,
      "grad_norm": 0.000530791119672358,
      "learning_rate": 0.00015628652385408508,
      "loss": 46.0,
      "step": 936
    },
    {
      "epoch": 0.12795739305588746,
      "grad_norm": 0.00041494445758871734,
      "learning_rate": 0.00015619964734033172,
      "loss": 46.0,
      "step": 937
    },
    {
      "epoch": 0.12809395377419686,
      "grad_norm": 0.0008938443497754633,
      "learning_rate": 0.00015611270878384552,
      "loss": 46.0,
      "step": 938
    },
    {
      "epoch": 0.12823051449250622,
      "grad_norm": 0.000739588460419327,
      "learning_rate": 0.00015602570828060407,
      "loss": 46.0,
      "step": 939
    },
    {
      "epoch": 0.1283670752108156,
      "grad_norm": 0.0025961471255868673,
      "learning_rate": 0.00015593864592665333,
      "loss": 46.0,
      "step": 940
    },
    {
      "epoch": 0.12850363592912498,
      "grad_norm": 0.00049801473505795,
      "learning_rate": 0.00015585152181810753,
      "loss": 46.0,
      "step": 941
    },
    {
      "epoch": 0.12864019664743437,
      "grad_norm": 0.000621246756054461,
      "learning_rate": 0.00015576433605114912,
      "loss": 46.0,
      "step": 942
    },
    {
      "epoch": 0.12877675736574373,
      "grad_norm": 0.0007328742649406195,
      "learning_rate": 0.00015567708872202854,
      "loss": 46.0,
      "step": 943
    },
    {
      "epoch": 0.12891331808405312,
      "grad_norm": 0.005625641904771328,
      "learning_rate": 0.00015558977992706426,
      "loss": 46.0,
      "step": 944
    },
    {
      "epoch": 0.1290498788023625,
      "grad_norm": 0.0005238280282355845,
      "learning_rate": 0.00015550240976264253,
      "loss": 46.0,
      "step": 945
    },
    {
      "epoch": 0.12918643952067188,
      "grad_norm": 0.001820914214476943,
      "learning_rate": 0.0001554149783252175,
      "loss": 46.0,
      "step": 946
    },
    {
      "epoch": 0.12932300023898124,
      "grad_norm": 0.0006223174277693033,
      "learning_rate": 0.0001553274857113108,
      "loss": 46.0,
      "step": 947
    },
    {
      "epoch": 0.12945956095729064,
      "grad_norm": 0.0015029089991003275,
      "learning_rate": 0.00015523993201751167,
      "loss": 46.0,
      "step": 948
    },
    {
      "epoch": 0.1295961216756,
      "grad_norm": 0.0012488181237131357,
      "learning_rate": 0.00015515231734047677,
      "loss": 46.0,
      "step": 949
    },
    {
      "epoch": 0.1297326823939094,
      "grad_norm": 0.0007277615368366241,
      "learning_rate": 0.0001550646417769301,
      "loss": 46.0,
      "step": 950
    },
    {
      "epoch": 0.12986924311221876,
      "grad_norm": 0.0024758039508014917,
      "learning_rate": 0.0001549769054236629,
      "loss": 46.0,
      "step": 951
    },
    {
      "epoch": 0.13000580383052815,
      "grad_norm": 0.00043562057544477284,
      "learning_rate": 0.00015488910837753342,
      "loss": 46.0,
      "step": 952
    },
    {
      "epoch": 0.1301423645488375,
      "grad_norm": 0.0006010486977174878,
      "learning_rate": 0.00015480125073546704,
      "loss": 46.0,
      "step": 953
    },
    {
      "epoch": 0.1302789252671469,
      "grad_norm": 0.00039981160080060363,
      "learning_rate": 0.0001547133325944559,
      "loss": 46.0,
      "step": 954
    },
    {
      "epoch": 0.13041548598545627,
      "grad_norm": 0.00056524045066908,
      "learning_rate": 0.00015462535405155902,
      "loss": 46.0,
      "step": 955
    },
    {
      "epoch": 0.13055204670376566,
      "grad_norm": 0.00019664541468955576,
      "learning_rate": 0.00015453731520390215,
      "loss": 46.0,
      "step": 956
    },
    {
      "epoch": 0.13068860742207505,
      "grad_norm": 0.000747493002563715,
      "learning_rate": 0.0001544492161486775,
      "loss": 46.0,
      "step": 957
    },
    {
      "epoch": 0.13082516814038442,
      "grad_norm": 0.00021618347091134638,
      "learning_rate": 0.00015436105698314384,
      "loss": 46.0,
      "step": 958
    },
    {
      "epoch": 0.1309617288586938,
      "grad_norm": 0.0005658991285599768,
      "learning_rate": 0.0001542728378046262,
      "loss": 46.0,
      "step": 959
    },
    {
      "epoch": 0.13109828957700317,
      "grad_norm": 0.0010320099536329508,
      "learning_rate": 0.00015418455871051592,
      "loss": 46.0,
      "step": 960
    },
    {
      "epoch": 0.13123485029531257,
      "grad_norm": 0.00037752182106487453,
      "learning_rate": 0.00015409621979827048,
      "loss": 46.0,
      "step": 961
    },
    {
      "epoch": 0.13137141101362193,
      "grad_norm": 0.0003615982714109123,
      "learning_rate": 0.0001540078211654135,
      "loss": 46.0,
      "step": 962
    },
    {
      "epoch": 0.13150797173193132,
      "grad_norm": 0.00041104850242845714,
      "learning_rate": 0.0001539193629095343,
      "loss": 46.0,
      "step": 963
    },
    {
      "epoch": 0.1316445324502407,
      "grad_norm": 0.0005330987041816115,
      "learning_rate": 0.00015383084512828824,
      "loss": 46.0,
      "step": 964
    },
    {
      "epoch": 0.13178109316855008,
      "grad_norm": 0.0003800500126089901,
      "learning_rate": 0.00015374226791939628,
      "loss": 46.0,
      "step": 965
    },
    {
      "epoch": 0.13191765388685944,
      "grad_norm": 0.0006545698852278292,
      "learning_rate": 0.000153653631380645,
      "loss": 46.0,
      "step": 966
    },
    {
      "epoch": 0.13205421460516883,
      "grad_norm": 0.0020852810703217983,
      "learning_rate": 0.0001535649356098865,
      "loss": 46.0,
      "step": 967
    },
    {
      "epoch": 0.1321907753234782,
      "grad_norm": 0.00031325622694566846,
      "learning_rate": 0.00015347618070503827,
      "loss": 46.0,
      "step": 968
    },
    {
      "epoch": 0.1323273360417876,
      "grad_norm": 0.00019234443607274443,
      "learning_rate": 0.0001533873667640831,
      "loss": 46.0,
      "step": 969
    },
    {
      "epoch": 0.13246389676009696,
      "grad_norm": 0.00038069483707658947,
      "learning_rate": 0.00015329849388506886,
      "loss": 46.0,
      "step": 970
    },
    {
      "epoch": 0.13260045747840635,
      "grad_norm": 0.00045511999633163214,
      "learning_rate": 0.00015320956216610866,
      "loss": 46.0,
      "step": 971
    },
    {
      "epoch": 0.1327370181967157,
      "grad_norm": 0.0005886334110982716,
      "learning_rate": 0.00015312057170538035,
      "loss": 46.0,
      "step": 972
    },
    {
      "epoch": 0.1328735789150251,
      "grad_norm": 0.0009905985789373517,
      "learning_rate": 0.00015303152260112682,
      "loss": 46.0,
      "step": 973
    },
    {
      "epoch": 0.13301013963333447,
      "grad_norm": 0.0010108448332175612,
      "learning_rate": 0.00015294241495165557,
      "loss": 46.0,
      "step": 974
    },
    {
      "epoch": 0.13314670035164386,
      "grad_norm": 0.0005389642901718616,
      "learning_rate": 0.00015285324885533884,
      "loss": 46.0,
      "step": 975
    },
    {
      "epoch": 0.13328326106995322,
      "grad_norm": 0.000410493987146765,
      "learning_rate": 0.0001527640244106133,
      "loss": 46.0,
      "step": 976
    },
    {
      "epoch": 0.13341982178826262,
      "grad_norm": 0.001756677869707346,
      "learning_rate": 0.00015267474171598005,
      "loss": 46.0,
      "step": 977
    },
    {
      "epoch": 0.13355638250657198,
      "grad_norm": 0.0003254815237596631,
      "learning_rate": 0.0001525854008700046,
      "loss": 46.0,
      "step": 978
    },
    {
      "epoch": 0.13369294322488137,
      "grad_norm": 0.0003471802920103073,
      "learning_rate": 0.00015249600197131651,
      "loss": 46.0,
      "step": 979
    },
    {
      "epoch": 0.13382950394319074,
      "grad_norm": 0.0015930512454360723,
      "learning_rate": 0.0001524065451186095,
      "loss": 46.0,
      "step": 980
    },
    {
      "epoch": 0.13396606466150013,
      "grad_norm": 0.00028746266616508365,
      "learning_rate": 0.0001523170304106413,
      "loss": 46.0,
      "step": 981
    },
    {
      "epoch": 0.1341026253798095,
      "grad_norm": 0.0005899532698094845,
      "learning_rate": 0.0001522274579462334,
      "loss": 46.0,
      "step": 982
    },
    {
      "epoch": 0.13423918609811888,
      "grad_norm": 0.0005316737224347889,
      "learning_rate": 0.00015213782782427123,
      "loss": 46.0,
      "step": 983
    },
    {
      "epoch": 0.13437574681642825,
      "grad_norm": 0.00045934764784760773,
      "learning_rate": 0.00015204814014370372,
      "loss": 46.0,
      "step": 984
    },
    {
      "epoch": 0.13451230753473764,
      "grad_norm": 0.001285345759242773,
      "learning_rate": 0.00015195839500354335,
      "loss": 46.0,
      "step": 985
    },
    {
      "epoch": 0.134648868253047,
      "grad_norm": 0.0005873920163139701,
      "learning_rate": 0.00015186859250286615,
      "loss": 46.0,
      "step": 986
    },
    {
      "epoch": 0.1347854289713564,
      "grad_norm": 0.0011875568889081478,
      "learning_rate": 0.00015177873274081137,
      "loss": 46.0,
      "step": 987
    },
    {
      "epoch": 0.13492198968966576,
      "grad_norm": 0.001056193490512669,
      "learning_rate": 0.00015168881581658147,
      "loss": 46.0,
      "step": 988
    },
    {
      "epoch": 0.13505855040797515,
      "grad_norm": 0.0009340514661744237,
      "learning_rate": 0.00015159884182944211,
      "loss": 46.0,
      "step": 989
    },
    {
      "epoch": 0.13519511112628452,
      "grad_norm": 0.0011555576929822564,
      "learning_rate": 0.00015150881087872185,
      "loss": 46.0,
      "step": 990
    },
    {
      "epoch": 0.1353316718445939,
      "grad_norm": 0.001084683695808053,
      "learning_rate": 0.00015141872306381215,
      "loss": 46.0,
      "step": 991
    },
    {
      "epoch": 0.13546823256290327,
      "grad_norm": 0.000519106222782284,
      "learning_rate": 0.00015132857848416733,
      "loss": 46.0,
      "step": 992
    },
    {
      "epoch": 0.13560479328121267,
      "grad_norm": 0.001280359923839569,
      "learning_rate": 0.00015123837723930424,
      "loss": 46.0,
      "step": 993
    },
    {
      "epoch": 0.13574135399952203,
      "grad_norm": 0.0007028987165540457,
      "learning_rate": 0.00015114811942880242,
      "loss": 46.0,
      "step": 994
    },
    {
      "epoch": 0.13587791471783142,
      "grad_norm": 0.0005714019644074142,
      "learning_rate": 0.00015105780515230376,
      "loss": 46.0,
      "step": 995
    },
    {
      "epoch": 0.13601447543614079,
      "grad_norm": 0.0009716853965073824,
      "learning_rate": 0.00015096743450951258,
      "loss": 46.0,
      "step": 996
    },
    {
      "epoch": 0.13615103615445018,
      "grad_norm": 0.0006497084395959973,
      "learning_rate": 0.00015087700760019532,
      "loss": 46.0,
      "step": 997
    },
    {
      "epoch": 0.13628759687275954,
      "grad_norm": 0.0013521420769393444,
      "learning_rate": 0.00015078652452418063,
      "loss": 46.0,
      "step": 998
    },
    {
      "epoch": 0.13642415759106893,
      "grad_norm": 0.0008505037403665483,
      "learning_rate": 0.00015069598538135906,
      "loss": 46.0,
      "step": 999
    },
    {
      "epoch": 0.1365607183093783,
      "grad_norm": 0.0011916455114260316,
      "learning_rate": 0.00015060539027168316,
      "loss": 46.0,
      "step": 1000
    },
    {
      "epoch": 0.1366972790276877,
      "grad_norm": 0.0005008620209991932,
      "learning_rate": 0.00015051473929516722,
      "loss": 46.0,
      "step": 1001
    },
    {
      "epoch": 0.13683383974599705,
      "grad_norm": 0.0006068138754926622,
      "learning_rate": 0.00015042403255188723,
      "loss": 46.0,
      "step": 1002
    },
    {
      "epoch": 0.13697040046430645,
      "grad_norm": 0.0003954765561502427,
      "learning_rate": 0.00015033327014198075,
      "loss": 46.0,
      "step": 1003
    },
    {
      "epoch": 0.1371069611826158,
      "grad_norm": 0.0005776135949417949,
      "learning_rate": 0.00015024245216564667,
      "loss": 46.0,
      "step": 1004
    },
    {
      "epoch": 0.1372435219009252,
      "grad_norm": 0.0008297267486341298,
      "learning_rate": 0.00015015157872314542,
      "loss": 46.0,
      "step": 1005
    },
    {
      "epoch": 0.13738008261923457,
      "grad_norm": 0.000555426231585443,
      "learning_rate": 0.00015006064991479853,
      "loss": 46.0,
      "step": 1006
    },
    {
      "epoch": 0.13751664333754396,
      "grad_norm": 0.0002457842347212136,
      "learning_rate": 0.0001499696658409887,
      "loss": 46.0,
      "step": 1007
    },
    {
      "epoch": 0.13765320405585332,
      "grad_norm": 0.0005408066790550947,
      "learning_rate": 0.00014987862660215966,
      "loss": 46.0,
      "step": 1008
    },
    {
      "epoch": 0.13778976477416272,
      "grad_norm": 0.0010539703071117401,
      "learning_rate": 0.00014978753229881594,
      "loss": 46.0,
      "step": 1009
    },
    {
      "epoch": 0.13792632549247208,
      "grad_norm": 0.00045947683975100517,
      "learning_rate": 0.00014969638303152295,
      "loss": 46.0,
      "step": 1010
    },
    {
      "epoch": 0.13806288621078147,
      "grad_norm": 0.0004952670424245298,
      "learning_rate": 0.0001496051789009068,
      "loss": 46.0,
      "step": 1011
    },
    {
      "epoch": 0.13819944692909084,
      "grad_norm": 0.0006827415782026947,
      "learning_rate": 0.00014951392000765411,
      "loss": 46.0,
      "step": 1012
    },
    {
      "epoch": 0.13833600764740023,
      "grad_norm": 0.000486463715787977,
      "learning_rate": 0.000149422606452512,
      "loss": 46.0,
      "step": 1013
    },
    {
      "epoch": 0.1384725683657096,
      "grad_norm": 0.0002832711033988744,
      "learning_rate": 0.00014933123833628785,
      "loss": 46.0,
      "step": 1014
    },
    {
      "epoch": 0.13860912908401898,
      "grad_norm": 0.0004940008511766791,
      "learning_rate": 0.00014923981575984936,
      "loss": 46.0,
      "step": 1015
    },
    {
      "epoch": 0.13874568980232835,
      "grad_norm": 0.0008655837154947221,
      "learning_rate": 0.00014914833882412435,
      "loss": 46.0,
      "step": 1016
    },
    {
      "epoch": 0.13888225052063774,
      "grad_norm": 0.0007375786663033068,
      "learning_rate": 0.00014905680763010058,
      "loss": 46.0,
      "step": 1017
    },
    {
      "epoch": 0.1390188112389471,
      "grad_norm": 0.0006843106239102781,
      "learning_rate": 0.00014896522227882578,
      "loss": 46.0,
      "step": 1018
    },
    {
      "epoch": 0.1391553719572565,
      "grad_norm": 0.001130104181356728,
      "learning_rate": 0.00014887358287140744,
      "loss": 46.0,
      "step": 1019
    },
    {
      "epoch": 0.13929193267556586,
      "grad_norm": 0.0008909485186450183,
      "learning_rate": 0.00014878188950901276,
      "loss": 46.0,
      "step": 1020
    },
    {
      "epoch": 0.13942849339387525,
      "grad_norm": 0.005642786156386137,
      "learning_rate": 0.0001486901422928684,
      "loss": 46.0,
      "step": 1021
    },
    {
      "epoch": 0.13956505411218462,
      "grad_norm": 0.0005347135593183339,
      "learning_rate": 0.0001485983413242606,
      "loss": 46.0,
      "step": 1022
    },
    {
      "epoch": 0.139701614830494,
      "grad_norm": 0.000356485164957121,
      "learning_rate": 0.00014850648670453493,
      "loss": 46.0,
      "step": 1023
    },
    {
      "epoch": 0.13983817554880337,
      "grad_norm": 0.0006373700452968478,
      "learning_rate": 0.00014841457853509606,
      "loss": 46.0,
      "step": 1024
    },
    {
      "epoch": 0.13997473626711276,
      "grad_norm": 0.00020091190526727587,
      "learning_rate": 0.0001483226169174079,
      "loss": 46.0,
      "step": 1025
    },
    {
      "epoch": 0.14011129698542216,
      "grad_norm": 0.00042303564259782434,
      "learning_rate": 0.00014823060195299337,
      "loss": 46.0,
      "step": 1026
    },
    {
      "epoch": 0.14024785770373152,
      "grad_norm": 0.0004543966497294605,
      "learning_rate": 0.00014813853374343419,
      "loss": 46.0,
      "step": 1027
    },
    {
      "epoch": 0.1403844184220409,
      "grad_norm": 0.00042528280755504966,
      "learning_rate": 0.00014804641239037097,
      "loss": 46.0,
      "step": 1028
    },
    {
      "epoch": 0.14052097914035028,
      "grad_norm": 0.0005864663980901241,
      "learning_rate": 0.00014795423799550284,
      "loss": 46.0,
      "step": 1029
    },
    {
      "epoch": 0.14065753985865967,
      "grad_norm": 0.0005385400145314634,
      "learning_rate": 0.00014786201066058766,
      "loss": 46.0,
      "step": 1030
    },
    {
      "epoch": 0.14079410057696903,
      "grad_norm": 0.0011653905967250466,
      "learning_rate": 0.00014776973048744165,
      "loss": 46.0,
      "step": 1031
    },
    {
      "epoch": 0.14093066129527843,
      "grad_norm": 0.0004561395035125315,
      "learning_rate": 0.0001476773975779393,
      "loss": 46.0,
      "step": 1032
    },
    {
      "epoch": 0.1410672220135878,
      "grad_norm": 0.000643297506030649,
      "learning_rate": 0.00014758501203401348,
      "loss": 46.0,
      "step": 1033
    },
    {
      "epoch": 0.14120378273189718,
      "grad_norm": 0.0006550021353177726,
      "learning_rate": 0.00014749257395765502,
      "loss": 46.0,
      "step": 1034
    },
    {
      "epoch": 0.14134034345020655,
      "grad_norm": 0.0007623559795320034,
      "learning_rate": 0.0001474000834509128,
      "loss": 46.0,
      "step": 1035
    },
    {
      "epoch": 0.14147690416851594,
      "grad_norm": 0.000623580242972821,
      "learning_rate": 0.00014730754061589355,
      "loss": 46.0,
      "step": 1036
    },
    {
      "epoch": 0.1416134648868253,
      "grad_norm": 0.0010572531027719378,
      "learning_rate": 0.00014721494555476188,
      "loss": 46.0,
      "step": 1037
    },
    {
      "epoch": 0.1417500256051347,
      "grad_norm": 0.0011201991001144052,
      "learning_rate": 0.00014712229836973988,
      "loss": 46.0,
      "step": 1038
    },
    {
      "epoch": 0.14188658632344406,
      "grad_norm": 0.001960804220288992,
      "learning_rate": 0.00014702959916310736,
      "loss": 46.0,
      "step": 1039
    },
    {
      "epoch": 0.14202314704175345,
      "grad_norm": 0.0050703976303339005,
      "learning_rate": 0.00014693684803720138,
      "loss": 46.0,
      "step": 1040
    },
    {
      "epoch": 0.14215970776006281,
      "grad_norm": 0.00040476518915966153,
      "learning_rate": 0.0001468440450944165,
      "loss": 46.0,
      "step": 1041
    },
    {
      "epoch": 0.1422962684783722,
      "grad_norm": 0.0007858510361984372,
      "learning_rate": 0.00014675119043720437,
      "loss": 46.0,
      "step": 1042
    },
    {
      "epoch": 0.14243282919668157,
      "grad_norm": 0.0007758094579912722,
      "learning_rate": 0.0001466582841680737,
      "loss": 46.0,
      "step": 1043
    },
    {
      "epoch": 0.14256938991499096,
      "grad_norm": 0.0008653284166939557,
      "learning_rate": 0.00014656532638959035,
      "loss": 46.0,
      "step": 1044
    },
    {
      "epoch": 0.14270595063330033,
      "grad_norm": 0.0004421341873239726,
      "learning_rate": 0.00014647231720437686,
      "loss": 46.0,
      "step": 1045
    },
    {
      "epoch": 0.14284251135160972,
      "grad_norm": 0.0008486118167638779,
      "learning_rate": 0.0001463792567151126,
      "loss": 46.0,
      "step": 1046
    },
    {
      "epoch": 0.14297907206991908,
      "grad_norm": 0.000525649928022176,
      "learning_rate": 0.0001462861450245336,
      "loss": 46.0,
      "step": 1047
    },
    {
      "epoch": 0.14311563278822848,
      "grad_norm": 0.0017683632904663682,
      "learning_rate": 0.00014619298223543235,
      "loss": 46.0,
      "step": 1048
    },
    {
      "epoch": 0.14325219350653784,
      "grad_norm": 0.0012217290932312608,
      "learning_rate": 0.00014609976845065783,
      "loss": 46.0,
      "step": 1049
    },
    {
      "epoch": 0.14338875422484723,
      "grad_norm": 0.0011137262918055058,
      "learning_rate": 0.00014600650377311522,
      "loss": 46.0,
      "step": 1050
    },
    {
      "epoch": 0.1435253149431566,
      "grad_norm": 0.0003707687428686768,
      "learning_rate": 0.00014591318830576598,
      "loss": 46.0,
      "step": 1051
    },
    {
      "epoch": 0.143661875661466,
      "grad_norm": 0.000414914742577821,
      "learning_rate": 0.0001458198221516276,
      "loss": 46.0,
      "step": 1052
    },
    {
      "epoch": 0.14379843637977535,
      "grad_norm": 0.0008973225485533476,
      "learning_rate": 0.0001457264054137735,
      "loss": 46.0,
      "step": 1053
    },
    {
      "epoch": 0.14393499709808474,
      "grad_norm": 0.00040008637006394565,
      "learning_rate": 0.000145632938195333,
      "loss": 46.0,
      "step": 1054
    },
    {
      "epoch": 0.1440715578163941,
      "grad_norm": 0.0005400644731707871,
      "learning_rate": 0.0001455394205994911,
      "loss": 46.0,
      "step": 1055
    },
    {
      "epoch": 0.1442081185347035,
      "grad_norm": 0.00028061779448762536,
      "learning_rate": 0.00014544585272948843,
      "loss": 46.0,
      "step": 1056
    },
    {
      "epoch": 0.14434467925301286,
      "grad_norm": 0.0007635858491994441,
      "learning_rate": 0.00014535223468862114,
      "loss": 46.0,
      "step": 1057
    },
    {
      "epoch": 0.14448123997132226,
      "grad_norm": 0.0004812279948964715,
      "learning_rate": 0.00014525856658024076,
      "loss": 46.0,
      "step": 1058
    },
    {
      "epoch": 0.14461780068963162,
      "grad_norm": 0.0004690811620093882,
      "learning_rate": 0.00014516484850775406,
      "loss": 46.0,
      "step": 1059
    },
    {
      "epoch": 0.144754361407941,
      "grad_norm": 0.0008514091605320573,
      "learning_rate": 0.00014507108057462296,
      "loss": 46.0,
      "step": 1060
    },
    {
      "epoch": 0.14489092212625038,
      "grad_norm": 0.00031304339063353837,
      "learning_rate": 0.00014497726288436458,
      "loss": 46.0,
      "step": 1061
    },
    {
      "epoch": 0.14502748284455977,
      "grad_norm": 0.00015942241589073092,
      "learning_rate": 0.00014488339554055073,
      "loss": 46.0,
      "step": 1062
    },
    {
      "epoch": 0.14516404356286913,
      "grad_norm": 0.0012250308645889163,
      "learning_rate": 0.0001447894786468082,
      "loss": 46.0,
      "step": 1063
    },
    {
      "epoch": 0.14530060428117852,
      "grad_norm": 0.00036729895509779453,
      "learning_rate": 0.00014469551230681844,
      "loss": 46.0,
      "step": 1064
    },
    {
      "epoch": 0.1454371649994879,
      "grad_norm": 0.000257661915384233,
      "learning_rate": 0.00014460149662431747,
      "loss": 46.0,
      "step": 1065
    },
    {
      "epoch": 0.14557372571779728,
      "grad_norm": 0.000458430964499712,
      "learning_rate": 0.00014450743170309584,
      "loss": 46.0,
      "step": 1066
    },
    {
      "epoch": 0.14571028643610665,
      "grad_norm": 0.0004429294203873724,
      "learning_rate": 0.00014441331764699836,
      "loss": 46.0,
      "step": 1067
    },
    {
      "epoch": 0.14584684715441604,
      "grad_norm": 0.0005923425196669996,
      "learning_rate": 0.00014431915455992414,
      "loss": 46.0,
      "step": 1068
    },
    {
      "epoch": 0.1459834078727254,
      "grad_norm": 0.0003316183283459395,
      "learning_rate": 0.00014422494254582647,
      "loss": 46.0,
      "step": 1069
    },
    {
      "epoch": 0.1461199685910348,
      "grad_norm": 0.0004024969239253551,
      "learning_rate": 0.0001441306817087125,
      "loss": 46.0,
      "step": 1070
    },
    {
      "epoch": 0.14625652930934416,
      "grad_norm": 0.00029238680144771934,
      "learning_rate": 0.00014403637215264353,
      "loss": 46.0,
      "step": 1071
    },
    {
      "epoch": 0.14639309002765355,
      "grad_norm": 0.00044409476686269045,
      "learning_rate": 0.00014394201398173437,
      "loss": 46.0,
      "step": 1072
    },
    {
      "epoch": 0.1465296507459629,
      "grad_norm": 0.000767083081882447,
      "learning_rate": 0.00014384760730015364,
      "loss": 46.0,
      "step": 1073
    },
    {
      "epoch": 0.1466662114642723,
      "grad_norm": 0.00029706236091442406,
      "learning_rate": 0.00014375315221212357,
      "loss": 46.0,
      "step": 1074
    },
    {
      "epoch": 0.14680277218258167,
      "grad_norm": 0.0004188843595329672,
      "learning_rate": 0.00014365864882191968,
      "loss": 46.0,
      "step": 1075
    },
    {
      "epoch": 0.14693933290089106,
      "grad_norm": 0.0005889105377718806,
      "learning_rate": 0.0001435640972338709,
      "loss": 46.0,
      "step": 1076
    },
    {
      "epoch": 0.14707589361920043,
      "grad_norm": 0.00072791165439412,
      "learning_rate": 0.00014346949755235944,
      "loss": 46.0,
      "step": 1077
    },
    {
      "epoch": 0.14721245433750982,
      "grad_norm": 0.0006283425609581172,
      "learning_rate": 0.00014337484988182042,
      "loss": 46.0,
      "step": 1078
    },
    {
      "epoch": 0.14734901505581918,
      "grad_norm": 0.000486049015307799,
      "learning_rate": 0.00014328015432674214,
      "loss": 46.0,
      "step": 1079
    },
    {
      "epoch": 0.14748557577412857,
      "grad_norm": 0.0007576828938908875,
      "learning_rate": 0.00014318541099166555,
      "loss": 46.0,
      "step": 1080
    },
    {
      "epoch": 0.14762213649243794,
      "grad_norm": 0.0010862492490559816,
      "learning_rate": 0.00014309061998118454,
      "loss": 46.0,
      "step": 1081
    },
    {
      "epoch": 0.14775869721074733,
      "grad_norm": 0.0005167250637896359,
      "learning_rate": 0.00014299578139994557,
      "loss": 46.0,
      "step": 1082
    },
    {
      "epoch": 0.1478952579290567,
      "grad_norm": 0.002369736786931753,
      "learning_rate": 0.00014290089535264755,
      "loss": 46.0,
      "step": 1083
    },
    {
      "epoch": 0.1480318186473661,
      "grad_norm": 0.0003688117431011051,
      "learning_rate": 0.0001428059619440419,
      "loss": 46.0,
      "step": 1084
    },
    {
      "epoch": 0.14816837936567545,
      "grad_norm": 0.0003458712890278548,
      "learning_rate": 0.00014271098127893218,
      "loss": 46.0,
      "step": 1085
    },
    {
      "epoch": 0.14830494008398484,
      "grad_norm": 0.0013860361650586128,
      "learning_rate": 0.0001426159534621743,
      "loss": 46.0,
      "step": 1086
    },
    {
      "epoch": 0.1484415008022942,
      "grad_norm": 0.001035936875268817,
      "learning_rate": 0.00014252087859867608,
      "loss": 46.0,
      "step": 1087
    },
    {
      "epoch": 0.1485780615206036,
      "grad_norm": 0.00632870476692915,
      "learning_rate": 0.00014242575679339738,
      "loss": 46.0,
      "step": 1088
    },
    {
      "epoch": 0.14871462223891296,
      "grad_norm": 0.0006592991994693875,
      "learning_rate": 0.00014233058815134978,
      "loss": 46.0,
      "step": 1089
    },
    {
      "epoch": 0.14885118295722236,
      "grad_norm": 0.0028478745371103287,
      "learning_rate": 0.00014223537277759666,
      "loss": 46.0,
      "step": 1090
    },
    {
      "epoch": 0.14898774367553172,
      "grad_norm": 0.0005855032941326499,
      "learning_rate": 0.00014214011077725292,
      "loss": 46.0,
      "step": 1091
    },
    {
      "epoch": 0.1491243043938411,
      "grad_norm": 0.0023942850530147552,
      "learning_rate": 0.00014204480225548494,
      "loss": 46.0,
      "step": 1092
    },
    {
      "epoch": 0.1492608651121505,
      "grad_norm": 0.0013539772480726242,
      "learning_rate": 0.00014194944731751058,
      "loss": 46.0,
      "step": 1093
    },
    {
      "epoch": 0.14939742583045987,
      "grad_norm": 0.0009589577093720436,
      "learning_rate": 0.00014185404606859877,
      "loss": 46.0,
      "step": 1094
    },
    {
      "epoch": 0.14953398654876926,
      "grad_norm": 0.0003180347557645291,
      "learning_rate": 0.00014175859861406966,
      "loss": 46.0,
      "step": 1095
    },
    {
      "epoch": 0.14967054726707862,
      "grad_norm": 0.0014342650538310409,
      "learning_rate": 0.00014166310505929434,
      "loss": 46.0,
      "step": 1096
    },
    {
      "epoch": 0.14980710798538802,
      "grad_norm": 0.0006643772940151393,
      "learning_rate": 0.00014156756550969492,
      "loss": 46.0,
      "step": 1097
    },
    {
      "epoch": 0.14994366870369738,
      "grad_norm": 0.001409722724929452,
      "learning_rate": 0.00014147198007074415,
      "loss": 46.0,
      "step": 1098
    },
    {
      "epoch": 0.15008022942200677,
      "grad_norm": 0.0008714981959201396,
      "learning_rate": 0.00014137634884796557,
      "loss": 46.0,
      "step": 1099
    },
    {
      "epoch": 0.15021679014031614,
      "grad_norm": 0.00160513399168849,
      "learning_rate": 0.00014128067194693316,
      "loss": 46.0,
      "step": 1100
    },
    {
      "epoch": 0.15035335085862553,
      "grad_norm": 0.0004049557028338313,
      "learning_rate": 0.0001411849494732713,
      "loss": 46.0,
      "step": 1101
    },
    {
      "epoch": 0.1504899115769349,
      "grad_norm": 0.0005186764756217599,
      "learning_rate": 0.00014108918153265485,
      "loss": 46.0,
      "step": 1102
    },
    {
      "epoch": 0.15062647229524428,
      "grad_norm": 0.002497048582881689,
      "learning_rate": 0.00014099336823080865,
      "loss": 46.0,
      "step": 1103
    },
    {
      "epoch": 0.15076303301355365,
      "grad_norm": 0.00020665116608142853,
      "learning_rate": 0.00014089750967350781,
      "loss": 46.0,
      "step": 1104
    },
    {
      "epoch": 0.15089959373186304,
      "grad_norm": 0.0005294004804454744,
      "learning_rate": 0.0001408016059665773,
      "loss": 46.0,
      "step": 1105
    },
    {
      "epoch": 0.1510361544501724,
      "grad_norm": 0.00033093662932515144,
      "learning_rate": 0.00014070565721589195,
      "loss": 46.0,
      "step": 1106
    },
    {
      "epoch": 0.1511727151684818,
      "grad_norm": 0.0003122551424894482,
      "learning_rate": 0.00014060966352737628,
      "loss": 46.0,
      "step": 1107
    },
    {
      "epoch": 0.15130927588679116,
      "grad_norm": 0.0006798842805437744,
      "learning_rate": 0.00014051362500700447,
      "loss": 46.0,
      "step": 1108
    },
    {
      "epoch": 0.15144583660510055,
      "grad_norm": 0.0005911933840252459,
      "learning_rate": 0.00014041754176080017,
      "loss": 46.0,
      "step": 1109
    },
    {
      "epoch": 0.15158239732340992,
      "grad_norm": 0.0010168857406824827,
      "learning_rate": 0.00014032141389483648,
      "loss": 46.0,
      "step": 1110
    },
    {
      "epoch": 0.1517189580417193,
      "grad_norm": 0.00033409081515856087,
      "learning_rate": 0.00014022524151523563,
      "loss": 46.0,
      "step": 1111
    },
    {
      "epoch": 0.15185551876002867,
      "grad_norm": 0.0002926045854110271,
      "learning_rate": 0.00014012902472816907,
      "loss": 46.0,
      "step": 1112
    },
    {
      "epoch": 0.15199207947833807,
      "grad_norm": 0.0013335029361769557,
      "learning_rate": 0.00014003276363985727,
      "loss": 46.0,
      "step": 1113
    },
    {
      "epoch": 0.15212864019664743,
      "grad_norm": 0.000854438403621316,
      "learning_rate": 0.00013993645835656953,
      "loss": 46.0,
      "step": 1114
    },
    {
      "epoch": 0.15226520091495682,
      "grad_norm": 0.0009656418114900589,
      "learning_rate": 0.00013984010898462416,
      "loss": 46.0,
      "step": 1115
    },
    {
      "epoch": 0.1524017616332662,
      "grad_norm": 0.00042812732863239944,
      "learning_rate": 0.00013974371563038785,
      "loss": 46.0,
      "step": 1116
    },
    {
      "epoch": 0.15253832235157558,
      "grad_norm": 0.0006366227171383798,
      "learning_rate": 0.00013964727840027604,
      "loss": 46.0,
      "step": 1117
    },
    {
      "epoch": 0.15267488306988494,
      "grad_norm": 0.0011450116289779544,
      "learning_rate": 0.00013955079740075256,
      "loss": 46.0,
      "step": 1118
    },
    {
      "epoch": 0.15281144378819433,
      "grad_norm": 0.00023903950932435691,
      "learning_rate": 0.00013945427273832954,
      "loss": 46.0,
      "step": 1119
    },
    {
      "epoch": 0.1529480045065037,
      "grad_norm": 0.0011047361185774207,
      "learning_rate": 0.0001393577045195673,
      "loss": 46.0,
      "step": 1120
    },
    {
      "epoch": 0.1530845652248131,
      "grad_norm": 0.0004785344353877008,
      "learning_rate": 0.0001392610928510743,
      "loss": 46.0,
      "step": 1121
    },
    {
      "epoch": 0.15322112594312245,
      "grad_norm": 0.0008018110529519618,
      "learning_rate": 0.00013916443783950694,
      "loss": 46.0,
      "step": 1122
    },
    {
      "epoch": 0.15335768666143185,
      "grad_norm": 0.0012497154530137777,
      "learning_rate": 0.00013906773959156948,
      "loss": 46.0,
      "step": 1123
    },
    {
      "epoch": 0.1534942473797412,
      "grad_norm": 0.00042997964192181826,
      "learning_rate": 0.00013897099821401384,
      "loss": 46.0,
      "step": 1124
    },
    {
      "epoch": 0.1536308080980506,
      "grad_norm": 0.0003085716161876917,
      "learning_rate": 0.00013887421381363968,
      "loss": 46.0,
      "step": 1125
    },
    {
      "epoch": 0.15376736881635997,
      "grad_norm": 0.000396199116948992,
      "learning_rate": 0.00013877738649729405,
      "loss": 46.0,
      "step": 1126
    },
    {
      "epoch": 0.15390392953466936,
      "grad_norm": 0.0006908946088515222,
      "learning_rate": 0.00013868051637187144,
      "loss": 46.0,
      "step": 1127
    },
    {
      "epoch": 0.15404049025297872,
      "grad_norm": 0.0003736602666322142,
      "learning_rate": 0.00013858360354431355,
      "loss": 46.0,
      "step": 1128
    },
    {
      "epoch": 0.15417705097128812,
      "grad_norm": 0.0006938680890016258,
      "learning_rate": 0.00013848664812160925,
      "loss": 46.0,
      "step": 1129
    },
    {
      "epoch": 0.15431361168959748,
      "grad_norm": 0.0005900769028812647,
      "learning_rate": 0.00013838965021079446,
      "loss": 46.0,
      "step": 1130
    },
    {
      "epoch": 0.15445017240790687,
      "grad_norm": 0.002096734009683132,
      "learning_rate": 0.00013829260991895197,
      "loss": 46.0,
      "step": 1131
    },
    {
      "epoch": 0.15458673312621624,
      "grad_norm": 0.0011866495478898287,
      "learning_rate": 0.00013819552735321134,
      "loss": 46.0,
      "step": 1132
    },
    {
      "epoch": 0.15472329384452563,
      "grad_norm": 0.00037106405943632126,
      "learning_rate": 0.00013809840262074885,
      "loss": 46.0,
      "step": 1133
    },
    {
      "epoch": 0.154859854562835,
      "grad_norm": 0.0006705286214128137,
      "learning_rate": 0.0001380012358287873,
      "loss": 46.0,
      "step": 1134
    },
    {
      "epoch": 0.15499641528114438,
      "grad_norm": 0.00040015694685280323,
      "learning_rate": 0.0001379040270845959,
      "loss": 46.0,
      "step": 1135
    },
    {
      "epoch": 0.15513297599945375,
      "grad_norm": 0.0005712392157875001,
      "learning_rate": 0.00013780677649549025,
      "loss": 46.0,
      "step": 1136
    },
    {
      "epoch": 0.15526953671776314,
      "grad_norm": 0.00047067005652934313,
      "learning_rate": 0.00013770948416883205,
      "loss": 46.0,
      "step": 1137
    },
    {
      "epoch": 0.1554060974360725,
      "grad_norm": 0.0008378413622267544,
      "learning_rate": 0.00013761215021202916,
      "loss": 46.0,
      "step": 1138
    },
    {
      "epoch": 0.1555426581543819,
      "grad_norm": 0.0007883374928496778,
      "learning_rate": 0.00013751477473253533,
      "loss": 46.0,
      "step": 1139
    },
    {
      "epoch": 0.15567921887269126,
      "grad_norm": 0.0012233637971803546,
      "learning_rate": 0.0001374173578378502,
      "loss": 46.0,
      "step": 1140
    },
    {
      "epoch": 0.15581577959100065,
      "grad_norm": 0.004130385350435972,
      "learning_rate": 0.00013731989963551913,
      "loss": 46.0,
      "step": 1141
    },
    {
      "epoch": 0.15595234030931002,
      "grad_norm": 0.0029437027405947447,
      "learning_rate": 0.00013722240023313306,
      "loss": 46.0,
      "step": 1142
    },
    {
      "epoch": 0.1560889010276194,
      "grad_norm": 0.0003660391375888139,
      "learning_rate": 0.00013712485973832838,
      "loss": 46.0,
      "step": 1143
    },
    {
      "epoch": 0.15622546174592877,
      "grad_norm": 0.0020895125344395638,
      "learning_rate": 0.00013702727825878693,
      "loss": 46.0,
      "step": 1144
    },
    {
      "epoch": 0.15636202246423817,
      "grad_norm": 0.0016986053669825196,
      "learning_rate": 0.00013692965590223573,
      "loss": 46.0,
      "step": 1145
    },
    {
      "epoch": 0.15649858318254753,
      "grad_norm": 0.0005671007093042135,
      "learning_rate": 0.00013683199277644693,
      "loss": 46.0,
      "step": 1146
    },
    {
      "epoch": 0.15663514390085692,
      "grad_norm": 0.0009818869875743985,
      "learning_rate": 0.00013673428898923774,
      "loss": 46.0,
      "step": 1147
    },
    {
      "epoch": 0.15677170461916629,
      "grad_norm": 0.0004315339319873601,
      "learning_rate": 0.00013663654464847022,
      "loss": 46.0,
      "step": 1148
    },
    {
      "epoch": 0.15690826533747568,
      "grad_norm": 0.0006189457490108907,
      "learning_rate": 0.0001365387598620512,
      "loss": 46.0,
      "step": 1149
    },
    {
      "epoch": 0.15704482605578504,
      "grad_norm": 0.0007538103964179754,
      "learning_rate": 0.00013644093473793215,
      "loss": 46.0,
      "step": 1150
    },
    {
      "epoch": 0.15718138677409443,
      "grad_norm": 0.0005718530155718327,
      "learning_rate": 0.00013634306938410911,
      "loss": 46.0,
      "step": 1151
    },
    {
      "epoch": 0.1573179474924038,
      "grad_norm": 0.0006374249351210892,
      "learning_rate": 0.00013624516390862244,
      "loss": 46.0,
      "step": 1152
    },
    {
      "epoch": 0.1574545082107132,
      "grad_norm": 0.0007302735466510057,
      "learning_rate": 0.00013614721841955692,
      "loss": 46.0,
      "step": 1153
    },
    {
      "epoch": 0.15759106892902255,
      "grad_norm": 0.0005098398542031646,
      "learning_rate": 0.00013604923302504147,
      "loss": 46.0,
      "step": 1154
    },
    {
      "epoch": 0.15772762964733195,
      "grad_norm": 0.0005700102774426341,
      "learning_rate": 0.00013595120783324902,
      "loss": 46.0,
      "step": 1155
    },
    {
      "epoch": 0.1578641903656413,
      "grad_norm": 0.00040146647370420396,
      "learning_rate": 0.00013585314295239644,
      "loss": 46.0,
      "step": 1156
    },
    {
      "epoch": 0.1580007510839507,
      "grad_norm": 0.0008773392182774842,
      "learning_rate": 0.00013575503849074444,
      "loss": 46.0,
      "step": 1157
    },
    {
      "epoch": 0.15813731180226007,
      "grad_norm": 0.0003678193024825305,
      "learning_rate": 0.0001356568945565974,
      "loss": 46.0,
      "step": 1158
    },
    {
      "epoch": 0.15827387252056946,
      "grad_norm": 0.0013553998433053493,
      "learning_rate": 0.0001355587112583033,
      "loss": 46.0,
      "step": 1159
    },
    {
      "epoch": 0.15841043323887882,
      "grad_norm": 0.0009887435007840395,
      "learning_rate": 0.00013546048870425356,
      "loss": 46.0,
      "step": 1160
    },
    {
      "epoch": 0.15854699395718821,
      "grad_norm": 0.0019033915596082807,
      "learning_rate": 0.00013536222700288303,
      "loss": 46.0,
      "step": 1161
    },
    {
      "epoch": 0.1586835546754976,
      "grad_norm": 0.0006128349923528731,
      "learning_rate": 0.00013526392626266956,
      "loss": 46.0,
      "step": 1162
    },
    {
      "epoch": 0.15882011539380697,
      "grad_norm": 0.0005847832653671503,
      "learning_rate": 0.00013516558659213432,
      "loss": 46.0,
      "step": 1163
    },
    {
      "epoch": 0.15895667611211636,
      "grad_norm": 0.0005258521996438503,
      "learning_rate": 0.00013506720809984137,
      "loss": 46.0,
      "step": 1164
    },
    {
      "epoch": 0.15909323683042573,
      "grad_norm": 0.00040099999750964344,
      "learning_rate": 0.0001349687908943976,
      "loss": 46.0,
      "step": 1165
    },
    {
      "epoch": 0.15922979754873512,
      "grad_norm": 0.0007036002352833748,
      "learning_rate": 0.0001348703350844527,
      "loss": 46.0,
      "step": 1166
    },
    {
      "epoch": 0.15936635826704448,
      "grad_norm": 0.00037679230445064604,
      "learning_rate": 0.00013477184077869892,
      "loss": 46.0,
      "step": 1167
    },
    {
      "epoch": 0.15950291898535388,
      "grad_norm": 0.0005223838961683214,
      "learning_rate": 0.000134673308085871,
      "loss": 46.0,
      "step": 1168
    },
    {
      "epoch": 0.15963947970366324,
      "grad_norm": 0.0008007617434486747,
      "learning_rate": 0.0001345747371147461,
      "loss": 46.0,
      "step": 1169
    },
    {
      "epoch": 0.15977604042197263,
      "grad_norm": 0.000517090258654207,
      "learning_rate": 0.0001344761279741437,
      "loss": 46.0,
      "step": 1170
    },
    {
      "epoch": 0.159912601140282,
      "grad_norm": 0.0008526128367520869,
      "learning_rate": 0.0001343774807729253,
      "loss": 46.0,
      "step": 1171
    },
    {
      "epoch": 0.1600491618585914,
      "grad_norm": 0.0011307375971227884,
      "learning_rate": 0.0001342787956199945,
      "loss": 46.0,
      "step": 1172
    },
    {
      "epoch": 0.16018572257690075,
      "grad_norm": 0.00033380292006768286,
      "learning_rate": 0.00013418007262429668,
      "loss": 46.0,
      "step": 1173
    },
    {
      "epoch": 0.16032228329521014,
      "grad_norm": 0.000278162129689008,
      "learning_rate": 0.00013408131189481911,
      "loss": 46.0,
      "step": 1174
    },
    {
      "epoch": 0.1604588440135195,
      "grad_norm": 0.00258398219011724,
      "learning_rate": 0.00013398251354059077,
      "loss": 46.0,
      "step": 1175
    },
    {
      "epoch": 0.1605954047318289,
      "grad_norm": 0.0006168753025121987,
      "learning_rate": 0.000133883677670682,
      "loss": 46.0,
      "step": 1176
    },
    {
      "epoch": 0.16073196545013826,
      "grad_norm": 0.00029901755624450743,
      "learning_rate": 0.0001337848043942047,
      "loss": 46.0,
      "step": 1177
    },
    {
      "epoch": 0.16086852616844766,
      "grad_norm": 0.000997790601104498,
      "learning_rate": 0.00013368589382031196,
      "loss": 46.0,
      "step": 1178
    },
    {
      "epoch": 0.16100508688675702,
      "grad_norm": 0.0006558905588462949,
      "learning_rate": 0.00013358694605819814,
      "loss": 46.0,
      "step": 1179
    },
    {
      "epoch": 0.1611416476050664,
      "grad_norm": 0.0006217307527549565,
      "learning_rate": 0.00013348796121709862,
      "loss": 46.0,
      "step": 1180
    },
    {
      "epoch": 0.16127820832337578,
      "grad_norm": 0.0004898210754618049,
      "learning_rate": 0.00013338893940628973,
      "loss": 46.0,
      "step": 1181
    },
    {
      "epoch": 0.16141476904168517,
      "grad_norm": 0.0009382545249536633,
      "learning_rate": 0.00013328988073508852,
      "loss": 46.0,
      "step": 1182
    },
    {
      "epoch": 0.16155132975999453,
      "grad_norm": 0.0006358098471537232,
      "learning_rate": 0.00013319078531285285,
      "loss": 46.0,
      "step": 1183
    },
    {
      "epoch": 0.16168789047830393,
      "grad_norm": 0.0012355463113635778,
      "learning_rate": 0.00013309165324898112,
      "loss": 46.0,
      "step": 1184
    },
    {
      "epoch": 0.1618244511966133,
      "grad_norm": 0.0005907994927838445,
      "learning_rate": 0.00013299248465291214,
      "loss": 46.0,
      "step": 1185
    },
    {
      "epoch": 0.16196101191492268,
      "grad_norm": 0.002715210895985365,
      "learning_rate": 0.00013289327963412513,
      "loss": 46.0,
      "step": 1186
    },
    {
      "epoch": 0.16209757263323205,
      "grad_norm": 0.001038241432979703,
      "learning_rate": 0.00013279403830213942,
      "loss": 46.0,
      "step": 1187
    },
    {
      "epoch": 0.16223413335154144,
      "grad_norm": 0.0015468295896425843,
      "learning_rate": 0.00013269476076651447,
      "loss": 46.0,
      "step": 1188
    },
    {
      "epoch": 0.1623706940698508,
      "grad_norm": 0.0017287740483880043,
      "learning_rate": 0.00013259544713684974,
      "loss": 46.0,
      "step": 1189
    },
    {
      "epoch": 0.1625072547881602,
      "grad_norm": 0.0018615883309394121,
      "learning_rate": 0.00013249609752278454,
      "loss": 46.0,
      "step": 1190
    },
    {
      "epoch": 0.16264381550646956,
      "grad_norm": 0.00047380104660987854,
      "learning_rate": 0.0001323967120339978,
      "loss": 46.0,
      "step": 1191
    },
    {
      "epoch": 0.16278037622477895,
      "grad_norm": 0.001483297673985362,
      "learning_rate": 0.00013229729078020823,
      "loss": 46.0,
      "step": 1192
    },
    {
      "epoch": 0.16291693694308831,
      "grad_norm": 0.0004559273656923324,
      "learning_rate": 0.00013219783387117385,
      "loss": 46.0,
      "step": 1193
    },
    {
      "epoch": 0.1630534976613977,
      "grad_norm": 0.0008615512633696198,
      "learning_rate": 0.00013209834141669213,
      "loss": 46.0,
      "step": 1194
    },
    {
      "epoch": 0.16319005837970707,
      "grad_norm": 0.0005908702732995152,
      "learning_rate": 0.0001319988135265998,
      "loss": 46.0,
      "step": 1195
    },
    {
      "epoch": 0.16332661909801646,
      "grad_norm": 0.0008730573463253677,
      "learning_rate": 0.00013189925031077267,
      "loss": 46.0,
      "step": 1196
    },
    {
      "epoch": 0.16346317981632583,
      "grad_norm": 0.0012465447653084993,
      "learning_rate": 0.00013179965187912554,
      "loss": 46.0,
      "step": 1197
    },
    {
      "epoch": 0.16359974053463522,
      "grad_norm": 0.0013986461563035846,
      "learning_rate": 0.00013170001834161209,
      "loss": 46.0,
      "step": 1198
    },
    {
      "epoch": 0.16373630125294458,
      "grad_norm": 0.0011632711393758655,
      "learning_rate": 0.0001316003498082248,
      "loss": 46.0,
      "step": 1199
    },
    {
      "epoch": 0.16387286197125397,
      "grad_norm": 0.001200903090648353,
      "learning_rate": 0.0001315006463889948,
      "loss": 46.0,
      "step": 1200
    },
    {
      "epoch": 0.16387286197125397,
      "eval_loss": 11.5,
      "eval_runtime": 20.5706,
      "eval_samples_per_second": 149.923,
      "eval_steps_per_second": 74.961,
      "step": 1200
    }
  ],
  "logging_steps": 1,
  "max_steps": 3000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 300,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 3
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 42923841650688.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}