{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 200,
  "global_step": 3252,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009225092250922509,
      "grad_norm": 9.216251979924113,
      "learning_rate": 0.0,
      "loss": 1.1386,
      "step": 1
    },
    {
      "epoch": 0.004612546125461255,
      "grad_norm": 9.265663963684933,
      "learning_rate": 2.45398773006135e-07,
      "loss": 1.1356,
      "step": 5
    },
    {
      "epoch": 0.00922509225092251,
      "grad_norm": 5.379773922138807,
      "learning_rate": 5.521472392638038e-07,
      "loss": 1.1078,
      "step": 10
    },
    {
      "epoch": 0.013837638376383764,
      "grad_norm": 3.1833820798612313,
      "learning_rate": 8.588957055214725e-07,
      "loss": 1.0446,
      "step": 15
    },
    {
      "epoch": 0.01845018450184502,
      "grad_norm": 3.7414115093127966,
      "learning_rate": 1.165644171779141e-06,
      "loss": 1.027,
      "step": 20
    },
    {
      "epoch": 0.023062730627306273,
      "grad_norm": 2.077966946821524,
      "learning_rate": 1.47239263803681e-06,
      "loss": 1.0126,
      "step": 25
    },
    {
      "epoch": 0.027675276752767528,
      "grad_norm": 1.976442561168195,
      "learning_rate": 1.7791411042944787e-06,
      "loss": 0.9766,
      "step": 30
    },
    {
      "epoch": 0.03228782287822878,
      "grad_norm": 2.0558473198791685,
      "learning_rate": 2.085889570552147e-06,
      "loss": 0.9988,
      "step": 35
    },
    {
      "epoch": 0.03690036900369004,
      "grad_norm": 2.0823124494571843,
      "learning_rate": 2.392638036809816e-06,
      "loss": 1.0026,
      "step": 40
    },
    {
      "epoch": 0.04151291512915129,
      "grad_norm": 1.8983417897768358,
      "learning_rate": 2.699386503067485e-06,
      "loss": 0.9786,
      "step": 45
    },
    {
      "epoch": 0.046125461254612546,
      "grad_norm": 2.157480675022155,
      "learning_rate": 3.0061349693251535e-06,
      "loss": 0.9712,
      "step": 50
    },
    {
      "epoch": 0.0507380073800738,
      "grad_norm": 1.770274327543251,
      "learning_rate": 3.312883435582822e-06,
      "loss": 0.9703,
      "step": 55
    },
    {
      "epoch": 0.055350553505535055,
      "grad_norm": 1.7607024339948523,
      "learning_rate": 3.6196319018404913e-06,
      "loss": 0.9819,
      "step": 60
    },
    {
      "epoch": 0.05996309963099631,
      "grad_norm": 1.7629489637063536,
      "learning_rate": 3.92638036809816e-06,
      "loss": 0.9814,
      "step": 65
    },
    {
      "epoch": 0.06457564575645756,
      "grad_norm": 1.9708586699192496,
      "learning_rate": 4.233128834355829e-06,
      "loss": 0.9581,
      "step": 70
    },
    {
      "epoch": 0.06918819188191883,
      "grad_norm": 1.8360638750389535,
      "learning_rate": 4.539877300613497e-06,
      "loss": 0.9631,
      "step": 75
    },
    {
      "epoch": 0.07380073800738007,
      "grad_norm": 2.267503391793938,
      "learning_rate": 4.846625766871166e-06,
      "loss": 0.9544,
      "step": 80
    },
    {
      "epoch": 0.07841328413284133,
      "grad_norm": 1.884337413377388,
      "learning_rate": 5.153374233128835e-06,
      "loss": 0.972,
      "step": 85
    },
    {
      "epoch": 0.08302583025830258,
      "grad_norm": 1.8743154625885863,
      "learning_rate": 5.460122699386503e-06,
      "loss": 0.9697,
      "step": 90
    },
    {
      "epoch": 0.08763837638376384,
      "grad_norm": 2.1189085616099,
      "learning_rate": 5.766871165644172e-06,
      "loss": 0.9741,
      "step": 95
    },
    {
      "epoch": 0.09225092250922509,
      "grad_norm": 2.212060434062884,
      "learning_rate": 6.073619631901841e-06,
      "loss": 0.9798,
      "step": 100
    },
    {
      "epoch": 0.09686346863468635,
      "grad_norm": 1.929193262402203,
      "learning_rate": 6.38036809815951e-06,
      "loss": 1.0036,
      "step": 105
    },
    {
      "epoch": 0.1014760147601476,
      "grad_norm": 2.003660126750222,
      "learning_rate": 6.687116564417178e-06,
      "loss": 0.9857,
      "step": 110
    },
    {
      "epoch": 0.10608856088560886,
      "grad_norm": 1.8476735746280122,
      "learning_rate": 6.993865030674847e-06,
      "loss": 0.991,
      "step": 115
    },
    {
      "epoch": 0.11070110701107011,
      "grad_norm": 1.8581099924431381,
      "learning_rate": 7.300613496932516e-06,
      "loss": 0.971,
      "step": 120
    },
    {
      "epoch": 0.11531365313653137,
      "grad_norm": 1.9178224374591495,
      "learning_rate": 7.6073619631901856e-06,
      "loss": 0.9944,
      "step": 125
    },
    {
      "epoch": 0.11992619926199262,
      "grad_norm": 1.942003358498506,
      "learning_rate": 7.914110429447854e-06,
      "loss": 0.9674,
      "step": 130
    },
    {
      "epoch": 0.12453874538745388,
      "grad_norm": 2.1197747747438154,
      "learning_rate": 8.220858895705522e-06,
      "loss": 0.9963,
      "step": 135
    },
    {
      "epoch": 0.12915129151291513,
      "grad_norm": 1.8664824635600694,
      "learning_rate": 8.527607361963191e-06,
      "loss": 0.9926,
      "step": 140
    },
    {
      "epoch": 0.13376383763837638,
      "grad_norm": 2.0058004450691347,
      "learning_rate": 8.83435582822086e-06,
      "loss": 0.9712,
      "step": 145
    },
    {
      "epoch": 0.13837638376383765,
      "grad_norm": 1.7687908496159355,
      "learning_rate": 9.14110429447853e-06,
      "loss": 0.9593,
      "step": 150
    },
    {
      "epoch": 0.1429889298892989,
      "grad_norm": 2.245349299711709,
      "learning_rate": 9.447852760736197e-06,
      "loss": 1.0105,
      "step": 155
    },
    {
      "epoch": 0.14760147601476015,
      "grad_norm": 2.3027490792265186,
      "learning_rate": 9.754601226993867e-06,
      "loss": 0.9674,
      "step": 160
    },
    {
      "epoch": 0.1522140221402214,
      "grad_norm": 1.7846972073040872,
      "learning_rate": 1.0061349693251534e-05,
      "loss": 0.9759,
      "step": 165
    },
    {
      "epoch": 0.15682656826568267,
      "grad_norm": 2.3489880483587093,
      "learning_rate": 1.0368098159509204e-05,
      "loss": 0.9795,
      "step": 170
    },
    {
      "epoch": 0.16143911439114392,
      "grad_norm": 1.8342564944945305,
      "learning_rate": 1.0674846625766873e-05,
      "loss": 0.9652,
      "step": 175
    },
    {
      "epoch": 0.16605166051660517,
      "grad_norm": 2.0880839713049935,
      "learning_rate": 1.0981595092024542e-05,
      "loss": 0.9802,
      "step": 180
    },
    {
      "epoch": 0.1706642066420664,
      "grad_norm": 2.0564885394915584,
      "learning_rate": 1.1288343558282208e-05,
      "loss": 0.9879,
      "step": 185
    },
    {
      "epoch": 0.1752767527675277,
      "grad_norm": 1.8924944592502544,
      "learning_rate": 1.1595092024539878e-05,
      "loss": 0.9721,
      "step": 190
    },
    {
      "epoch": 0.17988929889298894,
      "grad_norm": 1.826625526770449,
      "learning_rate": 1.1901840490797547e-05,
      "loss": 0.9796,
      "step": 195
    },
    {
      "epoch": 0.18450184501845018,
      "grad_norm": 2.204915779056281,
      "learning_rate": 1.2208588957055216e-05,
      "loss": 0.9838,
      "step": 200
    },
    {
      "epoch": 0.18450184501845018,
      "eval_loss": 0.99369215965271,
      "eval_runtime": 539.2617,
      "eval_samples_per_second": 28.465,
      "eval_steps_per_second": 0.111,
      "step": 200
    },
    {
      "epoch": 0.18911439114391143,
      "grad_norm": 1.9931165010626688,
      "learning_rate": 1.2515337423312886e-05,
      "loss": 0.9757,
      "step": 205
    },
    {
      "epoch": 0.1937269372693727,
      "grad_norm": 1.9621352935552971,
      "learning_rate": 1.2822085889570552e-05,
      "loss": 0.9591,
      "step": 210
    },
    {
      "epoch": 0.19833948339483395,
      "grad_norm": 2.2039217203491632,
      "learning_rate": 1.3128834355828221e-05,
      "loss": 0.9738,
      "step": 215
    },
    {
      "epoch": 0.2029520295202952,
      "grad_norm": 1.8509141089097243,
      "learning_rate": 1.343558282208589e-05,
      "loss": 0.9966,
      "step": 220
    },
    {
      "epoch": 0.20756457564575645,
      "grad_norm": 1.8414622043228284,
      "learning_rate": 1.374233128834356e-05,
      "loss": 1.0021,
      "step": 225
    },
    {
      "epoch": 0.21217712177121772,
      "grad_norm": 1.80163089612214,
      "learning_rate": 1.4049079754601229e-05,
      "loss": 0.9831,
      "step": 230
    },
    {
      "epoch": 0.21678966789667897,
      "grad_norm": 2.0579916481946983,
      "learning_rate": 1.4355828220858897e-05,
      "loss": 1.003,
      "step": 235
    },
    {
      "epoch": 0.22140221402214022,
      "grad_norm": 2.17279455840179,
      "learning_rate": 1.4662576687116566e-05,
      "loss": 0.9951,
      "step": 240
    },
    {
      "epoch": 0.22601476014760147,
      "grad_norm": 1.9598270944099394,
      "learning_rate": 1.4969325153374235e-05,
      "loss": 0.9963,
      "step": 245
    },
    {
      "epoch": 0.23062730627306274,
      "grad_norm": 1.7398200214510018,
      "learning_rate": 1.5276073619631903e-05,
      "loss": 0.995,
      "step": 250
    },
    {
      "epoch": 0.235239852398524,
      "grad_norm": 1.8787859113099807,
      "learning_rate": 1.5582822085889574e-05,
      "loss": 1.0017,
      "step": 255
    },
    {
      "epoch": 0.23985239852398524,
      "grad_norm": 1.68690066175367,
      "learning_rate": 1.5889570552147238e-05,
      "loss": 1.0063,
      "step": 260
    },
    {
      "epoch": 0.2444649446494465,
      "grad_norm": 1.8827477836410789,
      "learning_rate": 1.619631901840491e-05,
      "loss": 1.0143,
      "step": 265
    },
    {
      "epoch": 0.24907749077490776,
      "grad_norm": 1.7349433277324904,
      "learning_rate": 1.6503067484662577e-05,
      "loss": 1.0152,
      "step": 270
    },
    {
      "epoch": 0.253690036900369,
      "grad_norm": 1.8180747657522185,
      "learning_rate": 1.6809815950920248e-05,
      "loss": 1.0022,
      "step": 275
    },
    {
      "epoch": 0.25830258302583026,
      "grad_norm": 2.2464010609362735,
      "learning_rate": 1.7116564417177916e-05,
      "loss": 1.0131,
      "step": 280
    },
    {
      "epoch": 0.2629151291512915,
      "grad_norm": 1.659157693268852,
      "learning_rate": 1.7423312883435583e-05,
      "loss": 1.0029,
      "step": 285
    },
    {
      "epoch": 0.26752767527675275,
      "grad_norm": 1.8259012389516431,
      "learning_rate": 1.7730061349693254e-05,
      "loss": 1.0149,
      "step": 290
    },
    {
      "epoch": 0.272140221402214,
      "grad_norm": 1.7620006504062913,
      "learning_rate": 1.8036809815950922e-05,
      "loss": 1.0058,
      "step": 295
    },
    {
      "epoch": 0.2767527675276753,
      "grad_norm": 1.8231421170705873,
      "learning_rate": 1.834355828220859e-05,
      "loss": 1.0157,
      "step": 300
    },
    {
      "epoch": 0.28136531365313655,
      "grad_norm": 1.7640621041852131,
      "learning_rate": 1.8650306748466257e-05,
      "loss": 0.9917,
      "step": 305
    },
    {
      "epoch": 0.2859778597785978,
      "grad_norm": 1.6216889282252938,
      "learning_rate": 1.8957055214723928e-05,
      "loss": 1.0176,
      "step": 310
    },
    {
      "epoch": 0.29059040590405905,
      "grad_norm": 1.8784106605665698,
      "learning_rate": 1.9263803680981596e-05,
      "loss": 1.0092,
      "step": 315
    },
    {
      "epoch": 0.2952029520295203,
      "grad_norm": 1.7812979855381206,
      "learning_rate": 1.9570552147239267e-05,
      "loss": 1.0122,
      "step": 320
    },
    {
      "epoch": 0.29981549815498154,
      "grad_norm": 2.7924898972312375,
      "learning_rate": 1.9877300613496935e-05,
      "loss": 1.0214,
      "step": 325
    },
    {
      "epoch": 0.3044280442804428,
      "grad_norm": 1.9196461092563228,
      "learning_rate": 1.999994812438719e-05,
      "loss": 1.037,
      "step": 330
    },
    {
      "epoch": 0.30904059040590404,
      "grad_norm": 1.9675689878341092,
      "learning_rate": 1.9999631108702447e-05,
      "loss": 1.0322,
      "step": 335
    },
    {
      "epoch": 0.31365313653136534,
      "grad_norm": 1.965168599936586,
      "learning_rate": 1.999902590624309e-05,
      "loss": 1.0217,
      "step": 340
    },
    {
      "epoch": 0.3182656826568266,
      "grad_norm": 2.0547134862700225,
      "learning_rate": 1.9998132534450893e-05,
      "loss": 1.0312,
      "step": 345
    },
    {
      "epoch": 0.32287822878228783,
      "grad_norm": 1.8052849563747033,
      "learning_rate": 1.9996951019072605e-05,
      "loss": 1.0062,
      "step": 350
    },
    {
      "epoch": 0.3274907749077491,
      "grad_norm": 1.7264405471248967,
      "learning_rate": 1.999548139415919e-05,
      "loss": 1.0176,
      "step": 355
    },
    {
      "epoch": 0.33210332103321033,
      "grad_norm": 3.9478371721075995,
      "learning_rate": 1.9993723702064852e-05,
      "loss": 1.0241,
      "step": 360
    },
    {
      "epoch": 0.3367158671586716,
      "grad_norm": 1.8206235491040932,
      "learning_rate": 1.9991677993445832e-05,
      "loss": 1.0172,
      "step": 365
    },
    {
      "epoch": 0.3413284132841328,
      "grad_norm": 1.936656750339234,
      "learning_rate": 1.998934432725891e-05,
      "loss": 1.0395,
      "step": 370
    },
    {
      "epoch": 0.3459409594095941,
      "grad_norm": 1.719646103111977,
      "learning_rate": 1.998672277075975e-05,
      "loss": 1.0242,
      "step": 375
    },
    {
      "epoch": 0.3505535055350554,
      "grad_norm": 1.64985869025976,
      "learning_rate": 1.998381339950093e-05,
      "loss": 1.0168,
      "step": 380
    },
    {
      "epoch": 0.3551660516605166,
      "grad_norm": 1.5355798843409723,
      "learning_rate": 1.9980616297329764e-05,
      "loss": 1.0,
      "step": 385
    },
    {
      "epoch": 0.35977859778597787,
      "grad_norm": 1.530082699368783,
      "learning_rate": 1.997713155638592e-05,
      "loss": 1.0086,
      "step": 390
    },
    {
      "epoch": 0.3643911439114391,
      "grad_norm": 1.803426492693465,
      "learning_rate": 1.997335927709872e-05,
      "loss": 1.0318,
      "step": 395
    },
    {
      "epoch": 0.36900369003690037,
      "grad_norm": 1.7841711948275436,
      "learning_rate": 1.9969299568184276e-05,
      "loss": 1.0162,
      "step": 400
    },
    {
      "epoch": 0.36900369003690037,
      "eval_loss": 1.032899022102356,
      "eval_runtime": 476.7218,
      "eval_samples_per_second": 32.199,
      "eval_steps_per_second": 0.126,
      "step": 400
    },
    {
      "epoch": 0.3736162361623616,
      "grad_norm": 1.750763339163792,
      "learning_rate": 1.996495254664235e-05,
      "loss": 1.0238,
      "step": 405
    },
    {
      "epoch": 0.37822878228782286,
      "grad_norm": 2.084259407603671,
      "learning_rate": 1.996031833775297e-05,
      "loss": 1.0144,
      "step": 410
    },
    {
      "epoch": 0.3828413284132841,
      "grad_norm": 1.581188361061769,
      "learning_rate": 1.995539707507284e-05,
      "loss": 1.0034,
      "step": 415
    },
    {
      "epoch": 0.3874538745387454,
      "grad_norm": 1.6642375432029033,
      "learning_rate": 1.9950188900431464e-05,
      "loss": 1.0452,
      "step": 420
    },
    {
      "epoch": 0.39206642066420666,
      "grad_norm": 1.90454885480689,
      "learning_rate": 1.9944693963927092e-05,
      "loss": 1.0156,
      "step": 425
    },
    {
      "epoch": 0.3966789667896679,
      "grad_norm": 1.9076933400032088,
      "learning_rate": 1.9938912423922368e-05,
      "loss": 1.0243,
      "step": 430
    },
    {
      "epoch": 0.40129151291512916,
      "grad_norm": 1.5419487099448481,
      "learning_rate": 1.9932844447039775e-05,
      "loss": 1.0036,
      "step": 435
    },
    {
      "epoch": 0.4059040590405904,
      "grad_norm": 1.5469597080761535,
      "learning_rate": 1.992649020815683e-05,
      "loss": 1.0216,
      "step": 440
    },
    {
      "epoch": 0.41051660516605165,
      "grad_norm": 1.727534201068121,
      "learning_rate": 1.991984989040105e-05,
      "loss": 1.023,
      "step": 445
    },
    {
      "epoch": 0.4151291512915129,
      "grad_norm": 1.5601876251457003,
      "learning_rate": 1.9912923685144673e-05,
      "loss": 1.0309,
      "step": 450
    },
    {
      "epoch": 0.41974169741697415,
      "grad_norm": 1.5739530073618044,
      "learning_rate": 1.9905711791999135e-05,
      "loss": 1.009,
      "step": 455
    },
    {
      "epoch": 0.42435424354243545,
      "grad_norm": 1.676935183830041,
      "learning_rate": 1.989821441880933e-05,
      "loss": 1.01,
      "step": 460
    },
    {
      "epoch": 0.4289667896678967,
      "grad_norm": 1.6489937405447432,
      "learning_rate": 1.98904317816476e-05,
      "loss": 1.023,
      "step": 465
    },
    {
      "epoch": 0.43357933579335795,
      "grad_norm": 1.5735733105955712,
      "learning_rate": 1.9882364104807536e-05,
      "loss": 1.0348,
      "step": 470
    },
    {
      "epoch": 0.4381918819188192,
      "grad_norm": 1.549624253561804,
      "learning_rate": 1.9874011620797494e-05,
      "loss": 1.0302,
      "step": 475
    },
    {
      "epoch": 0.44280442804428044,
      "grad_norm": 1.5401331906305855,
      "learning_rate": 1.9865374570333887e-05,
      "loss": 1.0217,
      "step": 480
    },
    {
      "epoch": 0.4474169741697417,
      "grad_norm": 1.5202857812071402,
      "learning_rate": 1.9856453202334277e-05,
      "loss": 1.0388,
      "step": 485
    },
    {
      "epoch": 0.45202952029520294,
      "grad_norm": 1.7005961483689318,
      "learning_rate": 1.9847247773910176e-05,
      "loss": 1.0167,
      "step": 490
    },
    {
      "epoch": 0.4566420664206642,
      "grad_norm": 1.7121845874238086,
      "learning_rate": 1.9837758550359637e-05,
      "loss": 1.0041,
      "step": 495
    },
    {
      "epoch": 0.4612546125461255,
      "grad_norm": 1.6923734480662047,
      "learning_rate": 1.9827985805159626e-05,
      "loss": 1.0378,
      "step": 500
    },
    {
      "epoch": 0.46586715867158673,
      "grad_norm": 1.756497601027887,
      "learning_rate": 1.981792981995812e-05,
      "loss": 1.0148,
      "step": 505
    },
    {
      "epoch": 0.470479704797048,
      "grad_norm": 1.6043365874775524,
      "learning_rate": 1.980759088456601e-05,
      "loss": 1.0306,
      "step": 510
    },
    {
      "epoch": 0.47509225092250923,
      "grad_norm": 1.5593042352189914,
      "learning_rate": 1.9796969296948723e-05,
      "loss": 1.0384,
      "step": 515
    },
    {
      "epoch": 0.4797047970479705,
      "grad_norm": 1.8356964322880667,
      "learning_rate": 1.978606536321767e-05,
      "loss": 1.0277,
      "step": 520
    },
    {
      "epoch": 0.4843173431734317,
      "grad_norm": 1.5388627493896347,
      "learning_rate": 1.9774879397621387e-05,
      "loss": 1.0089,
      "step": 525
    },
    {
      "epoch": 0.488929889298893,
      "grad_norm": 1.5717047981647194,
      "learning_rate": 1.9763411722536503e-05,
      "loss": 1.0206,
      "step": 530
    },
    {
      "epoch": 0.4935424354243542,
      "grad_norm": 1.673580231538279,
      "learning_rate": 1.9751662668458434e-05,
      "loss": 1.0071,
      "step": 535
    },
    {
      "epoch": 0.4981549815498155,
      "grad_norm": 1.977373456991288,
      "learning_rate": 1.9739632573991877e-05,
      "loss": 1.0223,
      "step": 540
    },
    {
      "epoch": 0.5027675276752768,
      "grad_norm": 1.6746529870758962,
      "learning_rate": 1.9727321785841028e-05,
      "loss": 1.0105,
      "step": 545
    },
    {
      "epoch": 0.507380073800738,
      "grad_norm": 1.515127525498714,
      "learning_rate": 1.9714730658799616e-05,
      "loss": 1.0159,
      "step": 550
    },
    {
      "epoch": 0.5119926199261993,
      "grad_norm": 1.563050922669026,
      "learning_rate": 1.9701859555740647e-05,
      "loss": 1.026,
      "step": 555
    },
    {
      "epoch": 0.5166051660516605,
      "grad_norm": 1.635916190051428,
      "learning_rate": 1.9688708847605977e-05,
      "loss": 1.0148,
      "step": 560
    },
    {
      "epoch": 0.5212177121771218,
      "grad_norm": 1.6077492732765468,
      "learning_rate": 1.9675278913395605e-05,
      "loss": 1.0126,
      "step": 565
    },
    {
      "epoch": 0.525830258302583,
      "grad_norm": 1.6108748420566017,
      "learning_rate": 1.9661570140156746e-05,
      "loss": 1.0116,
      "step": 570
    },
    {
      "epoch": 0.5304428044280443,
      "grad_norm": 1.433325441089538,
      "learning_rate": 1.9647582922972696e-05,
      "loss": 1.012,
      "step": 575
    },
    {
      "epoch": 0.5350553505535055,
      "grad_norm": 1.5420337235660757,
      "learning_rate": 1.9633317664951418e-05,
      "loss": 1.0122,
      "step": 580
    },
    {
      "epoch": 0.5396678966789668,
      "grad_norm": 1.5924684100513768,
      "learning_rate": 1.9618774777213954e-05,
      "loss": 1.0109,
      "step": 585
    },
    {
      "epoch": 0.544280442804428,
      "grad_norm": 1.5313594203853436,
      "learning_rate": 1.960395467888255e-05,
      "loss": 1.0031,
      "step": 590
    },
    {
      "epoch": 0.5488929889298892,
      "grad_norm": 1.4655266545088188,
      "learning_rate": 1.9588857797068602e-05,
      "loss": 1.0315,
      "step": 595
    },
    {
      "epoch": 0.5535055350553506,
      "grad_norm": 1.5909950744220547,
      "learning_rate": 1.957348456686032e-05,
      "loss": 1.0095,
      "step": 600
    },
    {
      "epoch": 0.5535055350553506,
      "eval_loss": 1.0302140712738037,
      "eval_runtime": 620.3005,
      "eval_samples_per_second": 24.746,
      "eval_steps_per_second": 0.097,
      "step": 600
    },
    {
      "epoch": 0.5581180811808119,
      "grad_norm": 1.7854466441111572,
      "learning_rate": 1.955783543131022e-05,
      "loss": 1.0181,
      "step": 605
    },
    {
      "epoch": 0.5627306273062731,
      "grad_norm": 1.5564929489350854,
      "learning_rate": 1.9541910841422324e-05,
      "loss": 1.0259,
      "step": 610
    },
    {
      "epoch": 0.5673431734317343,
      "grad_norm": 1.4897983626795097,
      "learning_rate": 1.952571125613918e-05,
      "loss": 1.0108,
      "step": 615
    },
    {
      "epoch": 0.5719557195571956,
      "grad_norm": 1.6487054053969497,
      "learning_rate": 1.9509237142328638e-05,
      "loss": 1.0217,
      "step": 620
    },
    {
      "epoch": 0.5765682656826568,
      "grad_norm": 1.55798491461706,
      "learning_rate": 1.949248897477038e-05,
      "loss": 1.0095,
      "step": 625
    },
    {
      "epoch": 0.5811808118081181,
      "grad_norm": 1.5666282016035418,
      "learning_rate": 1.9475467236142252e-05,
      "loss": 1.0197,
      "step": 630
    },
    {
      "epoch": 0.5857933579335793,
      "grad_norm": 1.5475535188970362,
      "learning_rate": 1.9458172417006347e-05,
      "loss": 1.029,
      "step": 635
    },
    {
      "epoch": 0.5904059040590406,
      "grad_norm": 1.6315436927424156,
      "learning_rate": 1.944060501579487e-05,
      "loss": 1.0298,
      "step": 640
    },
    {
      "epoch": 0.5950184501845018,
      "grad_norm": 1.468711297047145,
      "learning_rate": 1.9422765538795758e-05,
      "loss": 1.0018,
      "step": 645
    },
    {
      "epoch": 0.5996309963099631,
      "grad_norm": 1.518389031402169,
      "learning_rate": 1.9404654500138117e-05,
      "loss": 1.0226,
      "step": 650
    },
    {
      "epoch": 0.6042435424354243,
      "grad_norm": 1.4592808647120747,
      "learning_rate": 1.938627242177738e-05,
      "loss": 1.0174,
      "step": 655
    },
    {
      "epoch": 0.6088560885608856,
      "grad_norm": 1.480051570474581,
      "learning_rate": 1.936761983348028e-05,
      "loss": 1.0063,
      "step": 660
    },
    {
      "epoch": 0.6134686346863468,
      "grad_norm": 1.5455098945055998,
      "learning_rate": 1.9348697272809568e-05,
      "loss": 1.0186,
      "step": 665
    },
    {
      "epoch": 0.6180811808118081,
      "grad_norm": 1.467795849616486,
      "learning_rate": 1.9329505285108544e-05,
      "loss": 1.0223,
      "step": 670
    },
    {
      "epoch": 0.6226937269372693,
      "grad_norm": 1.4583083150731897,
      "learning_rate": 1.9310044423485303e-05,
      "loss": 1.0188,
      "step": 675
    },
    {
      "epoch": 0.6273062730627307,
      "grad_norm": 1.4520145261143442,
      "learning_rate": 1.9290315248796834e-05,
      "loss": 1.0148,
      "step": 680
    },
    {
      "epoch": 0.6319188191881919,
      "grad_norm": 1.545625151246913,
      "learning_rate": 1.9270318329632833e-05,
      "loss": 1.0124,
      "step": 685
    },
    {
      "epoch": 0.6365313653136532,
      "grad_norm": 1.5081286119716983,
      "learning_rate": 1.925005424229933e-05,
      "loss": 1.0122,
      "step": 690
    },
    {
      "epoch": 0.6411439114391144,
      "grad_norm": 1.5771614507281495,
      "learning_rate": 1.922952357080205e-05,
      "loss": 1.0304,
      "step": 695
    },
    {
      "epoch": 0.6457564575645757,
      "grad_norm": 1.3712078687992697,
      "learning_rate": 1.9208726906829637e-05,
      "loss": 0.9935,
      "step": 700
    },
    {
      "epoch": 0.6503690036900369,
      "grad_norm": 1.514260367509165,
      "learning_rate": 1.9187664849736542e-05,
      "loss": 0.9928,
      "step": 705
    },
    {
      "epoch": 0.6549815498154982,
      "grad_norm": 1.4337714275045377,
      "learning_rate": 1.9166338006525786e-05,
      "loss": 0.9999,
      "step": 710
    },
    {
      "epoch": 0.6595940959409594,
      "grad_norm": 1.5474123891067624,
      "learning_rate": 1.9144746991831463e-05,
      "loss": 1.0136,
      "step": 715
    },
    {
      "epoch": 0.6642066420664207,
      "grad_norm": 1.6417540187004078,
      "learning_rate": 1.9122892427901015e-05,
      "loss": 1.0148,
      "step": 720
    },
    {
      "epoch": 0.6688191881918819,
      "grad_norm": 1.4429113958532114,
      "learning_rate": 1.9100774944577303e-05,
      "loss": 1.0054,
      "step": 725
    },
    {
      "epoch": 0.6734317343173432,
      "grad_norm": 1.5435502423447707,
      "learning_rate": 1.907839517928046e-05,
      "loss": 1.0042,
      "step": 730
    },
    {
      "epoch": 0.6780442804428044,
      "grad_norm": 1.6291068946061023,
      "learning_rate": 1.9055753776989516e-05,
      "loss": 1.0095,
      "step": 735
    },
    {
      "epoch": 0.6826568265682657,
      "grad_norm": 1.5269546110275527,
      "learning_rate": 1.903285139022381e-05,
      "loss": 1.0091,
      "step": 740
    },
    {
      "epoch": 0.6872693726937269,
      "grad_norm": 1.6910985232351008,
      "learning_rate": 1.900968867902419e-05,
      "loss": 1.0105,
      "step": 745
    },
    {
      "epoch": 0.6918819188191881,
      "grad_norm": 1.473141009294655,
      "learning_rate": 1.898626631093399e-05,
      "loss": 1.0016,
      "step": 750
    },
    {
      "epoch": 0.6964944649446494,
      "grad_norm": 1.6512202388953925,
      "learning_rate": 1.896258496097977e-05,
      "loss": 1.0119,
      "step": 755
    },
    {
      "epoch": 0.7011070110701108,
      "grad_norm": 1.4887026369918788,
      "learning_rate": 1.8938645311651904e-05,
      "loss": 1.0087,
      "step": 760
    },
    {
      "epoch": 0.705719557195572,
      "grad_norm": 1.3843944368722685,
      "learning_rate": 1.891444805288487e-05,
      "loss": 1.0091,
      "step": 765
    },
    {
      "epoch": 0.7103321033210332,
      "grad_norm": 1.428126710831411,
      "learning_rate": 1.888999388203739e-05,
      "loss": 1.0059,
      "step": 770
    },
    {
      "epoch": 0.7149446494464945,
      "grad_norm": 1.4390802486166878,
      "learning_rate": 1.8865283503872325e-05,
      "loss": 0.9994,
      "step": 775
    },
    {
      "epoch": 0.7195571955719557,
      "grad_norm": 1.5690316004271283,
      "learning_rate": 1.884031763053636e-05,
      "loss": 0.9996,
      "step": 780
    },
    {
      "epoch": 0.724169741697417,
      "grad_norm": 1.5021545547633912,
      "learning_rate": 1.8815096981539494e-05,
      "loss": 0.9991,
      "step": 785
    },
    {
      "epoch": 0.7287822878228782,
      "grad_norm": 1.4900671252584468,
      "learning_rate": 1.8789622283734283e-05,
      "loss": 1.0101,
      "step": 790
    },
    {
      "epoch": 0.7333948339483395,
      "grad_norm": 1.630926420050374,
      "learning_rate": 1.8763894271294914e-05,
      "loss": 0.9929,
      "step": 795
    },
    {
      "epoch": 0.7380073800738007,
      "grad_norm": 1.3834521402990088,
      "learning_rate": 1.873791368569603e-05,
      "loss": 0.9857,
      "step": 800
    },
    {
      "epoch": 0.7380073800738007,
      "eval_loss": 1.0203672647476196,
      "eval_runtime": 417.6477,
      "eval_samples_per_second": 36.753,
      "eval_steps_per_second": 0.144,
      "step": 800
    },
    {
      "epoch": 0.742619926199262,
      "grad_norm": 1.4145701317152546,
      "learning_rate": 1.8711681275691366e-05,
      "loss": 1.0197,
      "step": 805
    },
    {
      "epoch": 0.7472324723247232,
      "grad_norm": 1.6689498503071274,
      "learning_rate": 1.868519779729218e-05,
      "loss": 1.0399,
      "step": 810
    },
    {
      "epoch": 0.7518450184501845,
      "grad_norm": 1.5473797400416536,
      "learning_rate": 1.8658464013745443e-05,
      "loss": 1.0189,
      "step": 815
    },
    {
      "epoch": 0.7564575645756457,
      "grad_norm": 1.5062087120542231,
      "learning_rate": 1.8631480695511866e-05,
      "loss": 1.0154,
      "step": 820
    },
    {
      "epoch": 0.761070110701107,
      "grad_norm": 1.4715819927221123,
      "learning_rate": 1.8604248620243682e-05,
      "loss": 0.9923,
      "step": 825
    },
    {
      "epoch": 0.7656826568265682,
      "grad_norm": 1.5582751445765881,
      "learning_rate": 1.8576768572762233e-05,
      "loss": 1.0035,
      "step": 830
    },
    {
      "epoch": 0.7702952029520295,
      "grad_norm": 1.5849009070973952,
      "learning_rate": 1.8549041345035354e-05,
      "loss": 1.013,
      "step": 835
    },
    {
      "epoch": 0.7749077490774908,
      "grad_norm": 1.53624381630094,
      "learning_rate": 1.8521067736154567e-05,
      "loss": 1.0212,
      "step": 840
    },
    {
      "epoch": 0.7795202952029521,
      "grad_norm": 1.5482989884986487,
      "learning_rate": 1.8492848552312016e-05,
      "loss": 0.9879,
      "step": 845
    },
    {
      "epoch": 0.7841328413284133,
      "grad_norm": 1.4110912591448512,
      "learning_rate": 1.8464384606777258e-05,
      "loss": 0.9973,
      "step": 850
    },
    {
      "epoch": 0.7887453874538746,
      "grad_norm": 1.4605506515813482,
      "learning_rate": 1.8435676719873828e-05,
      "loss": 1.0007,
      "step": 855
    },
    {
      "epoch": 0.7933579335793358,
      "grad_norm": 1.4855314358619898,
      "learning_rate": 1.8406725718955575e-05,
      "loss": 0.9921,
      "step": 860
    },
    {
      "epoch": 0.7979704797047971,
      "grad_norm": 1.4175285986471877,
      "learning_rate": 1.837753243838283e-05,
      "loss": 0.9947,
      "step": 865
    },
    {
      "epoch": 0.8025830258302583,
      "grad_norm": 1.5124089244421277,
      "learning_rate": 1.834809771949837e-05,
      "loss": 1.0007,
      "step": 870
    },
    {
      "epoch": 0.8071955719557196,
      "grad_norm": 1.6185245778463926,
      "learning_rate": 1.8318422410603162e-05,
      "loss": 1.0005,
      "step": 875
    },
    {
      "epoch": 0.8118081180811808,
      "grad_norm": 1.74728705302942,
      "learning_rate": 1.8288507366931907e-05,
      "loss": 0.9977,
      "step": 880
    },
    {
      "epoch": 0.816420664206642,
      "grad_norm": 1.3700788841960891,
      "learning_rate": 1.8258353450628402e-05,
      "loss": 0.9953,
      "step": 885
    },
    {
      "epoch": 0.8210332103321033,
      "grad_norm": 1.448030688939384,
      "learning_rate": 1.8227961530720696e-05,
      "loss": 0.9927,
      "step": 890
    },
    {
      "epoch": 0.8256457564575646,
      "grad_norm": 1.3860802683248008,
      "learning_rate": 1.819733248309604e-05,
      "loss": 1.0137,
      "step": 895
    },
    {
      "epoch": 0.8302583025830258,
      "grad_norm": 1.3807867910302518,
      "learning_rate": 1.816646719047563e-05,
      "loss": 0.9985,
      "step": 900
    },
    {
      "epoch": 0.834870848708487,
      "grad_norm": 1.5246405968433066,
      "learning_rate": 1.8135366542389202e-05,
      "loss": 0.9965,
      "step": 905
    },
    {
      "epoch": 0.8394833948339483,
      "grad_norm": 1.5298770681063796,
      "learning_rate": 1.8104031435149366e-05,
      "loss": 0.9895,
      "step": 910
    },
    {
      "epoch": 0.8440959409594095,
      "grad_norm": 1.5737628456798298,
      "learning_rate": 1.807246277182578e-05,
      "loss": 1.0016,
      "step": 915
    },
    {
      "epoch": 0.8487084870848709,
      "grad_norm": 1.3867737980631065,
      "learning_rate": 1.8040661462219135e-05,
      "loss": 0.9905,
      "step": 920
    },
    {
      "epoch": 0.8533210332103321,
      "grad_norm": 1.4453648478128216,
      "learning_rate": 1.8008628422834923e-05,
      "loss": 1.0005,
      "step": 925
    },
    {
      "epoch": 0.8579335793357934,
      "grad_norm": 1.612991010163291,
      "learning_rate": 1.797636457685703e-05,
      "loss": 0.9915,
      "step": 930
    },
    {
      "epoch": 0.8625461254612546,
      "grad_norm": 1.4214188542336526,
      "learning_rate": 1.7943870854121126e-05,
      "loss": 0.9822,
      "step": 935
    },
    {
      "epoch": 0.8671586715867159,
      "grad_norm": 1.5619301079989365,
      "learning_rate": 1.791114819108788e-05,
      "loss": 0.9781,
      "step": 940
    },
    {
      "epoch": 0.8717712177121771,
      "grad_norm": 1.575000171763216,
      "learning_rate": 1.787819753081594e-05,
      "loss": 1.0021,
      "step": 945
    },
    {
      "epoch": 0.8763837638376384,
      "grad_norm": 1.5295894907745344,
      "learning_rate": 1.784501982293479e-05,
      "loss": 1.0077,
      "step": 950
    },
    {
      "epoch": 0.8809963099630996,
      "grad_norm": 1.455437508846778,
      "learning_rate": 1.781161602361737e-05,
      "loss": 0.9757,
      "step": 955
    },
    {
      "epoch": 0.8856088560885609,
      "grad_norm": 1.4641943856542534,
      "learning_rate": 1.7777987095552512e-05,
      "loss": 0.9918,
      "step": 960
    },
    {
      "epoch": 0.8902214022140221,
      "grad_norm": 1.56760438004586,
      "learning_rate": 1.7744134007917195e-05,
      "loss": 0.9952,
      "step": 965
    },
    {
      "epoch": 0.8948339483394834,
      "grad_norm": 1.4881030883207977,
      "learning_rate": 1.7710057736348622e-05,
      "loss": 0.9995,
      "step": 970
    },
    {
      "epoch": 0.8994464944649446,
      "grad_norm": 1.4138210092484749,
      "learning_rate": 1.7675759262916105e-05,
      "loss": 0.9814,
      "step": 975
    },
    {
      "epoch": 0.9040590405904059,
      "grad_norm": 1.5269872502666184,
      "learning_rate": 1.764123957609275e-05,
      "loss": 0.9969,
      "step": 980
    },
    {
      "epoch": 0.9086715867158671,
      "grad_norm": 1.4777357727162057,
      "learning_rate": 1.7606499670726972e-05,
      "loss": 0.9922,
      "step": 985
    },
    {
      "epoch": 0.9132841328413284,
      "grad_norm": 1.5422388516772692,
      "learning_rate": 1.7571540548013836e-05,
      "loss": 0.9946,
      "step": 990
    },
    {
      "epoch": 0.9178966789667896,
      "grad_norm": 1.519307824816888,
      "learning_rate": 1.753636321546619e-05,
      "loss": 0.9966,
      "step": 995
    },
    {
      "epoch": 0.922509225092251,
      "grad_norm": 1.4264538885727793,
      "learning_rate": 1.7500968686885634e-05,
      "loss": 0.9803,
      "step": 1000
    },
    {
      "epoch": 0.922509225092251,
      "eval_loss": 1.0050979852676392,
      "eval_runtime": 475.0904,
      "eval_samples_per_second": 32.31,
      "eval_steps_per_second": 0.126,
      "step": 1000
    },
    {
      "epoch": 0.9271217712177122,
      "grad_norm": 1.5178129589503198,
      "learning_rate": 1.7465357982333294e-05,
      "loss": 0.9965,
      "step": 1005
    },
    {
      "epoch": 0.9317343173431735,
      "grad_norm": 1.4749449313002256,
      "learning_rate": 1.742953212810045e-05,
      "loss": 0.998,
      "step": 1010
    },
    {
      "epoch": 0.9363468634686347,
      "grad_norm": 1.4826220358510274,
      "learning_rate": 1.739349215667891e-05,
      "loss": 0.9829,
      "step": 1015
    },
    {
      "epoch": 0.940959409594096,
      "grad_norm": 1.4366615526126456,
      "learning_rate": 1.735723910673132e-05,
      "loss": 0.9847,
      "step": 1020
    },
    {
      "epoch": 0.9455719557195572,
      "grad_norm": 1.4260729595159904,
      "learning_rate": 1.732077402306116e-05,
      "loss": 0.986,
      "step": 1025
    },
    {
      "epoch": 0.9501845018450185,
      "grad_norm": 1.5039785990003167,
      "learning_rate": 1.7284097956582694e-05,
      "loss": 0.9745,
      "step": 1030
    },
    {
      "epoch": 0.9547970479704797,
      "grad_norm": 1.5082306367621992,
      "learning_rate": 1.7247211964290635e-05,
      "loss": 0.9966,
      "step": 1035
    },
    {
      "epoch": 0.959409594095941,
      "grad_norm": 1.4449103838652617,
      "learning_rate": 1.721011710922972e-05,
      "loss": 0.969,
      "step": 1040
    },
    {
      "epoch": 0.9640221402214022,
      "grad_norm": 1.493303736853594,
      "learning_rate": 1.717281446046404e-05,
      "loss": 0.9861,
      "step": 1045
    },
    {
      "epoch": 0.9686346863468634,
      "grad_norm": 1.47859930222641,
      "learning_rate": 1.713530509304627e-05,
      "loss": 0.9962,
      "step": 1050
    },
    {
      "epoch": 0.9732472324723247,
      "grad_norm": 1.4442728791265258,
      "learning_rate": 1.709759008798663e-05,
      "loss": 0.9902,
      "step": 1055
    },
    {
      "epoch": 0.977859778597786,
      "grad_norm": 1.4376492964532295,
      "learning_rate": 1.7059670532221802e-05,
      "loss": 0.9831,
      "step": 1060
    },
    {
      "epoch": 0.9824723247232472,
      "grad_norm": 2.484316021155763,
      "learning_rate": 1.7021547518583536e-05,
      "loss": 0.9813,
      "step": 1065
    },
    {
      "epoch": 0.9870848708487084,
      "grad_norm": 1.4464291734707186,
      "learning_rate": 1.6983222145767198e-05,
      "loss": 0.9902,
      "step": 1070
    },
    {
      "epoch": 0.9916974169741697,
      "grad_norm": 1.5281863553882298,
      "learning_rate": 1.6944695518300087e-05,
      "loss": 0.9807,
      "step": 1075
    },
    {
      "epoch": 0.996309963099631,
      "grad_norm": 1.4201117731708275,
      "learning_rate": 1.6905968746509618e-05,
      "loss": 0.9746,
      "step": 1080
    },
    {
      "epoch": 1.0009225092250922,
      "grad_norm": 2.838028209786232,
      "learning_rate": 1.6867042946491306e-05,
      "loss": 0.9546,
      "step": 1085
    },
    {
      "epoch": 1.0055350553505535,
      "grad_norm": 2.0637438515793582,
      "learning_rate": 1.6827919240076612e-05,
      "loss": 0.7562,
      "step": 1090
    },
    {
      "epoch": 1.0101476014760147,
      "grad_norm": 2.03888870440938,
      "learning_rate": 1.6788598754800602e-05,
      "loss": 0.7325,
      "step": 1095
    },
    {
      "epoch": 1.014760147601476,
      "grad_norm": 1.5943747459674837,
      "learning_rate": 1.6749082623869465e-05,
      "loss": 0.7403,
      "step": 1100
    },
    {
      "epoch": 1.0193726937269372,
      "grad_norm": 1.705271980777924,
      "learning_rate": 1.6709371986127846e-05,
      "loss": 0.749,
      "step": 1105
    },
    {
      "epoch": 1.0239852398523985,
      "grad_norm": 1.7629595253417687,
      "learning_rate": 1.6669467986026012e-05,
      "loss": 0.7087,
      "step": 1110
    },
    {
      "epoch": 1.0285977859778597,
      "grad_norm": 1.6633137977760193,
      "learning_rate": 1.662937177358691e-05,
      "loss": 0.7394,
      "step": 1115
    },
    {
      "epoch": 1.033210332103321,
      "grad_norm": 1.5074327799371463,
      "learning_rate": 1.6589084504372975e-05,
      "loss": 0.7164,
      "step": 1120
    },
    {
      "epoch": 1.0378228782287824,
      "grad_norm": 1.6191564800390028,
      "learning_rate": 1.6548607339452853e-05,
      "loss": 0.7251,
      "step": 1125
    },
    {
      "epoch": 1.0424354243542435,
      "grad_norm": 1.6118486061526904,
      "learning_rate": 1.6507941445367935e-05,
      "loss": 0.7317,
      "step": 1130
    },
    {
      "epoch": 1.0470479704797049,
      "grad_norm": 1.6655447135885555,
      "learning_rate": 1.6467087994098753e-05,
      "loss": 0.7439,
      "step": 1135
    },
    {
      "epoch": 1.051660516605166,
      "grad_norm": 1.8659877314188116,
      "learning_rate": 1.6426048163031155e-05,
      "loss": 0.7311,
      "step": 1140
    },
    {
      "epoch": 1.0562730627306274,
      "grad_norm": 1.6691346554473123,
      "learning_rate": 1.6384823134922444e-05,
      "loss": 0.7304,
      "step": 1145
    },
    {
      "epoch": 1.0608856088560885,
      "grad_norm": 1.6067875332998411,
      "learning_rate": 1.634341409786723e-05,
      "loss": 0.7239,
      "step": 1150
    },
    {
      "epoch": 1.0654981549815499,
      "grad_norm": 1.7410755263145463,
      "learning_rate": 1.6301822245263212e-05,
      "loss": 0.7339,
      "step": 1155
    },
    {
      "epoch": 1.070110701107011,
      "grad_norm": 1.5078513231888042,
      "learning_rate": 1.6260048775776804e-05,
      "loss": 0.7344,
      "step": 1160
    },
    {
      "epoch": 1.0747232472324724,
      "grad_norm": 1.6250331925877979,
      "learning_rate": 1.6218094893308553e-05,
      "loss": 0.7418,
      "step": 1165
    },
    {
      "epoch": 1.0793357933579335,
      "grad_norm": 1.6654181563693542,
      "learning_rate": 1.6175961806958476e-05,
      "loss": 0.7265,
      "step": 1170
    },
    {
      "epoch": 1.0839483394833949,
      "grad_norm": 1.7420998771046359,
      "learning_rate": 1.6133650730991183e-05,
      "loss": 0.723,
      "step": 1175
    },
    {
      "epoch": 1.088560885608856,
      "grad_norm": 1.6483689819198597,
      "learning_rate": 1.609116288480092e-05,
      "loss": 0.7316,
      "step": 1180
    },
    {
      "epoch": 1.0931734317343174,
      "grad_norm": 1.593740794425406,
      "learning_rate": 1.6048499492876378e-05,
      "loss": 0.7374,
      "step": 1185
    },
    {
      "epoch": 1.0977859778597785,
      "grad_norm": 1.5370001403119866,
      "learning_rate": 1.6005661784765453e-05,
      "loss": 0.7457,
      "step": 1190
    },
    {
      "epoch": 1.1023985239852399,
      "grad_norm": 1.4718068363327683,
      "learning_rate": 1.5962650995039783e-05,
      "loss": 0.7328,
      "step": 1195
    },
    {
      "epoch": 1.1070110701107012,
      "grad_norm": 1.5301401714407428,
      "learning_rate": 1.5919468363259164e-05,
      "loss": 0.736,
      "step": 1200
    },
    {
      "epoch": 1.1070110701107012,
      "eval_loss": 1.0061343908309937,
      "eval_runtime": 439.8508,
      "eval_samples_per_second": 34.898,
      "eval_steps_per_second": 0.136,
      "step": 1200
    },
    {
      "epoch": 1.1116236162361623,
      "grad_norm": 1.7064428647610237,
      "learning_rate": 1.587611513393585e-05,
      "loss": 0.7297,
      "step": 1205
    },
    {
      "epoch": 1.1162361623616237,
      "grad_norm": 1.6208328161309395,
      "learning_rate": 1.5832592556498657e-05,
      "loss": 0.7346,
      "step": 1210
    },
    {
      "epoch": 1.1208487084870848,
      "grad_norm": 1.802694495701501,
      "learning_rate": 1.5788901885256983e-05,
      "loss": 0.7365,
      "step": 1215
    },
    {
      "epoch": 1.1254612546125462,
      "grad_norm": 1.5370188196224415,
      "learning_rate": 1.5745044379364637e-05,
      "loss": 0.7305,
      "step": 1220
    },
    {
      "epoch": 1.1300738007380073,
      "grad_norm": 1.4889078253244556,
      "learning_rate": 1.5701021302783557e-05,
      "loss": 0.732,
      "step": 1225
    },
    {
      "epoch": 1.1346863468634687,
      "grad_norm": 1.6294276521184954,
      "learning_rate": 1.56568339242474e-05,
      "loss": 0.7276,
      "step": 1230
    },
    {
      "epoch": 1.1392988929889298,
      "grad_norm": 1.5397859025285652,
      "learning_rate": 1.5612483517224942e-05,
      "loss": 0.7354,
      "step": 1235
    },
    {
      "epoch": 1.1439114391143912,
      "grad_norm": 1.4953485038562,
      "learning_rate": 1.556797135988342e-05,
      "loss": 0.7173,
      "step": 1240
    },
    {
      "epoch": 1.1485239852398523,
      "grad_norm": 1.853185392904802,
      "learning_rate": 1.5523298735051657e-05,
      "loss": 0.7489,
      "step": 1245
    },
    {
      "epoch": 1.1531365313653137,
      "grad_norm": 1.5704541475489389,
      "learning_rate": 1.5478466930183107e-05,
      "loss": 0.7191,
      "step": 1250
    },
    {
      "epoch": 1.1577490774907748,
      "grad_norm": 1.5415559777438193,
      "learning_rate": 1.5433477237318765e-05,
      "loss": 0.7327,
      "step": 1255
    },
    {
      "epoch": 1.1623616236162362,
      "grad_norm": 1.6666092802375732,
      "learning_rate": 1.5388330953049907e-05,
      "loss": 0.7473,
      "step": 1260
    },
    {
      "epoch": 1.1669741697416973,
      "grad_norm": 1.8791358127374613,
      "learning_rate": 1.5343029378480733e-05,
      "loss": 0.7312,
      "step": 1265
    },
    {
      "epoch": 1.1715867158671587,
      "grad_norm": 1.5841817509277247,
      "learning_rate": 1.5297573819190873e-05,
      "loss": 0.7416,
      "step": 1270
    },
    {
      "epoch": 1.17619926199262,
      "grad_norm": 1.5715763468516226,
      "learning_rate": 1.5251965585197748e-05,
      "loss": 0.7307,
      "step": 1275
    },
    {
      "epoch": 1.1808118081180812,
      "grad_norm": 1.5391235781858166,
      "learning_rate": 1.5206205990918836e-05,
      "loss": 0.7212,
      "step": 1280
    },
    {
      "epoch": 1.1854243542435423,
      "grad_norm": 1.5629140884896369,
      "learning_rate": 1.5160296355133773e-05,
      "loss": 0.7312,
      "step": 1285
    },
    {
      "epoch": 1.1900369003690037,
      "grad_norm": 5.396412006514146,
      "learning_rate": 1.5114238000946353e-05,
      "loss": 0.7141,
      "step": 1290
    },
    {
      "epoch": 1.194649446494465,
      "grad_norm": 1.5426421143956044,
      "learning_rate": 1.50680322557464e-05,
      "loss": 0.7308,
      "step": 1295
    },
    {
      "epoch": 1.1992619926199262,
      "grad_norm": 1.6701861441853627,
      "learning_rate": 1.5021680451171499e-05,
      "loss": 0.7415,
      "step": 1300
    },
    {
      "epoch": 1.2038745387453875,
      "grad_norm": 1.5779190034035813,
      "learning_rate": 1.4975183923068637e-05,
      "loss": 0.7302,
      "step": 1305
    },
    {
      "epoch": 1.2084870848708487,
      "grad_norm": 1.619587352430737,
      "learning_rate": 1.492854401145569e-05,
      "loss": 0.7318,
      "step": 1310
    },
    {
      "epoch": 1.21309963099631,
      "grad_norm": 1.619976635054261,
      "learning_rate": 1.4881762060482814e-05,
      "loss": 0.7254,
      "step": 1315
    },
    {
      "epoch": 1.2177121771217712,
      "grad_norm": 1.5945364409345257,
      "learning_rate": 1.48348394183937e-05,
      "loss": 0.7402,
      "step": 1320
    },
    {
      "epoch": 1.2223247232472325,
      "grad_norm": 1.5229514773361725,
      "learning_rate": 1.4787777437486723e-05,
      "loss": 0.7367,
      "step": 1325
    },
    {
      "epoch": 1.2269372693726937,
      "grad_norm": 2.0971835619796932,
      "learning_rate": 1.4740577474075963e-05,
      "loss": 0.7416,
      "step": 1330
    },
    {
      "epoch": 1.231549815498155,
      "grad_norm": 1.5602315222575482,
      "learning_rate": 1.4693240888452121e-05,
      "loss": 0.7375,
      "step": 1335
    },
    {
      "epoch": 1.2361623616236161,
      "grad_norm": 2.090838147725305,
      "learning_rate": 1.4645769044843318e-05,
      "loss": 0.7375,
      "step": 1340
    },
    {
      "epoch": 1.2407749077490775,
      "grad_norm": 1.631256144537058,
      "learning_rate": 1.459816331137577e-05,
      "loss": 0.7463,
      "step": 1345
    },
    {
      "epoch": 1.2453874538745389,
      "grad_norm": 1.6259793781417131,
      "learning_rate": 1.4550425060034367e-05,
      "loss": 0.7237,
      "step": 1350
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.5839497005284708,
      "learning_rate": 1.450255566662313e-05,
      "loss": 0.7267,
      "step": 1355
    },
    {
      "epoch": 1.2546125461254611,
      "grad_norm": 1.4817515646858677,
      "learning_rate": 1.4454556510725556e-05,
      "loss": 0.7384,
      "step": 1360
    },
    {
      "epoch": 1.2592250922509225,
      "grad_norm": 1.619889890472081,
      "learning_rate": 1.4406428975664875e-05,
      "loss": 0.7445,
      "step": 1365
    },
    {
      "epoch": 1.2638376383763839,
      "grad_norm": 1.5742411445585174,
      "learning_rate": 1.4358174448464155e-05,
      "loss": 0.731,
      "step": 1370
    },
    {
      "epoch": 1.268450184501845,
      "grad_norm": 1.5691396578757213,
      "learning_rate": 1.4309794319806356e-05,
      "loss": 0.7445,
      "step": 1375
    },
    {
      "epoch": 1.2730627306273063,
      "grad_norm": 1.5149875801425627,
      "learning_rate": 1.4261289983994236e-05,
      "loss": 0.7265,
      "step": 1380
    },
    {
      "epoch": 1.2776752767527675,
      "grad_norm": 1.5087047437199383,
      "learning_rate": 1.421266283891017e-05,
      "loss": 0.7456,
      "step": 1385
    },
    {
      "epoch": 1.2822878228782288,
      "grad_norm": 1.5718051035987606,
      "learning_rate": 1.4163914285975863e-05,
      "loss": 0.7212,
      "step": 1390
    },
    {
      "epoch": 1.28690036900369,
      "grad_norm": 1.5655345894552062,
      "learning_rate": 1.411504573011197e-05,
      "loss": 0.7112,
      "step": 1395
    },
    {
      "epoch": 1.2915129151291513,
      "grad_norm": 1.6127771597600427,
      "learning_rate": 1.4066058579697593e-05,
      "loss": 0.7249,
      "step": 1400
    },
    {
      "epoch": 1.2915129151291513,
      "eval_loss": 1.000433087348938,
      "eval_runtime": 377.6786,
      "eval_samples_per_second": 40.643,
      "eval_steps_per_second": 0.159,
      "step": 1400
    },
    {
      "epoch": 1.2961254612546125,
      "grad_norm": 1.5789241025710268,
      "learning_rate": 1.4016954246529697e-05,
      "loss": 0.7284,
      "step": 1405
    },
    {
      "epoch": 1.3007380073800738,
      "grad_norm": 1.6370566010616505,
      "learning_rate": 1.3967734145782425e-05,
      "loss": 0.7233,
      "step": 1410
    },
    {
      "epoch": 1.305350553505535,
      "grad_norm": 1.6019988849536153,
      "learning_rate": 1.391839969596632e-05,
      "loss": 0.7305,
      "step": 1415
    },
    {
      "epoch": 1.3099630996309963,
      "grad_norm": 1.5321404428187482,
      "learning_rate": 1.3868952318887421e-05,
      "loss": 0.7161,
      "step": 1420
    },
    {
      "epoch": 1.3145756457564577,
      "grad_norm": 1.617468685697329,
      "learning_rate": 1.3819393439606313e-05,
      "loss": 0.7383,
      "step": 1425
    },
    {
      "epoch": 1.3191881918819188,
      "grad_norm": 1.4942275323967702,
      "learning_rate": 1.3769724486397035e-05,
      "loss": 0.7309,
      "step": 1430
    },
    {
      "epoch": 1.32380073800738,
      "grad_norm": 1.526992745554204,
      "learning_rate": 1.371994689070594e-05,
      "loss": 0.7241,
      "step": 1435
    },
    {
      "epoch": 1.3284132841328413,
      "grad_norm": 1.5223415766171715,
      "learning_rate": 1.3670062087110423e-05,
      "loss": 0.7369,
      "step": 1440
    },
    {
      "epoch": 1.3330258302583027,
      "grad_norm": 1.5349271200758632,
      "learning_rate": 1.362007151327758e-05,
      "loss": 0.7408,
      "step": 1445
    },
    {
      "epoch": 1.3376383763837638,
      "grad_norm": 1.5487172960940725,
      "learning_rate": 1.3569976609922785e-05,
      "loss": 0.7366,
      "step": 1450
    },
    {
      "epoch": 1.3422509225092252,
      "grad_norm": 1.4925683710432864,
      "learning_rate": 1.3519778820768157e-05,
      "loss": 0.7316,
      "step": 1455
    },
    {
      "epoch": 1.3468634686346863,
      "grad_norm": 1.508872342522196,
      "learning_rate": 1.3469479592500954e-05,
      "loss": 0.7282,
      "step": 1460
    },
    {
      "epoch": 1.3514760147601477,
      "grad_norm": 1.5205565120558908,
      "learning_rate": 1.3419080374731889e-05,
      "loss": 0.7361,
      "step": 1465
    },
    {
      "epoch": 1.3560885608856088,
      "grad_norm": 1.5925418525444446,
      "learning_rate": 1.3368582619953348e-05,
      "loss": 0.7314,
      "step": 1470
    },
    {
      "epoch": 1.3607011070110702,
      "grad_norm": 1.536022556446867,
      "learning_rate": 1.331798778349752e-05,
      "loss": 0.7297,
      "step": 1475
    },
    {
      "epoch": 1.3653136531365313,
      "grad_norm": 1.6415269938571113,
      "learning_rate": 1.326729732349447e-05,
      "loss": 0.7236,
      "step": 1480
    },
    {
      "epoch": 1.3699261992619927,
      "grad_norm": 1.5571914542665708,
      "learning_rate": 1.3216512700830104e-05,
      "loss": 0.7456,
      "step": 1485
    },
    {
      "epoch": 1.3745387453874538,
      "grad_norm": 1.537220055899943,
      "learning_rate": 1.3165635379104079e-05,
      "loss": 0.7283,
      "step": 1490
    },
    {
      "epoch": 1.3791512915129152,
      "grad_norm": 1.586303040039408,
      "learning_rate": 1.31146668245876e-05,
      "loss": 0.74,
      "step": 1495
    },
    {
      "epoch": 1.3837638376383765,
      "grad_norm": 1.599460902002627,
      "learning_rate": 1.3063608506181189e-05,
      "loss": 0.7269,
      "step": 1500
    },
    {
      "epoch": 1.3883763837638377,
      "grad_norm": 1.5845763646878845,
      "learning_rate": 1.3012461895372343e-05,
      "loss": 0.7207,
      "step": 1505
    },
    {
      "epoch": 1.3929889298892988,
      "grad_norm": 1.6101936272120416,
      "learning_rate": 1.2961228466193116e-05,
      "loss": 0.7491,
      "step": 1510
    },
    {
      "epoch": 1.3976014760147601,
      "grad_norm": 1.5328730912860027,
      "learning_rate": 1.2909909695177647e-05,
      "loss": 0.7428,
      "step": 1515
    },
    {
      "epoch": 1.4022140221402215,
      "grad_norm": 1.4700749106652151,
      "learning_rate": 1.28585070613196e-05,
      "loss": 0.7337,
      "step": 1520
    },
    {
      "epoch": 1.4068265682656826,
      "grad_norm": 1.595108354129352,
      "learning_rate": 1.2807022046029556e-05,
      "loss": 0.7476,
      "step": 1525
    },
    {
      "epoch": 1.4114391143911438,
      "grad_norm": 1.4846465873330463,
      "learning_rate": 1.2755456133092295e-05,
      "loss": 0.7471,
      "step": 1530
    },
    {
      "epoch": 1.4160516605166051,
      "grad_norm": 1.6404654691954998,
      "learning_rate": 1.2703810808624051e-05,
      "loss": 0.7338,
      "step": 1535
    },
    {
      "epoch": 1.4206642066420665,
      "grad_norm": 1.5924740161540634,
      "learning_rate": 1.2652087561029682e-05,
      "loss": 0.7349,
      "step": 1540
    },
    {
      "epoch": 1.4252767527675276,
      "grad_norm": 1.4942826903716253,
      "learning_rate": 1.2600287880959762e-05,
      "loss": 0.725,
      "step": 1545
    },
    {
      "epoch": 1.429889298892989,
      "grad_norm": 1.5398233388725502,
      "learning_rate": 1.254841326126764e-05,
      "loss": 0.7376,
      "step": 1550
    },
    {
      "epoch": 1.4345018450184501,
      "grad_norm": 1.5654070863650702,
      "learning_rate": 1.2496465196966393e-05,
      "loss": 0.7318,
      "step": 1555
    },
    {
      "epoch": 1.4391143911439115,
      "grad_norm": 1.5898873014454018,
      "learning_rate": 1.2444445185185763e-05,
      "loss": 0.7306,
      "step": 1560
    },
    {
      "epoch": 1.4437269372693726,
      "grad_norm": 1.5102337179405925,
      "learning_rate": 1.239235472512899e-05,
      "loss": 0.7057,
      "step": 1565
    },
    {
      "epoch": 1.448339483394834,
      "grad_norm": 1.5134306661913561,
      "learning_rate": 1.2340195318029623e-05,
      "loss": 0.7216,
      "step": 1570
    },
    {
      "epoch": 1.4529520295202953,
      "grad_norm": 1.4927818706889626,
      "learning_rate": 1.228796846710825e-05,
      "loss": 0.7402,
      "step": 1575
    },
    {
      "epoch": 1.4575645756457565,
      "grad_norm": 1.455448272385386,
      "learning_rate": 1.2235675677529158e-05,
      "loss": 0.7172,
      "step": 1580
    },
    {
      "epoch": 1.4621771217712176,
      "grad_norm": 1.5634881056548133,
      "learning_rate": 1.2183318456356984e-05,
      "loss": 0.7389,
      "step": 1585
    },
    {
      "epoch": 1.466789667896679,
      "grad_norm": 1.4898756090326564,
      "learning_rate": 1.2130898312513255e-05,
      "loss": 0.7378,
      "step": 1590
    },
    {
      "epoch": 1.4714022140221403,
      "grad_norm": 1.5009726152389429,
      "learning_rate": 1.2078416756732925e-05,
      "loss": 0.7235,
      "step": 1595
    },
    {
      "epoch": 1.4760147601476015,
      "grad_norm": 1.5101924554242023,
      "learning_rate": 1.2025875301520811e-05,
      "loss": 0.7355,
      "step": 1600
    },
    {
      "epoch": 1.4760147601476015,
      "eval_loss": 0.9855098724365234,
      "eval_runtime": 380.6287,
      "eval_samples_per_second": 40.328,
      "eval_steps_per_second": 0.158,
      "step": 1600
    },
    {
      "epoch": 1.4806273062730626,
      "grad_norm": 1.4634212318812496,
      "learning_rate": 1.1973275461108027e-05,
      "loss": 0.7252,
      "step": 1605
    },
    {
      "epoch": 1.485239852398524,
      "grad_norm": 1.6489180454948977,
      "learning_rate": 1.1920618751408328e-05,
      "loss": 0.7196,
      "step": 1610
    },
    {
      "epoch": 1.4898523985239853,
      "grad_norm": 1.5637692459131638,
      "learning_rate": 1.186790668997443e-05,
      "loss": 0.7292,
      "step": 1615
    },
    {
      "epoch": 1.4944649446494465,
      "grad_norm": 1.5196144325218592,
      "learning_rate": 1.1815140795954268e-05,
      "loss": 0.7317,
      "step": 1620
    },
    {
      "epoch": 1.4990774907749078,
      "grad_norm": 1.5589118343089332,
      "learning_rate": 1.176232259004722e-05,
      "loss": 0.7282,
      "step": 1625
    },
    {
      "epoch": 1.503690036900369,
      "grad_norm": 1.4776701136160202,
      "learning_rate": 1.1709453594460279e-05,
      "loss": 0.7142,
      "step": 1630
    },
    {
      "epoch": 1.5083025830258303,
      "grad_norm": 1.5113121821467062,
      "learning_rate": 1.165653533286418e-05,
      "loss": 0.7267,
      "step": 1635
    },
    {
      "epoch": 1.5129151291512914,
      "grad_norm": 1.5621038457306815,
      "learning_rate": 1.1603569330349502e-05,
      "loss": 0.7194,
      "step": 1640
    },
    {
      "epoch": 1.5175276752767528,
      "grad_norm": 1.4342503333735157,
      "learning_rate": 1.1550557113382697e-05,
      "loss": 0.732,
      "step": 1645
    },
    {
      "epoch": 1.5221402214022142,
      "grad_norm": 1.4925030679944211,
      "learning_rate": 1.1497500209762102e-05,
      "loss": 0.7311,
      "step": 1650
    },
    {
      "epoch": 1.5267527675276753,
      "grad_norm": 1.5884492115586761,
      "learning_rate": 1.1444400148573918e-05,
      "loss": 0.7306,
      "step": 1655
    },
    {
      "epoch": 1.5313653136531364,
      "grad_norm": 1.4907133011402547,
      "learning_rate": 1.1391258460148135e-05,
      "loss": 0.7291,
      "step": 1660
    },
    {
      "epoch": 1.5359778597785978,
      "grad_norm": 1.5177536049645275,
      "learning_rate": 1.1338076676014427e-05,
      "loss": 0.7243,
      "step": 1665
    },
    {
      "epoch": 1.5405904059040592,
      "grad_norm": 1.5089626714379156,
      "learning_rate": 1.1284856328858017e-05,
      "loss": 0.7174,
      "step": 1670
    },
    {
      "epoch": 1.5452029520295203,
      "grad_norm": 1.518407729563154,
      "learning_rate": 1.1231598952475504e-05,
      "loss": 0.7188,
      "step": 1675
    },
    {
      "epoch": 1.5498154981549814,
      "grad_norm": 2.2443040427872973,
      "learning_rate": 1.1178306081730666e-05,
      "loss": 0.7274,
      "step": 1680
    },
    {
      "epoch": 1.5544280442804428,
      "grad_norm": 1.557724202719455,
      "learning_rate": 1.1124979252510209e-05,
      "loss": 0.7306,
      "step": 1685
    },
    {
      "epoch": 1.5590405904059041,
      "grad_norm": 1.5461146750078991,
      "learning_rate": 1.1071620001679514e-05,
      "loss": 0.7265,
      "step": 1690
    },
    {
      "epoch": 1.5636531365313653,
      "grad_norm": 1.677798283188097,
      "learning_rate": 1.1018229867038358e-05,
      "loss": 0.7296,
      "step": 1695
    },
    {
      "epoch": 1.5682656826568264,
      "grad_norm": 1.5842640863093371,
      "learning_rate": 1.0964810387276561e-05,
      "loss": 0.7136,
      "step": 1700
    },
    {
      "epoch": 1.5728782287822878,
      "grad_norm": 1.563395389439852,
      "learning_rate": 1.0911363101929677e-05,
      "loss": 0.7244,
      "step": 1705
    },
    {
      "epoch": 1.5774907749077491,
      "grad_norm": 1.5223804974728257,
      "learning_rate": 1.085788955133461e-05,
      "loss": 0.7263,
      "step": 1710
    },
    {
      "epoch": 1.5821033210332103,
      "grad_norm": 1.4519511890413386,
      "learning_rate": 1.080439127658521e-05,
      "loss": 0.7125,
      "step": 1715
    },
    {
      "epoch": 1.5867158671586716,
      "grad_norm": 1.522533945377353,
      "learning_rate": 1.0750869819487884e-05,
      "loss": 0.7273,
      "step": 1720
    },
    {
      "epoch": 1.591328413284133,
      "grad_norm": 1.5254481413189622,
      "learning_rate": 1.0697326722517137e-05,
      "loss": 0.7278,
      "step": 1725
    },
    {
      "epoch": 1.5959409594095941,
      "grad_norm": 1.5231671586261868,
      "learning_rate": 1.0643763528771136e-05,
      "loss": 0.7395,
      "step": 1730
    },
    {
      "epoch": 1.6005535055350553,
      "grad_norm": 1.4650142883805686,
      "learning_rate": 1.0590181781927229e-05,
      "loss": 0.7349,
      "step": 1735
    },
    {
      "epoch": 1.6051660516605166,
      "grad_norm": 1.4963676540506488,
      "learning_rate": 1.0536583026197462e-05,
      "loss": 0.7227,
      "step": 1740
    },
    {
      "epoch": 1.609778597785978,
      "grad_norm": 1.568382581129352,
      "learning_rate": 1.0482968806284073e-05,
      "loss": 0.7104,
      "step": 1745
    },
    {
      "epoch": 1.6143911439114391,
      "grad_norm": 1.4263377420776584,
      "learning_rate": 1.042934066733497e-05,
      "loss": 0.7295,
      "step": 1750
    },
    {
      "epoch": 1.6190036900369003,
      "grad_norm": 1.557321427633267,
      "learning_rate": 1.0375700154899208e-05,
      "loss": 0.7221,
      "step": 1755
    },
    {
      "epoch": 1.6236162361623616,
      "grad_norm": 1.4697183106878222,
      "learning_rate": 1.0322048814882438e-05,
      "loss": 0.7137,
      "step": 1760
    },
    {
      "epoch": 1.628228782287823,
      "grad_norm": 1.5186029224528301,
      "learning_rate": 1.0268388193502365e-05,
      "loss": 0.7064,
      "step": 1765
    },
    {
      "epoch": 1.632841328413284,
      "grad_norm": 1.4447029146830694,
      "learning_rate": 1.0214719837244176e-05,
      "loss": 0.7288,
      "step": 1770
    },
    {
      "epoch": 1.6374538745387452,
      "grad_norm": 1.6070031997265373,
      "learning_rate": 1.0161045292815974e-05,
      "loss": 0.707,
      "step": 1775
    },
    {
      "epoch": 1.6420664206642066,
      "grad_norm": 1.426331730931973,
      "learning_rate": 1.010736610710421e-05,
      "loss": 0.709,
      "step": 1780
    },
    {
      "epoch": 1.646678966789668,
      "grad_norm": 1.452095892694617,
      "learning_rate": 1.0053683827129091e-05,
      "loss": 0.7121,
      "step": 1785
    },
    {
      "epoch": 1.651291512915129,
      "grad_norm": 1.57091551946505,
      "learning_rate": 1e-05,
      "loss": 0.7134,
      "step": 1790
    },
    {
      "epoch": 1.6559040590405905,
      "grad_norm": 1.5750336048966571,
      "learning_rate": 9.946316172870909e-06,
      "loss": 0.7136,
      "step": 1795
    },
    {
      "epoch": 1.6605166051660518,
      "grad_norm": 1.4906719471502183,
      "learning_rate": 9.892633892895795e-06,
      "loss": 0.7151,
      "step": 1800
    },
    {
      "epoch": 1.6605166051660518,
      "eval_loss": 0.97125643491745,
      "eval_runtime": 375.0586,
      "eval_samples_per_second": 40.927,
      "eval_steps_per_second": 0.16,
      "step": 1800
    },
    {
      "epoch": 1.665129151291513,
      "grad_norm": 1.5072106225983386,
      "learning_rate": 9.83895470718403e-06,
      "loss": 0.7227,
      "step": 1805
    },
    {
      "epoch": 1.669741697416974,
      "grad_norm": 1.4508206944932882,
      "learning_rate": 9.785280162755825e-06,
      "loss": 0.724,
      "step": 1810
    },
    {
      "epoch": 1.6743542435424354,
      "grad_norm": 1.5498476457151749,
      "learning_rate": 9.731611806497637e-06,
      "loss": 0.7026,
      "step": 1815
    },
    {
      "epoch": 1.6789667896678968,
      "grad_norm": 1.5177452024002571,
      "learning_rate": 9.677951185117565e-06,
      "loss": 0.7129,
      "step": 1820
    },
    {
      "epoch": 1.683579335793358,
      "grad_norm": 1.7536225872991078,
      "learning_rate": 9.624299845100795e-06,
      "loss": 0.7157,
      "step": 1825
    },
    {
      "epoch": 1.688191881918819,
      "grad_norm": 1.5448154946820392,
      "learning_rate": 9.570659332665032e-06,
      "loss": 0.7029,
      "step": 1830
    },
    {
      "epoch": 1.6928044280442804,
      "grad_norm": 1.5229582975841924,
      "learning_rate": 9.51703119371593e-06,
      "loss": 0.7231,
      "step": 1835
    },
    {
      "epoch": 1.6974169741697418,
      "grad_norm": 1.401053250210059,
      "learning_rate": 9.463416973802541e-06,
      "loss": 0.6987,
      "step": 1840
    },
    {
      "epoch": 1.702029520295203,
      "grad_norm": 1.486158083271756,
      "learning_rate": 9.409818218072774e-06,
      "loss": 0.7187,
      "step": 1845
    },
    {
      "epoch": 1.706642066420664,
      "grad_norm": 1.4844923332820112,
      "learning_rate": 9.35623647122887e-06,
      "loss": 0.7038,
      "step": 1850
    },
    {
      "epoch": 1.7112546125461254,
      "grad_norm": 1.4768083176878029,
      "learning_rate": 9.302673277482867e-06,
      "loss": 0.7156,
      "step": 1855
    },
    {
      "epoch": 1.7158671586715868,
      "grad_norm": 1.4690802202313877,
      "learning_rate": 9.249130180512118e-06,
      "loss": 0.7007,
      "step": 1860
    },
    {
      "epoch": 1.720479704797048,
      "grad_norm": 1.521642869722996,
      "learning_rate": 9.19560872341479e-06,
      "loss": 0.7124,
      "step": 1865
    },
    {
      "epoch": 1.725092250922509,
      "grad_norm": 1.4844935676770985,
      "learning_rate": 9.142110448665394e-06,
      "loss": 0.7137,
      "step": 1870
    },
    {
      "epoch": 1.7297047970479706,
      "grad_norm": 1.4802119797626268,
      "learning_rate": 9.088636898070326e-06,
      "loss": 0.7142,
      "step": 1875
    },
    {
      "epoch": 1.7343173431734318,
      "grad_norm": 1.4925162048619054,
      "learning_rate": 9.035189612723444e-06,
      "loss": 0.7128,
      "step": 1880
    },
    {
      "epoch": 1.738929889298893,
      "grad_norm": 1.5072960944547247,
      "learning_rate": 8.981770132961649e-06,
      "loss": 0.7,
      "step": 1885
    },
    {
      "epoch": 1.7435424354243543,
      "grad_norm": 1.463889514395925,
      "learning_rate": 8.928379998320489e-06,
      "loss": 0.7057,
      "step": 1890
    },
    {
      "epoch": 1.7481549815498156,
      "grad_norm": 1.6039296690992704,
      "learning_rate": 8.875020747489795e-06,
      "loss": 0.7233,
      "step": 1895
    },
    {
      "epoch": 1.7527675276752768,
      "grad_norm": 1.5035319064665877,
      "learning_rate": 8.821693918269334e-06,
      "loss": 0.7049,
      "step": 1900
    },
    {
      "epoch": 1.757380073800738,
      "grad_norm": 1.4420897442537834,
      "learning_rate": 8.768401047524498e-06,
      "loss": 0.7097,
      "step": 1905
    },
    {
      "epoch": 1.7619926199261993,
      "grad_norm": 1.4863140306951776,
      "learning_rate": 8.715143671141985e-06,
      "loss": 0.7131,
      "step": 1910
    },
    {
      "epoch": 1.7666051660516606,
      "grad_norm": 1.4372944065533075,
      "learning_rate": 8.661923323985576e-06,
      "loss": 0.7066,
      "step": 1915
    },
    {
      "epoch": 1.7712177121771218,
      "grad_norm": 1.5118603952311795,
      "learning_rate": 8.60874153985187e-06,
      "loss": 0.711,
      "step": 1920
    },
    {
      "epoch": 1.775830258302583,
      "grad_norm": 1.4309158451109616,
      "learning_rate": 8.555599851426086e-06,
      "loss": 0.7017,
      "step": 1925
    },
    {
      "epoch": 1.7804428044280443,
      "grad_norm": 1.4482092213054845,
      "learning_rate": 8.5024997902379e-06,
      "loss": 0.7043,
      "step": 1930
    },
    {
      "epoch": 1.7850553505535056,
      "grad_norm": 1.4820015255772456,
      "learning_rate": 8.449442886617308e-06,
      "loss": 0.7134,
      "step": 1935
    },
    {
      "epoch": 1.7896678966789668,
      "grad_norm": 1.5178706892202136,
      "learning_rate": 8.396430669650501e-06,
      "loss": 0.6986,
      "step": 1940
    },
    {
      "epoch": 1.7942804428044279,
      "grad_norm": 1.5192714047507399,
      "learning_rate": 8.343464667135821e-06,
      "loss": 0.7098,
      "step": 1945
    },
    {
      "epoch": 1.7988929889298892,
      "grad_norm": 1.5584757005755172,
      "learning_rate": 8.290546405539726e-06,
      "loss": 0.7007,
      "step": 1950
    },
    {
      "epoch": 1.8035055350553506,
      "grad_norm": 1.4555072659251027,
      "learning_rate": 8.237677409952784e-06,
      "loss": 0.7069,
      "step": 1955
    },
    {
      "epoch": 1.8081180811808117,
      "grad_norm": 1.435117018138001,
      "learning_rate": 8.184859204045736e-06,
      "loss": 0.7126,
      "step": 1960
    },
    {
      "epoch": 1.812730627306273,
      "grad_norm": 1.497994099179169,
      "learning_rate": 8.132093310025572e-06,
      "loss": 0.6918,
      "step": 1965
    },
    {
      "epoch": 1.8173431734317345,
      "grad_norm": 1.5231919974046568,
      "learning_rate": 8.079381248591675e-06,
      "loss": 0.6999,
      "step": 1970
    },
    {
      "epoch": 1.8219557195571956,
      "grad_norm": 1.416052373581155,
      "learning_rate": 8.026724538891976e-06,
      "loss": 0.7007,
      "step": 1975
    },
    {
      "epoch": 1.8265682656826567,
      "grad_norm": 1.4579047643243503,
      "learning_rate": 7.974124698479192e-06,
      "loss": 0.6987,
      "step": 1980
    },
    {
      "epoch": 1.831180811808118,
      "grad_norm": 1.4768646334937987,
      "learning_rate": 7.921583243267079e-06,
      "loss": 0.721,
      "step": 1985
    },
    {
      "epoch": 1.8357933579335795,
      "grad_norm": 1.4193207071096974,
      "learning_rate": 7.869101687486748e-06,
      "loss": 0.6998,
      "step": 1990
    },
    {
      "epoch": 1.8404059040590406,
      "grad_norm": 1.5195143082878666,
      "learning_rate": 7.816681543643019e-06,
      "loss": 0.7035,
      "step": 1995
    },
    {
      "epoch": 1.8450184501845017,
      "grad_norm": 1.492818689804546,
      "learning_rate": 7.764324322470842e-06,
      "loss": 0.7023,
      "step": 2000
    },
    {
      "epoch": 1.8450184501845017,
      "eval_loss": 0.9556826949119568,
      "eval_runtime": 438.5581,
      "eval_samples_per_second": 35.001,
      "eval_steps_per_second": 0.137,
      "step": 2000
    },
    {
      "epoch": 1.849630996309963,
      "grad_norm": 1.4550020776516512,
      "learning_rate": 7.712031532891754e-06,
      "loss": 0.6959,
      "step": 2005
    },
    {
      "epoch": 1.8542435424354244,
      "grad_norm": 1.532357943989181,
      "learning_rate": 7.659804681970378e-06,
      "loss": 0.716,
      "step": 2010
    },
    {
      "epoch": 1.8588560885608856,
      "grad_norm": 1.4932493146047923,
      "learning_rate": 7.607645274871013e-06,
      "loss": 0.7103,
      "step": 2015
    },
    {
      "epoch": 1.8634686346863467,
      "grad_norm": 1.3849647891235997,
      "learning_rate": 7.555554814814243e-06,
      "loss": 0.7091,
      "step": 2020
    },
    {
      "epoch": 1.868081180811808,
      "grad_norm": 1.4686606572709258,
      "learning_rate": 7.50353480303361e-06,
      "loss": 0.7065,
      "step": 2025
    },
    {
      "epoch": 1.8726937269372694,
      "grad_norm": 1.4890927562018215,
      "learning_rate": 7.451586738732362e-06,
      "loss": 0.7045,
      "step": 2030
    },
    {
      "epoch": 1.8773062730627306,
      "grad_norm": 1.4388080292308094,
      "learning_rate": 7.3997121190402375e-06,
      "loss": 0.7062,
      "step": 2035
    },
    {
      "epoch": 1.881918819188192,
      "grad_norm": 1.595891571353621,
      "learning_rate": 7.347912438970324e-06,
      "loss": 0.693,
      "step": 2040
    },
    {
      "epoch": 1.8865313653136533,
      "grad_norm": 1.4244467986676035,
      "learning_rate": 7.296189191375953e-06,
      "loss": 0.6941,
      "step": 2045
    },
    {
      "epoch": 1.8911439114391144,
      "grad_norm": 1.4475135191897706,
      "learning_rate": 7.24454386690771e-06,
      "loss": 0.7073,
      "step": 2050
    },
    {
      "epoch": 1.8957564575645756,
      "grad_norm": 1.4673852319078244,
      "learning_rate": 7.192977953970448e-06,
      "loss": 0.7078,
      "step": 2055
    },
    {
      "epoch": 1.900369003690037,
      "grad_norm": 1.4719457932619668,
      "learning_rate": 7.141492938680401e-06,
      "loss": 0.691,
      "step": 2060
    },
    {
      "epoch": 1.9049815498154983,
      "grad_norm": 1.466731728037535,
      "learning_rate": 7.090090304822356e-06,
      "loss": 0.7062,
      "step": 2065
    },
    {
      "epoch": 1.9095940959409594,
      "grad_norm": 1.4553947793369755,
      "learning_rate": 7.038771533806884e-06,
      "loss": 0.7106,
      "step": 2070
    },
    {
      "epoch": 1.9142066420664205,
      "grad_norm": 1.478652231013823,
      "learning_rate": 6.9875381046276605e-06,
      "loss": 0.6931,
      "step": 2075
    },
    {
      "epoch": 1.918819188191882,
      "grad_norm": 1.4356929483984957,
      "learning_rate": 6.936391493818814e-06,
      "loss": 0.6898,
      "step": 2080
    },
    {
      "epoch": 1.9234317343173433,
      "grad_norm": 1.5536671032832632,
      "learning_rate": 6.885333175412406e-06,
      "loss": 0.6928,
      "step": 2085
    },
    {
      "epoch": 1.9280442804428044,
      "grad_norm": 1.4991276022393414,
      "learning_rate": 6.834364620895928e-06,
      "loss": 0.6935,
      "step": 2090
    },
    {
      "epoch": 1.9326568265682655,
      "grad_norm": 1.5046326188308679,
      "learning_rate": 6.783487299169897e-06,
      "loss": 0.6983,
      "step": 2095
    },
    {
      "epoch": 1.937269372693727,
      "grad_norm": 1.4351756608326394,
      "learning_rate": 6.732702676505531e-06,
      "loss": 0.7065,
      "step": 2100
    },
    {
      "epoch": 1.9418819188191883,
      "grad_norm": 1.5547998479904102,
      "learning_rate": 6.6820122165024845e-06,
      "loss": 0.6879,
      "step": 2105
    },
    {
      "epoch": 1.9464944649446494,
      "grad_norm": 1.49827559538925,
      "learning_rate": 6.631417380046656e-06,
      "loss": 0.7025,
      "step": 2110
    },
    {
      "epoch": 1.9511070110701108,
      "grad_norm": 1.531002649653087,
      "learning_rate": 6.580919625268114e-06,
      "loss": 0.6909,
      "step": 2115
    },
    {
      "epoch": 1.9557195571955721,
      "grad_norm": 1.509365230765324,
      "learning_rate": 6.530520407499049e-06,
      "loss": 0.686,
      "step": 2120
    },
    {
      "epoch": 1.9603321033210332,
      "grad_norm": 1.5743592553630588,
      "learning_rate": 6.480221179231849e-06,
      "loss": 0.7051,
      "step": 2125
    },
    {
      "epoch": 1.9649446494464944,
      "grad_norm": 1.6561005765337469,
      "learning_rate": 6.430023390077218e-06,
      "loss": 0.6975,
      "step": 2130
    },
    {
      "epoch": 1.9695571955719557,
      "grad_norm": 1.4695572898069678,
      "learning_rate": 6.379928486722421e-06,
      "loss": 0.703,
      "step": 2135
    },
    {
      "epoch": 1.974169741697417,
      "grad_norm": 1.436121247379392,
      "learning_rate": 6.329937912889582e-06,
      "loss": 0.7037,
      "step": 2140
    },
    {
      "epoch": 1.9787822878228782,
      "grad_norm": 1.4604394210363645,
      "learning_rate": 6.280053109294064e-06,
      "loss": 0.6861,
      "step": 2145
    },
    {
      "epoch": 1.9833948339483394,
      "grad_norm": 1.49703841483432,
      "learning_rate": 6.230275513602968e-06,
      "loss": 0.6848,
      "step": 2150
    },
    {
      "epoch": 1.9880073800738007,
      "grad_norm": 1.4776846632157035,
      "learning_rate": 6.180606560393694e-06,
      "loss": 0.6854,
      "step": 2155
    },
    {
      "epoch": 1.992619926199262,
      "grad_norm": 1.469102349555009,
      "learning_rate": 6.131047681112583e-06,
      "loss": 0.6901,
      "step": 2160
    },
    {
      "epoch": 1.9972324723247232,
      "grad_norm": 1.4916818504881257,
      "learning_rate": 6.081600304033682e-06,
      "loss": 0.6986,
      "step": 2165
    },
    {
      "epoch": 2.0018450184501844,
      "grad_norm": 3.4623791161329507,
      "learning_rate": 6.032265854217574e-06,
      "loss": 0.5805,
      "step": 2170
    },
    {
      "epoch": 2.006457564575646,
      "grad_norm": 2.5409394096245324,
      "learning_rate": 5.983045753470308e-06,
      "loss": 0.4067,
      "step": 2175
    },
    {
      "epoch": 2.011070110701107,
      "grad_norm": 1.963539215801178,
      "learning_rate": 5.933941420302412e-06,
      "loss": 0.41,
      "step": 2180
    },
    {
      "epoch": 2.015682656826568,
      "grad_norm": 1.9578493570683806,
      "learning_rate": 5.884954269888032e-06,
      "loss": 0.4078,
      "step": 2185
    },
    {
      "epoch": 2.0202952029520294,
      "grad_norm": 1.6857102876256314,
      "learning_rate": 5.83608571402414e-06,
      "loss": 0.4126,
      "step": 2190
    },
    {
      "epoch": 2.024907749077491,
      "grad_norm": 1.7969907397732796,
      "learning_rate": 5.787337161089836e-06,
      "loss": 0.4086,
      "step": 2195
    },
    {
      "epoch": 2.029520295202952,
      "grad_norm": 1.6058011608079648,
      "learning_rate": 5.738710016005766e-06,
      "loss": 0.3925,
      "step": 2200
    },
    {
      "epoch": 2.029520295202952,
      "eval_loss": 1.0149868726730347,
      "eval_runtime": 417.6368,
      "eval_samples_per_second": 36.754,
      "eval_steps_per_second": 0.144,
      "step": 2200
    },
    {
      "epoch": 2.034132841328413,
      "grad_norm": 1.6505939948003603,
      "learning_rate": 5.690205680193647e-06,
      "loss": 0.3948,
      "step": 2205
    },
    {
      "epoch": 2.0387453874538743,
      "grad_norm": 1.6068608464647989,
      "learning_rate": 5.641825551535849e-06,
      "loss": 0.3878,
      "step": 2210
    },
    {
      "epoch": 2.043357933579336,
      "grad_norm": 1.6707505723255622,
      "learning_rate": 5.593571024335126e-06,
      "loss": 0.3977,
      "step": 2215
    },
    {
      "epoch": 2.047970479704797,
      "grad_norm": 1.6484182975706831,
      "learning_rate": 5.545443489274444e-06,
      "loss": 0.4009,
      "step": 2220
    },
    {
      "epoch": 2.052583025830258,
      "grad_norm": 1.6146171821462916,
      "learning_rate": 5.497444333376874e-06,
      "loss": 0.3991,
      "step": 2225
    },
    {
      "epoch": 2.0571955719557193,
      "grad_norm": 1.6445160771788836,
      "learning_rate": 5.449574939965637e-06,
      "loss": 0.4019,
      "step": 2230
    },
    {
      "epoch": 2.061808118081181,
      "grad_norm": 1.6446158891460347,
      "learning_rate": 5.401836688624231e-06,
      "loss": 0.3885,
      "step": 2235
    },
    {
      "epoch": 2.066420664206642,
      "grad_norm": 1.5856595607293187,
      "learning_rate": 5.354230955156684e-06,
      "loss": 0.4052,
      "step": 2240
    },
    {
      "epoch": 2.071033210332103,
      "grad_norm": 1.5870199236748768,
      "learning_rate": 5.306759111547881e-06,
      "loss": 0.4029,
      "step": 2245
    },
    {
      "epoch": 2.0756457564575648,
      "grad_norm": 1.6193242932623593,
      "learning_rate": 5.259422525924037e-06,
      "loss": 0.3907,
      "step": 2250
    },
    {
      "epoch": 2.080258302583026,
      "grad_norm": 1.6256137352538118,
      "learning_rate": 5.212222562513278e-06,
      "loss": 0.3989,
      "step": 2255
    },
    {
      "epoch": 2.084870848708487,
      "grad_norm": 1.6417107171770284,
      "learning_rate": 5.165160581606301e-06,
      "loss": 0.3982,
      "step": 2260
    },
    {
      "epoch": 2.089483394833948,
      "grad_norm": 1.583054814160985,
      "learning_rate": 5.11823793951719e-06,
      "loss": 0.3857,
      "step": 2265
    },
    {
      "epoch": 2.0940959409594098,
      "grad_norm": 1.5988302758967783,
      "learning_rate": 5.0714559885443115e-06,
      "loss": 0.3912,
      "step": 2270
    },
    {
      "epoch": 2.098708487084871,
      "grad_norm": 1.5549504658907112,
      "learning_rate": 5.024816076931366e-06,
      "loss": 0.3964,
      "step": 2275
    },
    {
      "epoch": 2.103321033210332,
      "grad_norm": 1.6288272703564912,
      "learning_rate": 4.978319548828504e-06,
      "loss": 0.3979,
      "step": 2280
    },
    {
      "epoch": 2.107933579335793,
      "grad_norm": 1.6075015238877752,
      "learning_rate": 4.931967744253601e-06,
      "loss": 0.3859,
      "step": 2285
    },
    {
      "epoch": 2.1125461254612548,
      "grad_norm": 1.6429738157314036,
      "learning_rate": 4.885761999053647e-06,
      "loss": 0.3962,
      "step": 2290
    },
    {
      "epoch": 2.117158671586716,
      "grad_norm": 1.6796427577430482,
      "learning_rate": 4.839703644866228e-06,
      "loss": 0.4075,
      "step": 2295
    },
    {
      "epoch": 2.121771217712177,
      "grad_norm": 1.619217591723515,
      "learning_rate": 4.793794009081167e-06,
      "loss": 0.4085,
      "step": 2300
    },
    {
      "epoch": 2.126383763837638,
      "grad_norm": 1.6669420506553294,
      "learning_rate": 4.7480344148022535e-06,
      "loss": 0.4009,
      "step": 2305
    },
    {
      "epoch": 2.1309963099630997,
      "grad_norm": 1.601567836454024,
      "learning_rate": 4.702426180809132e-06,
      "loss": 0.3893,
      "step": 2310
    },
    {
      "epoch": 2.135608856088561,
      "grad_norm": 1.6330436004091688,
      "learning_rate": 4.65697062151927e-06,
      "loss": 0.3935,
      "step": 2315
    },
    {
      "epoch": 2.140221402214022,
      "grad_norm": 1.686740725167288,
      "learning_rate": 4.611669046950093e-06,
      "loss": 0.4062,
      "step": 2320
    },
    {
      "epoch": 2.1448339483394836,
      "grad_norm": 1.5889691549399958,
      "learning_rate": 4.566522762681239e-06,
      "loss": 0.3979,
      "step": 2325
    },
    {
      "epoch": 2.1494464944649447,
      "grad_norm": 1.6850634151797181,
      "learning_rate": 4.521533069816895e-06,
      "loss": 0.3999,
      "step": 2330
    },
    {
      "epoch": 2.154059040590406,
      "grad_norm": 1.5458146169307518,
      "learning_rate": 4.4767012649483484e-06,
      "loss": 0.3903,
      "step": 2335
    },
    {
      "epoch": 2.158671586715867,
      "grad_norm": 1.6016021907561413,
      "learning_rate": 4.432028640116581e-06,
      "loss": 0.3885,
      "step": 2340
    },
    {
      "epoch": 2.1632841328413286,
      "grad_norm": 1.6830749800846674,
      "learning_rate": 4.387516482775058e-06,
      "loss": 0.3897,
      "step": 2345
    },
    {
      "epoch": 2.1678966789667897,
      "grad_norm": 1.657726450794809,
      "learning_rate": 4.343166075752605e-06,
      "loss": 0.3995,
      "step": 2350
    },
    {
      "epoch": 2.172509225092251,
      "grad_norm": 1.6089499042377242,
      "learning_rate": 4.298978697216442e-06,
      "loss": 0.3906,
      "step": 2355
    },
    {
      "epoch": 2.177121771217712,
      "grad_norm": 1.6433325368187606,
      "learning_rate": 4.254955620635371e-06,
      "loss": 0.3836,
      "step": 2360
    },
    {
      "epoch": 2.1817343173431736,
      "grad_norm": 1.6228967594394044,
      "learning_rate": 4.21109811474302e-06,
      "loss": 0.3953,
      "step": 2365
    },
    {
      "epoch": 2.1863468634686347,
      "grad_norm": 1.6564397078095119,
      "learning_rate": 4.1674074435013445e-06,
      "loss": 0.3975,
      "step": 2370
    },
    {
      "epoch": 2.190959409594096,
      "grad_norm": 1.6855648962846128,
      "learning_rate": 4.1238848660641504e-06,
      "loss": 0.389,
      "step": 2375
    },
    {
      "epoch": 2.195571955719557,
      "grad_norm": 1.5746673175696069,
      "learning_rate": 4.080531636740836e-06,
      "loss": 0.3844,
      "step": 2380
    },
    {
      "epoch": 2.2001845018450186,
      "grad_norm": 1.6344618154669375,
      "learning_rate": 4.03734900496022e-06,
      "loss": 0.3988,
      "step": 2385
    },
    {
      "epoch": 2.2047970479704797,
      "grad_norm": 1.6281928689117737,
      "learning_rate": 3.994338215234547e-06,
      "loss": 0.3896,
      "step": 2390
    },
    {
      "epoch": 2.209409594095941,
      "grad_norm": 1.6257611833188321,
      "learning_rate": 3.9515005071236274e-06,
      "loss": 0.3961,
      "step": 2395
    },
    {
      "epoch": 2.2140221402214024,
      "grad_norm": 1.5957292745421947,
      "learning_rate": 3.908837115199086e-06,
      "loss": 0.3871,
      "step": 2400
    },
    {
      "epoch": 2.2140221402214024,
      "eval_loss": 1.0319310426712036,
      "eval_runtime": 393.3456,
      "eval_samples_per_second": 39.024,
      "eval_steps_per_second": 0.153,
      "step": 2400
    },
    {
      "epoch": 2.2186346863468636,
      "grad_norm": 1.5729201496024248,
      "learning_rate": 3.866349269008819e-06,
      "loss": 0.385,
      "step": 2405
    },
    {
      "epoch": 2.2232472324723247,
      "grad_norm": 1.6183544120950042,
      "learning_rate": 3.824038193041529e-06,
      "loss": 0.3968,
      "step": 2410
    },
    {
      "epoch": 2.227859778597786,
      "grad_norm": 1.6955717019033336,
      "learning_rate": 3.781905106691447e-06,
      "loss": 0.4004,
      "step": 2415
    },
    {
      "epoch": 2.2324723247232474,
      "grad_norm": 1.6580260222032042,
      "learning_rate": 3.7399512242231994e-06,
      "loss": 0.3842,
      "step": 2420
    },
    {
      "epoch": 2.2370848708487086,
      "grad_norm": 1.6490315910819098,
      "learning_rate": 3.698177754736787e-06,
      "loss": 0.3862,
      "step": 2425
    },
    {
      "epoch": 2.2416974169741697,
      "grad_norm": 1.6351326865393605,
      "learning_rate": 3.6565859021327777e-06,
      "loss": 0.3952,
      "step": 2430
    },
    {
      "epoch": 2.246309963099631,
      "grad_norm": 1.7016714416453813,
      "learning_rate": 3.6151768650775577e-06,
      "loss": 0.3906,
      "step": 2435
    },
    {
      "epoch": 2.2509225092250924,
      "grad_norm": 1.5855218888376186,
      "learning_rate": 3.5739518369688454e-06,
      "loss": 0.391,
      "step": 2440
    },
    {
      "epoch": 2.2555350553505535,
      "grad_norm": 1.5979300773582483,
      "learning_rate": 3.5329120059012536e-06,
      "loss": 0.3884,
      "step": 2445
    },
    {
      "epoch": 2.2601476014760147,
      "grad_norm": 1.631933769302546,
      "learning_rate": 3.492058554632063e-06,
      "loss": 0.4012,
      "step": 2450
    },
    {
      "epoch": 2.264760147601476,
      "grad_norm": 1.6784627234471698,
      "learning_rate": 3.4513926605471504e-06,
      "loss": 0.3956,
      "step": 2455
    },
    {
      "epoch": 2.2693726937269374,
      "grad_norm": 1.5994089046113484,
      "learning_rate": 3.4109154956270253e-06,
      "loss": 0.3919,
      "step": 2460
    },
    {
      "epoch": 2.2739852398523985,
      "grad_norm": 1.5962979043384486,
      "learning_rate": 3.370628226413093e-06,
      "loss": 0.3975,
      "step": 2465
    },
    {
      "epoch": 2.2785977859778597,
      "grad_norm": 1.6734564837873838,
      "learning_rate": 3.330532013973987e-06,
      "loss": 0.3887,
      "step": 2470
    },
    {
      "epoch": 2.2832103321033212,
      "grad_norm": 1.5662431409042064,
      "learning_rate": 3.290628013872159e-06,
      "loss": 0.3841,
      "step": 2475
    },
    {
      "epoch": 2.2878228782287824,
      "grad_norm": 1.5635156068197413,
      "learning_rate": 3.250917376130538e-06,
      "loss": 0.3951,
      "step": 2480
    },
    {
      "epoch": 2.2924354243542435,
      "grad_norm": 1.6010796160602963,
      "learning_rate": 3.211401245199398e-06,
      "loss": 0.3942,
      "step": 2485
    },
    {
      "epoch": 2.2970479704797047,
      "grad_norm": 1.6199565737985742,
      "learning_rate": 3.1720807599233903e-06,
      "loss": 0.3927,
      "step": 2490
    },
    {
      "epoch": 2.3016605166051662,
      "grad_norm": 1.6515237978384454,
      "learning_rate": 3.132957053508696e-06,
      "loss": 0.3978,
      "step": 2495
    },
    {
      "epoch": 2.3062730627306274,
      "grad_norm": 1.6541451651760768,
      "learning_rate": 3.0940312534903848e-06,
      "loss": 0.397,
      "step": 2500
    },
    {
      "epoch": 2.3108856088560885,
      "grad_norm": 1.6636499883415654,
      "learning_rate": 3.0553044816999133e-06,
      "loss": 0.3771,
      "step": 2505
    },
    {
      "epoch": 2.3154981549815496,
      "grad_norm": 1.5866618676441615,
      "learning_rate": 3.0167778542328053e-06,
      "loss": 0.3967,
      "step": 2510
    },
    {
      "epoch": 2.3201107011070112,
      "grad_norm": 1.6302246602193289,
      "learning_rate": 2.9784524814164673e-06,
      "loss": 0.4006,
      "step": 2515
    },
    {
      "epoch": 2.3247232472324724,
      "grad_norm": 1.6231412036835564,
      "learning_rate": 2.940329467778198e-06,
      "loss": 0.3959,
      "step": 2520
    },
    {
      "epoch": 2.3293357933579335,
      "grad_norm": 1.6840760426840755,
      "learning_rate": 2.9024099120133674e-06,
      "loss": 0.3908,
      "step": 2525
    },
    {
      "epoch": 2.3339483394833946,
      "grad_norm": 1.7187956725298614,
      "learning_rate": 2.8646949069537343e-06,
      "loss": 0.3908,
      "step": 2530
    },
    {
      "epoch": 2.338560885608856,
      "grad_norm": 1.56700956891004,
      "learning_rate": 2.8271855395359613e-06,
      "loss": 0.3961,
      "step": 2535
    },
    {
      "epoch": 2.3431734317343174,
      "grad_norm": 1.6097463271059957,
      "learning_rate": 2.7898828907702826e-06,
      "loss": 0.3894,
      "step": 2540
    },
    {
      "epoch": 2.3477859778597785,
      "grad_norm": 1.5810624302563459,
      "learning_rate": 2.7527880357093673e-06,
      "loss": 0.3853,
      "step": 2545
    },
    {
      "epoch": 2.35239852398524,
      "grad_norm": 1.6230445922415717,
      "learning_rate": 2.71590204341731e-06,
      "loss": 0.3904,
      "step": 2550
    },
    {
      "epoch": 2.357011070110701,
      "grad_norm": 1.631243837661556,
      "learning_rate": 2.6792259769388394e-06,
      "loss": 0.3854,
      "step": 2555
    },
    {
      "epoch": 2.3616236162361623,
      "grad_norm": 1.6015681704315312,
      "learning_rate": 2.642760893268684e-06,
      "loss": 0.3897,
      "step": 2560
    },
    {
      "epoch": 2.3662361623616235,
      "grad_norm": 1.629094206408994,
      "learning_rate": 2.6065078433210913e-06,
      "loss": 0.3956,
      "step": 2565
    },
    {
      "epoch": 2.3708487084870846,
      "grad_norm": 1.6768173921403078,
      "learning_rate": 2.570467871899557e-06,
      "loss": 0.3882,
      "step": 2570
    },
    {
      "epoch": 2.375461254612546,
      "grad_norm": 1.6096361607682703,
      "learning_rate": 2.5346420176667052e-06,
      "loss": 0.3841,
      "step": 2575
    },
    {
      "epoch": 2.3800738007380073,
      "grad_norm": 1.5785068874659574,
      "learning_rate": 2.4990313131143716e-06,
      "loss": 0.407,
      "step": 2580
    },
    {
      "epoch": 2.3846863468634685,
      "grad_norm": 1.639780492512362,
      "learning_rate": 2.463636784533813e-06,
      "loss": 0.3872,
      "step": 2585
    },
    {
      "epoch": 2.38929889298893,
      "grad_norm": 1.5634276209766216,
      "learning_rate": 2.4284594519861637e-06,
      "loss": 0.3844,
      "step": 2590
    },
    {
      "epoch": 2.393911439114391,
      "grad_norm": 1.6051539919308102,
      "learning_rate": 2.3935003292730295e-06,
      "loss": 0.3845,
      "step": 2595
    },
    {
      "epoch": 2.3985239852398523,
      "grad_norm": 1.5819118683660134,
      "learning_rate": 2.3587604239072535e-06,
      "loss": 0.3927,
      "step": 2600
    },
    {
      "epoch": 2.3985239852398523,
      "eval_loss": 1.0269191265106201,
      "eval_runtime": 441.0938,
      "eval_samples_per_second": 34.8,
      "eval_steps_per_second": 0.136,
      "step": 2600
    },
    {
      "epoch": 2.4031365313653135,
      "grad_norm": 1.625902982522089,
      "learning_rate": 2.324240737083897e-06,
      "loss": 0.3967,
      "step": 2605
    },
    {
      "epoch": 2.407749077490775,
      "grad_norm": 1.6115877735569477,
      "learning_rate": 2.2899422636513768e-06,
      "loss": 0.3888,
      "step": 2610
    },
    {
      "epoch": 2.412361623616236,
      "grad_norm": 1.6393950015907957,
      "learning_rate": 2.2558659920828095e-06,
      "loss": 0.3866,
      "step": 2615
    },
    {
      "epoch": 2.4169741697416973,
      "grad_norm": 1.6289337323279018,
      "learning_rate": 2.2220129044474903e-06,
      "loss": 0.3822,
      "step": 2620
    },
    {
      "epoch": 2.421586715867159,
      "grad_norm": 1.626399821921426,
      "learning_rate": 2.1883839763826285e-06,
      "loss": 0.3917,
      "step": 2625
    },
    {
      "epoch": 2.42619926199262,
      "grad_norm": 1.5750110015076921,
      "learning_rate": 2.15498017706521e-06,
      "loss": 0.3818,
      "step": 2630
    },
    {
      "epoch": 2.430811808118081,
      "grad_norm": 1.5656770730106075,
      "learning_rate": 2.1218024691840646e-06,
      "loss": 0.3949,
      "step": 2635
    },
    {
      "epoch": 2.4354243542435423,
      "grad_norm": 1.5878185538716267,
      "learning_rate": 2.088851808912126e-06,
      "loss": 0.39,
      "step": 2640
    },
    {
      "epoch": 2.4400369003690034,
      "grad_norm": 1.6108620558982116,
      "learning_rate": 2.0561291458788736e-06,
      "loss": 0.3968,
      "step": 2645
    },
    {
      "epoch": 2.444649446494465,
      "grad_norm": 1.5917905556601293,
      "learning_rate": 2.0236354231429743e-06,
      "loss": 0.3835,
      "step": 2650
    },
    {
      "epoch": 2.449261992619926,
      "grad_norm": 1.5749010329322541,
      "learning_rate": 1.9913715771650798e-06,
      "loss": 0.3878,
      "step": 2655
    },
    {
      "epoch": 2.4538745387453873,
      "grad_norm": 1.5853197835560284,
      "learning_rate": 1.959338537780868e-06,
      "loss": 0.3793,
      "step": 2660
    },
    {
      "epoch": 2.458487084870849,
      "grad_norm": 1.675999301164994,
      "learning_rate": 1.9275372281742242e-06,
      "loss": 0.3888,
      "step": 2665
    },
    {
      "epoch": 2.46309963099631,
      "grad_norm": 1.5909593196232035,
      "learning_rate": 1.8959685648506365e-06,
      "loss": 0.379,
      "step": 2670
    },
    {
      "epoch": 2.467712177121771,
      "grad_norm": 1.6580184737262997,
      "learning_rate": 1.8646334576107993e-06,
      "loss": 0.385,
      "step": 2675
    },
    {
      "epoch": 2.4723247232472323,
      "grad_norm": 1.694950561030231,
      "learning_rate": 1.83353280952437e-06,
      "loss": 0.4061,
      "step": 2680
    },
    {
      "epoch": 2.476937269372694,
      "grad_norm": 1.5612968845817867,
      "learning_rate": 1.8026675169039654e-06,
      "loss": 0.3717,
      "step": 2685
    },
    {
      "epoch": 2.481549815498155,
      "grad_norm": 1.6589816057109397,
      "learning_rate": 1.7720384692793036e-06,
      "loss": 0.3907,
      "step": 2690
    },
    {
      "epoch": 2.486162361623616,
      "grad_norm": 1.6036469226772128,
      "learning_rate": 1.7416465493715984e-06,
      "loss": 0.3777,
      "step": 2695
    },
    {
      "epoch": 2.4907749077490777,
      "grad_norm": 1.6327667406661128,
      "learning_rate": 1.7114926330680958e-06,
      "loss": 0.3875,
      "step": 2700
    },
    {
      "epoch": 2.495387453874539,
      "grad_norm": 1.5827244143165553,
      "learning_rate": 1.681577589396839e-06,
      "loss": 0.3859,
      "step": 2705
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.6514702752041677,
      "learning_rate": 1.6519022805016305e-06,
      "loss": 0.3843,
      "step": 2710
    },
    {
      "epoch": 2.504612546125461,
      "grad_norm": 1.5570332325787979,
      "learning_rate": 1.6224675616171737e-06,
      "loss": 0.3715,
      "step": 2715
    },
    {
      "epoch": 2.5092250922509223,
      "grad_norm": 1.630413477205012,
      "learning_rate": 1.5932742810444314e-06,
      "loss": 0.3836,
      "step": 2720
    },
    {
      "epoch": 2.513837638376384,
      "grad_norm": 1.6521730580375191,
      "learning_rate": 1.5643232801261731e-06,
      "loss": 0.3948,
      "step": 2725
    },
    {
      "epoch": 2.518450184501845,
      "grad_norm": 1.6155666031902267,
      "learning_rate": 1.5356153932227423e-06,
      "loss": 0.3898,
      "step": 2730
    },
    {
      "epoch": 2.523062730627306,
      "grad_norm": 1.6555206625970396,
      "learning_rate": 1.5071514476879878e-06,
      "loss": 0.384,
      "step": 2735
    },
    {
      "epoch": 2.5276752767527677,
      "grad_norm": 1.6677020481929692,
      "learning_rate": 1.478932263845435e-06,
      "loss": 0.3952,
      "step": 2740
    },
    {
      "epoch": 2.532287822878229,
      "grad_norm": 1.66071104050102,
      "learning_rate": 1.450958654964647e-06,
      "loss": 0.3883,
      "step": 2745
    },
    {
      "epoch": 2.53690036900369,
      "grad_norm": 1.5550008356755514,
      "learning_rate": 1.4232314272377723e-06,
      "loss": 0.3867,
      "step": 2750
    },
    {
      "epoch": 2.541512915129151,
      "grad_norm": 1.6135337105923544,
      "learning_rate": 1.3957513797563227e-06,
      "loss": 0.3895,
      "step": 2755
    },
    {
      "epoch": 2.5461254612546127,
      "grad_norm": 1.6353151843919402,
      "learning_rate": 1.368519304488134e-06,
      "loss": 0.3868,
      "step": 2760
    },
    {
      "epoch": 2.550738007380074,
      "grad_norm": 1.5705890317457465,
      "learning_rate": 1.3415359862545574e-06,
      "loss": 0.3834,
      "step": 2765
    },
    {
      "epoch": 2.555350553505535,
      "grad_norm": 1.654601851442529,
      "learning_rate": 1.3148022027078223e-06,
      "loss": 0.3832,
      "step": 2770
    },
    {
      "epoch": 2.5599630996309966,
      "grad_norm": 1.5695058446628602,
      "learning_rate": 1.2883187243086338e-06,
      "loss": 0.3893,
      "step": 2775
    },
    {
      "epoch": 2.5645756457564577,
      "grad_norm": 1.6350847841681155,
      "learning_rate": 1.262086314303973e-06,
      "loss": 0.3898,
      "step": 2780
    },
    {
      "epoch": 2.569188191881919,
      "grad_norm": 1.608716488298126,
      "learning_rate": 1.2361057287050892e-06,
      "loss": 0.3834,
      "step": 2785
    },
    {
      "epoch": 2.57380073800738,
      "grad_norm": 1.6204640984588243,
      "learning_rate": 1.2103777162657205e-06,
      "loss": 0.3972,
      "step": 2790
    },
    {
      "epoch": 2.578413284132841,
      "grad_norm": 1.6231664675158106,
      "learning_rate": 1.1849030184605092e-06,
      "loss": 0.3831,
      "step": 2795
    },
    {
      "epoch": 2.5830258302583027,
      "grad_norm": 1.6455527588787915,
      "learning_rate": 1.1596823694636427e-06,
      "loss": 0.3872,
      "step": 2800
    },
    {
      "epoch": 2.5830258302583027,
      "eval_loss": 1.0266528129577637,
      "eval_runtime": 403.4694,
      "eval_samples_per_second": 38.045,
      "eval_steps_per_second": 0.149,
      "step": 2800
    },
    {
      "epoch": 2.587638376383764,
      "grad_norm": 1.6501434655468525,
      "learning_rate": 1.134716496127679e-06,
      "loss": 0.3866,
      "step": 2805
    },
    {
      "epoch": 2.592250922509225,
      "grad_norm": 1.5937430607804544,
      "learning_rate": 1.110006117962612e-06,
      "loss": 0.3746,
      "step": 2810
    },
    {
      "epoch": 2.5968634686346865,
      "grad_norm": 1.6042558353979863,
      "learning_rate": 1.085551947115131e-06,
      "loss": 0.3813,
      "step": 2815
    },
    {
      "epoch": 2.6014760147601477,
      "grad_norm": 1.5880288341663498,
      "learning_rate": 1.0613546883480974e-06,
      "loss": 0.3879,
      "step": 2820
    },
    {
      "epoch": 2.606088560885609,
      "grad_norm": 1.6687358545150779,
      "learning_rate": 1.0374150390202308e-06,
      "loss": 0.3764,
      "step": 2825
    },
    {
      "epoch": 2.61070110701107,
      "grad_norm": 1.6305478991844253,
      "learning_rate": 1.013733689066012e-06,
      "loss": 0.3936,
      "step": 2830
    },
    {
      "epoch": 2.6153136531365315,
      "grad_norm": 1.5959262607963571,
      "learning_rate": 9.903113209758098e-07,
      "loss": 0.3809,
      "step": 2835
    },
    {
      "epoch": 2.6199261992619927,
      "grad_norm": 1.6326891680063345,
      "learning_rate": 9.671486097761918e-07,
      "loss": 0.3851,
      "step": 2840
    },
    {
      "epoch": 2.624538745387454,
      "grad_norm": 1.5671079064226814,
      "learning_rate": 9.442462230104876e-07,
      "loss": 0.3813,
      "step": 2845
    },
    {
      "epoch": 2.6291512915129154,
      "grad_norm": 1.6290077759272117,
      "learning_rate": 9.216048207195438e-07,
      "loss": 0.3815,
      "step": 2850
    },
    {
      "epoch": 2.6337638376383765,
      "grad_norm": 1.6273985534855235,
      "learning_rate": 8.992250554227011e-07,
      "loss": 0.4061,
      "step": 2855
    },
    {
      "epoch": 2.6383763837638377,
      "grad_norm": 1.6210509601819985,
      "learning_rate": 8.771075720989886e-07,
      "loss": 0.3752,
      "step": 2860
    },
    {
      "epoch": 2.642988929889299,
      "grad_norm": 1.555467095004222,
      "learning_rate": 8.552530081685384e-07,
      "loss": 0.3875,
      "step": 2865
    },
    {
      "epoch": 2.64760147601476,
      "grad_norm": 1.5802373017514193,
      "learning_rate": 8.336619934742151e-07,
      "loss": 0.3819,
      "step": 2870
    },
    {
      "epoch": 2.6522140221402215,
      "grad_norm": 1.6154443890108339,
      "learning_rate": 8.123351502634625e-07,
      "loss": 0.3888,
      "step": 2875
    },
    {
      "epoch": 2.6568265682656826,
      "grad_norm": 1.6154395851668601,
      "learning_rate": 7.91273093170365e-07,
      "loss": 0.3808,
      "step": 2880
    },
    {
      "epoch": 2.661439114391144,
      "grad_norm": 1.587280501111623,
      "learning_rate": 7.704764291979516e-07,
      "loss": 0.3774,
      "step": 2885
    },
    {
      "epoch": 2.6660516605166054,
      "grad_norm": 1.6071595650095456,
      "learning_rate": 7.499457577006753e-07,
      "loss": 0.3819,
      "step": 2890
    },
    {
      "epoch": 2.6706642066420665,
      "grad_norm": 1.648848686369746,
      "learning_rate": 7.296816703671683e-07,
      "loss": 0.3855,
      "step": 2895
    },
    {
      "epoch": 2.6752767527675276,
      "grad_norm": 1.5617730378995032,
      "learning_rate": 7.09684751203168e-07,
      "loss": 0.3909,
      "step": 2900
    },
    {
      "epoch": 2.6798892988929888,
      "grad_norm": 1.6183910290801358,
      "learning_rate": 6.899555765147004e-07,
      "loss": 0.3826,
      "step": 2905
    },
    {
      "epoch": 2.6845018450184504,
      "grad_norm": 1.674038262833668,
      "learning_rate": 6.704947148914608e-07,
      "loss": 0.382,
      "step": 2910
    },
    {
      "epoch": 2.6891143911439115,
      "grad_norm": 1.6448057348626846,
      "learning_rate": 6.513027271904315e-07,
      "loss": 0.3854,
      "step": 2915
    },
    {
      "epoch": 2.6937269372693726,
      "grad_norm": 1.6374354465922731,
      "learning_rate": 6.323801665197238e-07,
      "loss": 0.3851,
      "step": 2920
    },
    {
      "epoch": 2.698339483394834,
      "grad_norm": 1.5834812445833784,
      "learning_rate": 6.137275782226216e-07,
      "loss": 0.3819,
      "step": 2925
    },
    {
      "epoch": 2.7029520295202953,
      "grad_norm": 1.623319595480127,
      "learning_rate": 5.953454998618857e-07,
      "loss": 0.3856,
      "step": 2930
    },
    {
      "epoch": 2.7075645756457565,
      "grad_norm": 1.5967961053246091,
      "learning_rate": 5.772344612042435e-07,
      "loss": 0.3862,
      "step": 2935
    },
    {
      "epoch": 2.7121771217712176,
      "grad_norm": 1.5710116912601946,
      "learning_rate": 5.593949842051338e-07,
      "loss": 0.3842,
      "step": 2940
    },
    {
      "epoch": 2.7167896678966788,
      "grad_norm": 1.57362891686515,
      "learning_rate": 5.418275829936537e-07,
      "loss": 0.3711,
      "step": 2945
    },
    {
      "epoch": 2.7214022140221403,
      "grad_norm": 1.580310931596939,
      "learning_rate": 5.24532763857749e-07,
      "loss": 0.3835,
      "step": 2950
    },
    {
      "epoch": 2.7260147601476015,
      "grad_norm": 1.6145634716470691,
      "learning_rate": 5.075110252296245e-07,
      "loss": 0.3882,
      "step": 2955
    },
    {
      "epoch": 2.7306273062730626,
      "grad_norm": 1.6743712939756843,
      "learning_rate": 4.907628576713663e-07,
      "loss": 0.3838,
      "step": 2960
    },
    {
      "epoch": 2.735239852398524,
      "grad_norm": 1.5631707817004297,
      "learning_rate": 4.742887438608235e-07,
      "loss": 0.387,
      "step": 2965
    },
    {
      "epoch": 2.7398523985239853,
      "grad_norm": 1.6160350852160132,
      "learning_rate": 4.5808915857768035e-07,
      "loss": 0.3733,
      "step": 2970
    },
    {
      "epoch": 2.7444649446494465,
      "grad_norm": 1.6391404550180673,
      "learning_rate": 4.4216456868978243e-07,
      "loss": 0.3863,
      "step": 2975
    },
    {
      "epoch": 2.7490774907749076,
      "grad_norm": 1.5869883487994245,
      "learning_rate": 4.265154331396815e-07,
      "loss": 0.3803,
      "step": 2980
    },
    {
      "epoch": 2.7536900369003687,
      "grad_norm": 1.6338303616426142,
      "learning_rate": 4.111422029314016e-07,
      "loss": 0.367,
      "step": 2985
    },
    {
      "epoch": 2.7583025830258303,
      "grad_norm": 1.6222090885217113,
      "learning_rate": 3.960453211174531e-07,
      "loss": 0.3913,
      "step": 2990
    },
    {
      "epoch": 2.7629151291512914,
      "grad_norm": 1.5453198744376195,
      "learning_rate": 3.8122522278605024e-07,
      "loss": 0.3884,
      "step": 2995
    },
    {
      "epoch": 2.767527675276753,
      "grad_norm": 1.6194002178218827,
      "learning_rate": 3.6668233504858486e-07,
      "loss": 0.3918,
      "step": 3000
    },
    {
      "epoch": 2.767527675276753,
      "eval_loss": 1.0241528749465942,
      "eval_runtime": 583.1671,
      "eval_samples_per_second": 26.322,
      "eval_steps_per_second": 0.103,
      "step": 3000
    },
    {
      "epoch": 2.772140221402214,
      "grad_norm": 1.5792021657673334,
      "learning_rate": 3.524170770273072e-07,
      "loss": 0.3836,
      "step": 3005
    },
    {
      "epoch": 2.7767527675276753,
      "grad_norm": 1.5855513913689898,
      "learning_rate": 3.384298598432545e-07,
      "loss": 0.3836,
      "step": 3010
    },
    {
      "epoch": 2.7813653136531364,
      "grad_norm": 1.5563076811229497,
      "learning_rate": 3.2472108660439706e-07,
      "loss": 0.3802,
      "step": 3015
    },
    {
      "epoch": 2.7859778597785976,
      "grad_norm": 1.5823633538445738,
      "learning_rate": 3.112911523940232e-07,
      "loss": 0.383,
      "step": 3020
    },
    {
      "epoch": 2.790590405904059,
      "grad_norm": 1.629806513708018,
      "learning_rate": 2.9814044425935605e-07,
      "loss": 0.3821,
      "step": 3025
    },
    {
      "epoch": 2.7952029520295203,
      "grad_norm": 1.6493594318817755,
      "learning_rate": 2.852693412003882e-07,
      "loss": 0.3832,
      "step": 3030
    },
    {
      "epoch": 2.7998154981549814,
      "grad_norm": 1.5938360437660848,
      "learning_rate": 2.7267821415897343e-07,
      "loss": 0.3739,
      "step": 3035
    },
    {
      "epoch": 2.804428044280443,
      "grad_norm": 1.6409833373595797,
      "learning_rate": 2.6036742600812683e-07,
      "loss": 0.3824,
      "step": 3040
    },
    {
      "epoch": 2.809040590405904,
      "grad_norm": 1.6120109521550734,
      "learning_rate": 2.4833733154156716e-07,
      "loss": 0.3791,
      "step": 3045
    },
    {
      "epoch": 2.8136531365313653,
      "grad_norm": 1.6148694677775197,
      "learning_rate": 2.3658827746349976e-07,
      "loss": 0.3716,
      "step": 3050
    },
    {
      "epoch": 2.8182656826568264,
      "grad_norm": 1.6335439307552395,
      "learning_rate": 2.2512060237861455e-07,
      "loss": 0.377,
      "step": 3055
    },
    {
      "epoch": 2.8228782287822876,
      "grad_norm": 1.6687024271570985,
      "learning_rate": 2.139346367823314e-07,
      "loss": 0.3824,
      "step": 3060
    },
    {
      "epoch": 2.827490774907749,
      "grad_norm": 1.5961399559857916,
      "learning_rate": 2.030307030512768e-07,
      "loss": 0.38,
      "step": 3065
    },
    {
      "epoch": 2.8321033210332103,
      "grad_norm": 1.628301167538455,
      "learning_rate": 1.9240911543399465e-07,
      "loss": 0.3861,
      "step": 3070
    },
    {
      "epoch": 2.836715867158672,
      "grad_norm": 1.5876724378264213,
      "learning_rate": 1.8207018004188338e-07,
      "loss": 0.375,
      "step": 3075
    },
    {
      "epoch": 2.841328413284133,
      "grad_norm": 1.6533761523786383,
      "learning_rate": 1.7201419484037861e-07,
      "loss": 0.3847,
      "step": 3080
    },
    {
      "epoch": 2.845940959409594,
      "grad_norm": 1.65860087801836,
      "learning_rate": 1.622414496403668e-07,
      "loss": 0.4014,
      "step": 3085
    },
    {
      "epoch": 2.8505535055350553,
      "grad_norm": 1.5158450003834456,
      "learning_rate": 1.527522260898273e-07,
      "loss": 0.3743,
      "step": 3090
    },
    {
      "epoch": 2.8551660516605164,
      "grad_norm": 1.543441072095729,
      "learning_rate": 1.4354679766572344e-07,
      "loss": 0.3867,
      "step": 3095
    },
    {
      "epoch": 2.859778597785978,
      "grad_norm": 1.6190829129675481,
      "learning_rate": 1.3462542966611314e-07,
      "loss": 0.3697,
      "step": 3100
    },
    {
      "epoch": 2.864391143911439,
      "grad_norm": 1.6865745421103189,
      "learning_rate": 1.259883792025085e-07,
      "loss": 0.3744,
      "step": 3105
    },
    {
      "epoch": 2.8690036900369003,
      "grad_norm": 1.6329028917573583,
      "learning_rate": 1.1763589519246388e-07,
      "loss": 0.3722,
      "step": 3110
    },
    {
      "epoch": 2.873616236162362,
      "grad_norm": 1.5873886153372632,
      "learning_rate": 1.095682183524005e-07,
      "loss": 0.3797,
      "step": 3115
    },
    {
      "epoch": 2.878228782287823,
      "grad_norm": 1.580205694330548,
      "learning_rate": 1.0178558119067316e-07,
      "loss": 0.3705,
      "step": 3120
    },
    {
      "epoch": 2.882841328413284,
      "grad_norm": 1.5748354606004111,
      "learning_rate": 9.428820800086558e-08,
      "loss": 0.3832,
      "step": 3125
    },
    {
      "epoch": 2.8874538745387452,
      "grad_norm": 1.6471024830756282,
      "learning_rate": 8.707631485532775e-08,
      "loss": 0.3886,
      "step": 3130
    },
    {
      "epoch": 2.8920664206642064,
      "grad_norm": 1.6632577517398965,
      "learning_rate": 8.015010959894986e-08,
      "loss": 0.384,
      "step": 3135
    },
    {
      "epoch": 2.896678966789668,
      "grad_norm": 1.6208970211899278,
      "learning_rate": 7.350979184317153e-08,
      "loss": 0.3861,
      "step": 3140
    },
    {
      "epoch": 2.901291512915129,
      "grad_norm": 1.64161859212595,
      "learning_rate": 6.715555296022746e-08,
      "loss": 0.3767,
      "step": 3145
    },
    {
      "epoch": 2.9059040590405907,
      "grad_norm": 1.6172525804643438,
      "learning_rate": 6.108757607763305e-08,
      "loss": 0.3857,
      "step": 3150
    },
    {
      "epoch": 2.910516605166052,
      "grad_norm": 1.580351811354319,
      "learning_rate": 5.530603607290852e-08,
      "loss": 0.3771,
      "step": 3155
    },
    {
      "epoch": 2.915129151291513,
      "grad_norm": 1.572483075790589,
      "learning_rate": 4.981109956853747e-08,
      "loss": 0.3749,
      "step": 3160
    },
    {
      "epoch": 2.919741697416974,
      "grad_norm": 1.64962807846865,
      "learning_rate": 4.460292492716512e-08,
      "loss": 0.3795,
      "step": 3165
    },
    {
      "epoch": 2.9243542435424352,
      "grad_norm": 1.605735844681554,
      "learning_rate": 3.968166224703085e-08,
      "loss": 0.3795,
      "step": 3170
    },
    {
      "epoch": 2.928966789667897,
      "grad_norm": 1.5747261446081762,
      "learning_rate": 3.504745335765169e-08,
      "loss": 0.3793,
      "step": 3175
    },
    {
      "epoch": 2.933579335793358,
      "grad_norm": 1.653000934575167,
      "learning_rate": 3.0700431815724464e-08,
      "loss": 0.3903,
      "step": 3180
    },
    {
      "epoch": 2.938191881918819,
      "grad_norm": 1.6378961953845004,
      "learning_rate": 2.664072290128217e-08,
      "loss": 0.3889,
      "step": 3185
    },
    {
      "epoch": 2.9428044280442807,
      "grad_norm": 1.584042922862379,
      "learning_rate": 2.2868443614082468e-08,
      "loss": 0.3878,
      "step": 3190
    },
    {
      "epoch": 2.947416974169742,
      "grad_norm": 1.5647903615149348,
      "learning_rate": 1.9383702670235927e-08,
      "loss": 0.382,
      "step": 3195
    },
    {
      "epoch": 2.952029520295203,
      "grad_norm": 1.580064728520442,
      "learning_rate": 1.6186600499074055e-08,
      "loss": 0.3764,
      "step": 3200
    },
    {
      "epoch": 2.952029520295203,
      "eval_loss": 1.024267315864563,
      "eval_runtime": 436.1706,
      "eval_samples_per_second": 35.193,
      "eval_steps_per_second": 0.138,
      "step": 3200
    },
    {
      "epoch": 2.956642066420664,
      "grad_norm": 1.6540116549017054,
      "learning_rate": 1.3277229240249435e-08,
      "loss": 0.3945,
      "step": 3205
    },
    {
      "epoch": 2.961254612546125,
      "grad_norm": 1.6470444524138421,
      "learning_rate": 1.0655672741090028e-08,
      "loss": 0.3806,
      "step": 3210
    },
    {
      "epoch": 2.965867158671587,
      "grad_norm": 1.5413563389524112,
      "learning_rate": 8.322006554171147e-09,
      "loss": 0.3818,
      "step": 3215
    },
    {
      "epoch": 2.970479704797048,
      "grad_norm": 1.6164344748774018,
      "learning_rate": 6.276297935149389e-09,
      "loss": 0.3847,
      "step": 3220
    },
    {
      "epoch": 2.975092250922509,
      "grad_norm": 1.6066275827671024,
      "learning_rate": 4.5186058408153156e-09,
      "loss": 0.3823,
      "step": 3225
    },
    {
      "epoch": 2.9797047970479706,
      "grad_norm": 1.6333269508170274,
      "learning_rate": 3.0489809273981375e-09,
      "loss": 0.3801,
      "step": 3230
    },
    {
      "epoch": 2.984317343173432,
      "grad_norm": 1.6103531418344368,
      "learning_rate": 1.8674655491091043e-09,
      "loss": 0.3932,
      "step": 3235
    },
    {
      "epoch": 2.988929889298893,
      "grad_norm": 1.6234448383351934,
      "learning_rate": 9.740937569135967e-10,
      "loss": 0.3832,
      "step": 3240
    },
    {
      "epoch": 2.993542435424354,
      "grad_norm": 1.6318211007601922,
      "learning_rate": 3.6889129755413033e-10,
      "loss": 0.3871,
      "step": 3245
    },
    {
      "epoch": 2.9981549815498156,
      "grad_norm": 1.609675292027893,
      "learning_rate": 5.187561280983744e-11,
      "loss": 0.3788,
      "step": 3250
    },
    {
      "epoch": 3.0,
      "step": 3252,
      "total_flos": 1361805280542720.0,
      "train_loss": 0.7043063408920832,
      "train_runtime": 81819.3933,
      "train_samples_per_second": 5.085,
      "train_steps_per_second": 0.04
    }
  ],
  "logging_steps": 5,
  "max_steps": 3252,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1361805280542720.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}