{
  "best_metric": 0.4212750196456909,
  "best_model_checkpoint": "miner_id_24/checkpoint-150",
  "epoch": 1.0680907877169559,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0053404539385847796,
      "grad_norm": 0.1893819123506546,
      "learning_rate": 1e-05,
      "loss": 0.4889,
      "step": 1
    },
    {
      "epoch": 0.0053404539385847796,
      "eval_loss": 2.9746439456939697,
      "eval_runtime": 5.856,
      "eval_samples_per_second": 53.791,
      "eval_steps_per_second": 13.49,
      "step": 1
    },
    {
      "epoch": 0.010680907877169559,
      "grad_norm": 0.23143823444843292,
      "learning_rate": 2e-05,
      "loss": 0.4295,
      "step": 2
    },
    {
      "epoch": 0.01602136181575434,
      "grad_norm": 0.23967064917087555,
      "learning_rate": 3e-05,
      "loss": 0.4718,
      "step": 3
    },
    {
      "epoch": 0.021361815754339118,
      "grad_norm": 0.2763487994670868,
      "learning_rate": 4e-05,
      "loss": 0.5101,
      "step": 4
    },
    {
      "epoch": 0.0267022696929239,
      "grad_norm": 0.2771485447883606,
      "learning_rate": 5e-05,
      "loss": 0.602,
      "step": 5
    },
    {
      "epoch": 0.03204272363150868,
      "grad_norm": 0.25990936160087585,
      "learning_rate": 6e-05,
      "loss": 0.6481,
      "step": 6
    },
    {
      "epoch": 0.037383177570093455,
      "grad_norm": 0.2751813232898712,
      "learning_rate": 7e-05,
      "loss": 0.6764,
      "step": 7
    },
    {
      "epoch": 0.042723631508678236,
      "grad_norm": 0.29432281851768494,
      "learning_rate": 8e-05,
      "loss": 0.6943,
      "step": 8
    },
    {
      "epoch": 0.04806408544726302,
      "grad_norm": 0.2913835346698761,
      "learning_rate": 9e-05,
      "loss": 0.8176,
      "step": 9
    },
    {
      "epoch": 0.0534045393858478,
      "grad_norm": 0.3045256733894348,
      "learning_rate": 0.0001,
      "loss": 0.7296,
      "step": 10
    },
    {
      "epoch": 0.05874499332443257,
      "grad_norm": 0.3249466121196747,
      "learning_rate": 9.999316524962345e-05,
      "loss": 0.7945,
      "step": 11
    },
    {
      "epoch": 0.06408544726301736,
      "grad_norm": 0.34657374024391174,
      "learning_rate": 9.997266286704631e-05,
      "loss": 0.9426,
      "step": 12
    },
    {
      "epoch": 0.06942590120160214,
      "grad_norm": 0.3686789870262146,
      "learning_rate": 9.993849845741524e-05,
      "loss": 0.7125,
      "step": 13
    },
    {
      "epoch": 0.07476635514018691,
      "grad_norm": 0.40455299615859985,
      "learning_rate": 9.989068136093873e-05,
      "loss": 0.9765,
      "step": 14
    },
    {
      "epoch": 0.0801068090787717,
      "grad_norm": 0.5220254063606262,
      "learning_rate": 9.98292246503335e-05,
      "loss": 1.1694,
      "step": 15
    },
    {
      "epoch": 0.08544726301735647,
      "grad_norm": 0.5232031941413879,
      "learning_rate": 9.975414512725057e-05,
      "loss": 1.0398,
      "step": 16
    },
    {
      "epoch": 0.09078771695594126,
      "grad_norm": 0.5507349967956543,
      "learning_rate": 9.966546331768191e-05,
      "loss": 0.7857,
      "step": 17
    },
    {
      "epoch": 0.09612817089452604,
      "grad_norm": 0.7783668041229248,
      "learning_rate": 9.956320346634876e-05,
      "loss": 0.8326,
      "step": 18
    },
    {
      "epoch": 0.10146862483311081,
      "grad_norm": 0.6509848833084106,
      "learning_rate": 9.944739353007344e-05,
      "loss": 1.4672,
      "step": 19
    },
    {
      "epoch": 0.1068090787716956,
      "grad_norm": 6.685982704162598,
      "learning_rate": 9.931806517013612e-05,
      "loss": 4.8367,
      "step": 20
    },
    {
      "epoch": 0.11214953271028037,
      "grad_norm": 7.062814235687256,
      "learning_rate": 9.917525374361912e-05,
      "loss": 4.8243,
      "step": 21
    },
    {
      "epoch": 0.11748998664886515,
      "grad_norm": 5.905311107635498,
      "learning_rate": 9.901899829374047e-05,
      "loss": 3.9528,
      "step": 22
    },
    {
      "epoch": 0.12283044058744993,
      "grad_norm": 5.521387577056885,
      "learning_rate": 9.884934153917997e-05,
      "loss": 3.311,
      "step": 23
    },
    {
      "epoch": 0.12817089452603472,
      "grad_norm": 5.654269218444824,
      "learning_rate": 9.86663298624003e-05,
      "loss": 2.8921,
      "step": 24
    },
    {
      "epoch": 0.13351134846461948,
      "grad_norm": 4.2810893058776855,
      "learning_rate": 9.847001329696653e-05,
      "loss": 2.3142,
      "step": 25
    },
    {
      "epoch": 0.13885180240320427,
      "grad_norm": 3.6259078979492188,
      "learning_rate": 9.826044551386744e-05,
      "loss": 1.9469,
      "step": 26
    },
    {
      "epoch": 0.14419225634178906,
      "grad_norm": 3.3573975563049316,
      "learning_rate": 9.803768380684242e-05,
      "loss": 1.6331,
      "step": 27
    },
    {
      "epoch": 0.14953271028037382,
      "grad_norm": 2.7513575553894043,
      "learning_rate": 9.780178907671789e-05,
      "loss": 1.486,
      "step": 28
    },
    {
      "epoch": 0.1548731642189586,
      "grad_norm": 2.10685133934021,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.9831,
      "step": 29
    },
    {
      "epoch": 0.1602136181575434,
      "grad_norm": 1.9429676532745361,
      "learning_rate": 9.729086208503174e-05,
      "loss": 0.8125,
      "step": 30
    },
    {
      "epoch": 0.16555407209612816,
      "grad_norm": 1.8820923566818237,
      "learning_rate": 9.701596950580806e-05,
      "loss": 0.7545,
      "step": 31
    },
    {
      "epoch": 0.17089452603471295,
      "grad_norm": 1.5756607055664062,
      "learning_rate": 9.672822322997305e-05,
      "loss": 0.6204,
      "step": 32
    },
    {
      "epoch": 0.17623497997329773,
      "grad_norm": 1.7030894756317139,
      "learning_rate": 9.642770192448536e-05,
      "loss": 0.523,
      "step": 33
    },
    {
      "epoch": 0.18157543391188252,
      "grad_norm": 2.6057567596435547,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.6865,
      "step": 34
    },
    {
      "epoch": 0.18691588785046728,
      "grad_norm": 3.0941834449768066,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.8807,
      "step": 35
    },
    {
      "epoch": 0.19225634178905207,
      "grad_norm": 2.6298329830169678,
      "learning_rate": 9.545032675245813e-05,
      "loss": 0.7221,
      "step": 36
    },
    {
      "epoch": 0.19759679572763686,
      "grad_norm": 2.1490981578826904,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.5772,
      "step": 37
    },
    {
      "epoch": 0.20293724966622162,
      "grad_norm": 1.721011996269226,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.3974,
      "step": 38
    },
    {
      "epoch": 0.2082777036048064,
      "grad_norm": 5.7618255615234375,
      "learning_rate": 9.43611409721806e-05,
      "loss": 3.5162,
      "step": 39
    },
    {
      "epoch": 0.2136181575433912,
      "grad_norm": 6.689899921417236,
      "learning_rate": 9.397368756032445e-05,
      "loss": 3.8478,
      "step": 40
    },
    {
      "epoch": 0.21895861148197596,
      "grad_norm": 6.4886250495910645,
      "learning_rate": 9.357421218136386e-05,
      "loss": 3.1774,
      "step": 41
    },
    {
      "epoch": 0.22429906542056074,
      "grad_norm": 6.177675724029541,
      "learning_rate": 9.316282404787871e-05,
      "loss": 3.0461,
      "step": 42
    },
    {
      "epoch": 0.22963951935914553,
      "grad_norm": 5.41592264175415,
      "learning_rate": 9.273963562927695e-05,
      "loss": 2.6599,
      "step": 43
    },
    {
      "epoch": 0.2349799732977303,
      "grad_norm": 4.093160152435303,
      "learning_rate": 9.230476262104677e-05,
      "loss": 2.4444,
      "step": 44
    },
    {
      "epoch": 0.24032042723631508,
      "grad_norm": 3.1388323307037354,
      "learning_rate": 9.185832391312644e-05,
      "loss": 2.2707,
      "step": 45
    },
    {
      "epoch": 0.24566088117489987,
      "grad_norm": 2.797750234603882,
      "learning_rate": 9.140044155740101e-05,
      "loss": 2.1524,
      "step": 46
    },
    {
      "epoch": 0.25100133511348466,
      "grad_norm": 9.940773010253906,
      "learning_rate": 9.093124073433463e-05,
      "loss": 2.3889,
      "step": 47
    },
    {
      "epoch": 0.25634178905206945,
      "grad_norm": 8.018715858459473,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.9594,
      "step": 48
    },
    {
      "epoch": 0.2616822429906542,
      "grad_norm": 6.425601005554199,
      "learning_rate": 8.995939984474624e-05,
      "loss": 1.7725,
      "step": 49
    },
    {
      "epoch": 0.26702269692923897,
      "grad_norm": 5.085487365722656,
      "learning_rate": 8.945702546981969e-05,
      "loss": 1.6086,
      "step": 50
    },
    {
      "epoch": 0.26702269692923897,
      "eval_loss": 1.3177098035812378,
      "eval_runtime": 5.8127,
      "eval_samples_per_second": 54.192,
      "eval_steps_per_second": 13.591,
      "step": 50
    },
    {
      "epoch": 0.27236315086782376,
      "grad_norm": 4.08809232711792,
      "learning_rate": 8.894386393810563e-05,
      "loss": 1.6135,
      "step": 51
    },
    {
      "epoch": 0.27770360480640854,
      "grad_norm": 3.1826844215393066,
      "learning_rate": 8.842005554284296e-05,
      "loss": 1.3862,
      "step": 52
    },
    {
      "epoch": 0.28304405874499333,
      "grad_norm": 2.4512557983398438,
      "learning_rate": 8.788574348801675e-05,
      "loss": 1.2423,
      "step": 53
    },
    {
      "epoch": 0.2883845126835781,
      "grad_norm": 2.120861053466797,
      "learning_rate": 8.73410738492077e-05,
      "loss": 1.3621,
      "step": 54
    },
    {
      "epoch": 0.2937249666221629,
      "grad_norm": 1.6347267627716064,
      "learning_rate": 8.678619553365659e-05,
      "loss": 1.1002,
      "step": 55
    },
    {
      "epoch": 0.29906542056074764,
      "grad_norm": 1.378074288368225,
      "learning_rate": 8.622126023955446e-05,
      "loss": 1.0426,
      "step": 56
    },
    {
      "epoch": 0.30440587449933243,
      "grad_norm": 1.146545171737671,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.9727,
      "step": 57
    },
    {
      "epoch": 0.3097463284379172,
      "grad_norm": 0.8145306706428528,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.7558,
      "step": 58
    },
    {
      "epoch": 0.315086782376502,
      "grad_norm": 0.8896949887275696,
      "learning_rate": 8.44676704559283e-05,
      "loss": 1.0849,
      "step": 59
    },
    {
      "epoch": 0.3204272363150868,
      "grad_norm": 0.8385241627693176,
      "learning_rate": 8.386407858128706e-05,
      "loss": 1.0857,
      "step": 60
    },
    {
      "epoch": 0.3257676902536716,
      "grad_norm": 0.6870594024658203,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.9184,
      "step": 61
    },
    {
      "epoch": 0.3311081441922563,
      "grad_norm": 0.699288010597229,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.8039,
      "step": 62
    },
    {
      "epoch": 0.3364485981308411,
      "grad_norm": 0.6874699592590332,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.7844,
      "step": 63
    },
    {
      "epoch": 0.3417890520694259,
      "grad_norm": 1.7267203330993652,
      "learning_rate": 8.135881792367686e-05,
      "loss": 1.066,
      "step": 64
    },
    {
      "epoch": 0.3471295060080107,
      "grad_norm": 2.610464096069336,
      "learning_rate": 8.07106356344834e-05,
      "loss": 0.9611,
      "step": 65
    },
    {
      "epoch": 0.35246995994659547,
      "grad_norm": 2.9219110012054443,
      "learning_rate": 8.005405736415126e-05,
      "loss": 0.9571,
      "step": 66
    },
    {
      "epoch": 0.35781041388518026,
      "grad_norm": 2.2829842567443848,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.8434,
      "step": 67
    },
    {
      "epoch": 0.36315086782376504,
      "grad_norm": 2.0976510047912598,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.8043,
      "step": 68
    },
    {
      "epoch": 0.3684913217623498,
      "grad_norm": 1.784636378288269,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.7195,
      "step": 69
    },
    {
      "epoch": 0.37383177570093457,
      "grad_norm": 1.6450767517089844,
      "learning_rate": 7.734740790612136e-05,
      "loss": 0.6813,
      "step": 70
    },
    {
      "epoch": 0.37917222963951935,
      "grad_norm": 1.3317842483520508,
      "learning_rate": 7.66515864363997e-05,
      "loss": 0.4918,
      "step": 71
    },
    {
      "epoch": 0.38451268357810414,
      "grad_norm": 1.3557476997375488,
      "learning_rate": 7.594847868906076e-05,
      "loss": 0.5617,
      "step": 72
    },
    {
      "epoch": 0.38985313751668893,
      "grad_norm": 1.3024462461471558,
      "learning_rate": 7.52382768867422e-05,
      "loss": 0.461,
      "step": 73
    },
    {
      "epoch": 0.3951935914552737,
      "grad_norm": 1.103190541267395,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.4156,
      "step": 74
    },
    {
      "epoch": 0.40053404539385845,
      "grad_norm": 1.1481376886367798,
      "learning_rate": 7.379736965185368e-05,
      "loss": 0.3585,
      "step": 75
    },
    {
      "epoch": 0.40587449933244324,
      "grad_norm": 0.964331865310669,
      "learning_rate": 7.30670581489344e-05,
      "loss": 0.3725,
      "step": 76
    },
    {
      "epoch": 0.411214953271028,
      "grad_norm": 0.8679165840148926,
      "learning_rate": 7.233044034264034e-05,
      "loss": 0.2413,
      "step": 77
    },
    {
      "epoch": 0.4165554072096128,
      "grad_norm": 0.6505359411239624,
      "learning_rate": 7.158771761692464e-05,
      "loss": 0.1599,
      "step": 78
    },
    {
      "epoch": 0.4218958611481976,
      "grad_norm": 0.6615264415740967,
      "learning_rate": 7.083909302476453e-05,
      "loss": 0.1594,
      "step": 79
    },
    {
      "epoch": 0.4272363150867824,
      "grad_norm": 1.3271400928497314,
      "learning_rate": 7.008477123264848e-05,
      "loss": 0.5423,
      "step": 80
    },
    {
      "epoch": 0.4325767690253672,
      "grad_norm": 2.0979104042053223,
      "learning_rate": 6.932495846462261e-05,
      "loss": 0.8005,
      "step": 81
    },
    {
      "epoch": 0.4379172229639519,
      "grad_norm": 2.0031471252441406,
      "learning_rate": 6.855986244591104e-05,
      "loss": 0.6966,
      "step": 82
    },
    {
      "epoch": 0.4432576769025367,
      "grad_norm": 1.957952857017517,
      "learning_rate": 6.778969234612584e-05,
      "loss": 0.6278,
      "step": 83
    },
    {
      "epoch": 0.4485981308411215,
      "grad_norm": 1.8223851919174194,
      "learning_rate": 6.701465872208216e-05,
      "loss": 0.5757,
      "step": 84
    },
    {
      "epoch": 0.4539385847797063,
      "grad_norm": 2.0960209369659424,
      "learning_rate": 6.623497346023418e-05,
      "loss": 1.8267,
      "step": 85
    },
    {
      "epoch": 0.45927903871829107,
      "grad_norm": 1.2012639045715332,
      "learning_rate": 6.545084971874738e-05,
      "loss": 2.444,
      "step": 86
    },
    {
      "epoch": 0.46461949265687585,
      "grad_norm": 1.5034024715423584,
      "learning_rate": 6.466250186922325e-05,
      "loss": 2.018,
      "step": 87
    },
    {
      "epoch": 0.4699599465954606,
      "grad_norm": 1.5394749641418457,
      "learning_rate": 6.387014543809223e-05,
      "loss": 1.6867,
      "step": 88
    },
    {
      "epoch": 0.4753004005340454,
      "grad_norm": 1.6055647134780884,
      "learning_rate": 6.307399704769099e-05,
      "loss": 1.3725,
      "step": 89
    },
    {
      "epoch": 0.48064085447263016,
      "grad_norm": 1.5555037260055542,
      "learning_rate": 6.227427435703997e-05,
      "loss": 1.228,
      "step": 90
    },
    {
      "epoch": 0.48598130841121495,
      "grad_norm": 1.4415063858032227,
      "learning_rate": 6.147119600233758e-05,
      "loss": 1.0796,
      "step": 91
    },
    {
      "epoch": 0.49132176234979974,
      "grad_norm": 1.4609013795852661,
      "learning_rate": 6.066498153718735e-05,
      "loss": 1.1461,
      "step": 92
    },
    {
      "epoch": 0.49666221628838453,
      "grad_norm": 2.8781239986419678,
      "learning_rate": 5.985585137257401e-05,
      "loss": 0.6304,
      "step": 93
    },
    {
      "epoch": 0.5020026702269693,
      "grad_norm": 2.8615729808807373,
      "learning_rate": 5.90440267166055e-05,
      "loss": 0.6881,
      "step": 94
    },
    {
      "epoch": 0.507343124165554,
      "grad_norm": 2.4979870319366455,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 0.6222,
      "step": 95
    },
    {
      "epoch": 0.5126835781041389,
      "grad_norm": 2.3835232257843018,
      "learning_rate": 5.74131823855921e-05,
      "loss": 0.7224,
      "step": 96
    },
    {
      "epoch": 0.5180240320427236,
      "grad_norm": 2.1872708797454834,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 0.8517,
      "step": 97
    },
    {
      "epoch": 0.5233644859813084,
      "grad_norm": 1.9319508075714111,
      "learning_rate": 5.577423184847932e-05,
      "loss": 0.8071,
      "step": 98
    },
    {
      "epoch": 0.5287049399198932,
      "grad_norm": 1.6262089014053345,
      "learning_rate": 5.495227651252315e-05,
      "loss": 0.8401,
      "step": 99
    },
    {
      "epoch": 0.5340453938584779,
      "grad_norm": 1.2172940969467163,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 0.7545,
      "step": 100
    },
    {
      "epoch": 0.5340453938584779,
      "eval_loss": 0.5059378743171692,
      "eval_runtime": 5.8233,
      "eval_samples_per_second": 54.093,
      "eval_steps_per_second": 13.566,
      "step": 100
    },
    {
      "epoch": 0.5393858477970628,
      "grad_norm": 1.0703157186508179,
      "learning_rate": 5.330452921628497e-05,
      "loss": 0.7063,
      "step": 101
    },
    {
      "epoch": 0.5447263017356475,
      "grad_norm": 0.9685056805610657,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.801,
      "step": 102
    },
    {
      "epoch": 0.5500667556742324,
      "grad_norm": 0.634471595287323,
      "learning_rate": 5.165316846586541e-05,
      "loss": 0.6137,
      "step": 103
    },
    {
      "epoch": 0.5554072096128171,
      "grad_norm": 0.5252261757850647,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.6496,
      "step": 104
    },
    {
      "epoch": 0.5607476635514018,
      "grad_norm": 0.5165095925331116,
      "learning_rate": 5e-05,
      "loss": 0.7026,
      "step": 105
    },
    {
      "epoch": 0.5660881174899867,
      "grad_norm": 0.7024674415588379,
      "learning_rate": 4.917330276168208e-05,
      "loss": 1.0225,
      "step": 106
    },
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 0.5931411385536194,
      "learning_rate": 4.834683153413459e-05,
      "loss": 0.9212,
      "step": 107
    },
    {
      "epoch": 0.5767690253671562,
      "grad_norm": 0.4554653763771057,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.6443,
      "step": 108
    },
    {
      "epoch": 0.582109479305741,
      "grad_norm": 0.5237408876419067,
      "learning_rate": 4.669547078371504e-05,
      "loss": 0.7306,
      "step": 109
    },
    {
      "epoch": 0.5874499332443258,
      "grad_norm": 0.7392274737358093,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 1.2098,
      "step": 110
    },
    {
      "epoch": 0.5927903871829105,
      "grad_norm": 1.0012381076812744,
      "learning_rate": 4.504772348747687e-05,
      "loss": 0.1932,
      "step": 111
    },
    {
      "epoch": 0.5981308411214953,
      "grad_norm": 0.8799054622650146,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 0.1563,
      "step": 112
    },
    {
      "epoch": 0.6034712950600801,
      "grad_norm": 0.6885924935340881,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.1405,
      "step": 113
    },
    {
      "epoch": 0.6088117489986649,
      "grad_norm": 0.6617006659507751,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.1117,
      "step": 114
    },
    {
      "epoch": 0.6141522029372497,
      "grad_norm": 0.575919508934021,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.1007,
      "step": 115
    },
    {
      "epoch": 0.6194926568758344,
      "grad_norm": 0.6983376741409302,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.1412,
      "step": 116
    },
    {
      "epoch": 0.6248331108144193,
      "grad_norm": 0.5194442272186279,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 0.0809,
      "step": 117
    },
    {
      "epoch": 0.630173564753004,
      "grad_norm": 0.5731891393661499,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.0933,
      "step": 118
    },
    {
      "epoch": 0.6355140186915887,
      "grad_norm": 0.5346620082855225,
      "learning_rate": 3.852880399766243e-05,
      "loss": 0.1055,
      "step": 119
    },
    {
      "epoch": 0.6408544726301736,
      "grad_norm": 0.553011417388916,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.1252,
      "step": 120
    },
    {
      "epoch": 0.6461949265687583,
      "grad_norm": 0.5491169095039368,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.1091,
      "step": 121
    },
    {
      "epoch": 0.6515353805073432,
      "grad_norm": 0.37419071793556213,
      "learning_rate": 3.612985456190778e-05,
      "loss": 0.0629,
      "step": 122
    },
    {
      "epoch": 0.6568758344459279,
      "grad_norm": 0.4278241693973541,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.0882,
      "step": 123
    },
    {
      "epoch": 0.6622162883845126,
      "grad_norm": 0.4199080765247345,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.0822,
      "step": 124
    },
    {
      "epoch": 0.6675567423230975,
      "grad_norm": 0.41842973232269287,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.0906,
      "step": 125
    },
    {
      "epoch": 0.6728971962616822,
      "grad_norm": 1.5511281490325928,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.6165,
      "step": 126
    },
    {
      "epoch": 0.678237650200267,
      "grad_norm": 1.85270094871521,
      "learning_rate": 3.221030765387417e-05,
      "loss": 0.6604,
      "step": 127
    },
    {
      "epoch": 0.6835781041388518,
      "grad_norm": 1.7895368337631226,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.7251,
      "step": 128
    },
    {
      "epoch": 0.6889185580774366,
      "grad_norm": 1.787599802017212,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 0.7123,
      "step": 129
    },
    {
      "epoch": 0.6942590120160214,
      "grad_norm": 1.8994046449661255,
      "learning_rate": 2.991522876735154e-05,
      "loss": 0.5775,
      "step": 130
    },
    {
      "epoch": 0.6995994659546061,
      "grad_norm": 2.6980693340301514,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.8073,
      "step": 131
    },
    {
      "epoch": 0.7049399198931909,
      "grad_norm": 0.7815512418746948,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 1.9245,
      "step": 132
    },
    {
      "epoch": 0.7102803738317757,
      "grad_norm": 0.751046895980835,
      "learning_rate": 2.766955965735968e-05,
      "loss": 1.3796,
      "step": 133
    },
    {
      "epoch": 0.7156208277703605,
      "grad_norm": 0.7078244090080261,
      "learning_rate": 2.693294185106562e-05,
      "loss": 1.0091,
      "step": 134
    },
    {
      "epoch": 0.7209612817089452,
      "grad_norm": 0.7192561626434326,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 1.1216,
      "step": 135
    },
    {
      "epoch": 0.7263017356475301,
      "grad_norm": 0.7735435962677002,
      "learning_rate": 2.547882480847461e-05,
      "loss": 0.8165,
      "step": 136
    },
    {
      "epoch": 0.7316421895861148,
      "grad_norm": 0.8141784071922302,
      "learning_rate": 2.476172311325783e-05,
      "loss": 0.6019,
      "step": 137
    },
    {
      "epoch": 0.7369826435246996,
      "grad_norm": 0.9404396414756775,
      "learning_rate": 2.405152131093926e-05,
      "loss": 0.4024,
      "step": 138
    },
    {
      "epoch": 0.7423230974632844,
      "grad_norm": 0.17825716733932495,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 0.3356,
      "step": 139
    },
    {
      "epoch": 0.7476635514018691,
      "grad_norm": 0.17448261380195618,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 0.3478,
      "step": 140
    },
    {
      "epoch": 0.753004005340454,
      "grad_norm": 0.16396288573741913,
      "learning_rate": 2.196424713241637e-05,
      "loss": 0.3447,
      "step": 141
    },
    {
      "epoch": 0.7583444592790387,
      "grad_norm": 0.1723211109638214,
      "learning_rate": 2.128356686585282e-05,
      "loss": 0.3919,
      "step": 142
    },
    {
      "epoch": 0.7636849132176236,
      "grad_norm": 0.18998174369335175,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.4167,
      "step": 143
    },
    {
      "epoch": 0.7690253671562083,
      "grad_norm": 0.22026734054088593,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 0.493,
      "step": 144
    },
    {
      "epoch": 0.774365821094793,
      "grad_norm": 0.21056507527828217,
      "learning_rate": 1.928936436551661e-05,
      "loss": 0.449,
      "step": 145
    },
    {
      "epoch": 0.7797062750333779,
      "grad_norm": 0.24270562827587128,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 0.5445,
      "step": 146
    },
    {
      "epoch": 0.7850467289719626,
      "grad_norm": 0.22850759327411652,
      "learning_rate": 1.800157297483417e-05,
      "loss": 0.4599,
      "step": 147
    },
    {
      "epoch": 0.7903871829105474,
      "grad_norm": 0.2509589195251465,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 0.574,
      "step": 148
    },
    {
      "epoch": 0.7957276368491322,
      "grad_norm": 0.3236781656742096,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 0.7291,
      "step": 149
    },
    {
      "epoch": 0.8010680907877169,
      "grad_norm": 0.29164808988571167,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 0.5857,
      "step": 150
    },
    {
      "epoch": 0.8010680907877169,
      "eval_loss": 0.4212750196456909,
      "eval_runtime": 5.8162,
      "eval_samples_per_second": 54.159,
      "eval_steps_per_second": 13.583,
      "step": 150
    },
    {
      "epoch": 0.8064085447263017,
      "grad_norm": 0.43450385332107544,
      "learning_rate": 1.553232954407171e-05,
      "loss": 0.844,
      "step": 151
    },
    {
      "epoch": 0.8117489986648865,
      "grad_norm": 0.5239862203598022,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 0.8537,
      "step": 152
    },
    {
      "epoch": 0.8170894526034713,
      "grad_norm": 0.5118625164031982,
      "learning_rate": 1.435357758543015e-05,
      "loss": 0.8173,
      "step": 153
    },
    {
      "epoch": 0.822429906542056,
      "grad_norm": 0.46891719102859497,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 0.6886,
      "step": 154
    },
    {
      "epoch": 0.8277703604806409,
      "grad_norm": 0.8180747628211975,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 1.0,
      "step": 155
    },
    {
      "epoch": 0.8331108144192256,
      "grad_norm": 0.42688801884651184,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 0.0642,
      "step": 156
    },
    {
      "epoch": 0.8384512683578104,
      "grad_norm": 0.34753987193107605,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 0.0482,
      "step": 157
    },
    {
      "epoch": 0.8437917222963952,
      "grad_norm": 0.49213743209838867,
      "learning_rate": 1.157994445715706e-05,
      "loss": 0.0636,
      "step": 158
    },
    {
      "epoch": 0.8491321762349799,
      "grad_norm": 0.5168758630752563,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 0.073,
      "step": 159
    },
    {
      "epoch": 0.8544726301735648,
      "grad_norm": 0.3189510405063629,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 0.0375,
      "step": 160
    },
    {
      "epoch": 0.8598130841121495,
      "grad_norm": 0.4095393717288971,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 0.0527,
      "step": 161
    },
    {
      "epoch": 0.8651535380507344,
      "grad_norm": 0.3824896216392517,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.0444,
      "step": 162
    },
    {
      "epoch": 0.8704939919893191,
      "grad_norm": 0.41289222240448,
      "learning_rate": 9.068759265665384e-06,
      "loss": 0.0498,
      "step": 163
    },
    {
      "epoch": 0.8758344459279038,
      "grad_norm": 0.3243921101093292,
      "learning_rate": 8.599558442598998e-06,
      "loss": 0.038,
      "step": 164
    },
    {
      "epoch": 0.8811748998664887,
      "grad_norm": 0.398315966129303,
      "learning_rate": 8.141676086873572e-06,
      "loss": 0.0434,
      "step": 165
    },
    {
      "epoch": 0.8865153538050734,
      "grad_norm": 0.31560981273651123,
      "learning_rate": 7.695237378953223e-06,
      "loss": 0.0368,
      "step": 166
    },
    {
      "epoch": 0.8918558077436582,
      "grad_norm": 0.4467679262161255,
      "learning_rate": 7.260364370723044e-06,
      "loss": 0.0578,
      "step": 167
    },
    {
      "epoch": 0.897196261682243,
      "grad_norm": 0.33969438076019287,
      "learning_rate": 6.837175952121306e-06,
      "loss": 0.0495,
      "step": 168
    },
    {
      "epoch": 0.9025367156208278,
      "grad_norm": 0.30181723833084106,
      "learning_rate": 6.425787818636131e-06,
      "loss": 0.0393,
      "step": 169
    },
    {
      "epoch": 0.9078771695594126,
      "grad_norm": 0.4239320456981659,
      "learning_rate": 6.026312439675552e-06,
      "loss": 0.0637,
      "step": 170
    },
    {
      "epoch": 0.9132176234979973,
      "grad_norm": 0.9577137231826782,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 0.2596,
      "step": 171
    },
    {
      "epoch": 0.9185580774365821,
      "grad_norm": 1.844519019126892,
      "learning_rate": 5.263533508961827e-06,
      "loss": 0.4777,
      "step": 172
    },
    {
      "epoch": 0.9238985313751669,
      "grad_norm": 1.5839307308197021,
      "learning_rate": 4.900438493352055e-06,
      "loss": 0.3018,
      "step": 173
    },
    {
      "epoch": 0.9292389853137517,
      "grad_norm": 1.659485936164856,
      "learning_rate": 4.549673247541875e-06,
      "loss": 0.4751,
      "step": 174
    },
    {
      "epoch": 0.9345794392523364,
      "grad_norm": 1.903405785560608,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 0.4484,
      "step": 175
    },
    {
      "epoch": 0.9399198931909212,
      "grad_norm": 2.0289177894592285,
      "learning_rate": 3.885512251130763e-06,
      "loss": 0.4529,
      "step": 176
    },
    {
      "epoch": 0.945260347129506,
      "grad_norm": 0.7561542391777039,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 1.8461,
      "step": 177
    },
    {
      "epoch": 0.9506008010680908,
      "grad_norm": 0.6614072322845459,
      "learning_rate": 3.271776770026963e-06,
      "loss": 1.3344,
      "step": 178
    },
    {
      "epoch": 0.9559412550066756,
      "grad_norm": 0.5857288241386414,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 1.0074,
      "step": 179
    },
    {
      "epoch": 0.9612817089452603,
      "grad_norm": 0.6034030318260193,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 0.7891,
      "step": 180
    },
    {
      "epoch": 0.9666221628838452,
      "grad_norm": 0.6245676875114441,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.5532,
      "step": 181
    },
    {
      "epoch": 0.9719626168224299,
      "grad_norm": 0.586237907409668,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 0.4756,
      "step": 182
    },
    {
      "epoch": 0.9773030707610146,
      "grad_norm": 0.6396698951721191,
      "learning_rate": 1.962316193157593e-06,
      "loss": 0.3211,
      "step": 183
    },
    {
      "epoch": 0.9826435246995995,
      "grad_norm": 0.720557451248169,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 0.2587,
      "step": 184
    },
    {
      "epoch": 0.9879839786381842,
      "grad_norm": 0.21992972493171692,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 0.5217,
      "step": 185
    },
    {
      "epoch": 0.9933244325767691,
      "grad_norm": 0.3192713260650635,
      "learning_rate": 1.333670137599713e-06,
      "loss": 0.0414,
      "step": 186
    },
    {
      "epoch": 0.9986648865153538,
      "grad_norm": 0.5643014907836914,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 1.3126,
      "step": 187
    },
    {
      "epoch": 1.0040053404539386,
      "grad_norm": 0.8124271631240845,
      "learning_rate": 9.810017062595322e-07,
      "loss": 0.4726,
      "step": 188
    },
    {
      "epoch": 1.0093457943925233,
      "grad_norm": 0.11570301651954651,
      "learning_rate": 8.247462563808817e-07,
      "loss": 0.2603,
      "step": 189
    },
    {
      "epoch": 1.014686248331108,
      "grad_norm": 0.18240658938884735,
      "learning_rate": 6.819348298638839e-07,
      "loss": 0.4362,
      "step": 190
    },
    {
      "epoch": 1.020026702269693,
      "grad_norm": 0.12547944486141205,
      "learning_rate": 5.526064699265753e-07,
      "loss": 0.3125,
      "step": 191
    },
    {
      "epoch": 1.0253671562082778,
      "grad_norm": 0.15165042877197266,
      "learning_rate": 4.367965336512403e-07,
      "loss": 0.4071,
      "step": 192
    },
    {
      "epoch": 1.0307076101468624,
      "grad_norm": 0.18004637956619263,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 0.4343,
      "step": 193
    },
    {
      "epoch": 1.0360480640854473,
      "grad_norm": 0.16898716986179352,
      "learning_rate": 2.458548727494292e-07,
      "loss": 0.4011,
      "step": 194
    },
    {
      "epoch": 1.041388518024032,
      "grad_norm": 0.2510470449924469,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 0.6292,
      "step": 195
    },
    {
      "epoch": 1.0467289719626167,
      "grad_norm": 0.23637208342552185,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 0.5621,
      "step": 196
    },
    {
      "epoch": 1.0520694259012016,
      "grad_norm": 0.23842713236808777,
      "learning_rate": 6.150154258476315e-08,
      "loss": 0.5904,
      "step": 197
    },
    {
      "epoch": 1.0574098798397864,
      "grad_norm": 0.28953930735588074,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 0.6458,
      "step": 198
    },
    {
      "epoch": 1.0627503337783712,
      "grad_norm": 0.2784108817577362,
      "learning_rate": 6.834750376549792e-09,
      "loss": 0.6362,
      "step": 199
    },
    {
      "epoch": 1.0680907877169559,
      "grad_norm": 0.2613285481929779,
      "learning_rate": 0.0,
      "loss": 0.5473,
      "step": 200
    },
    {
      "epoch": 1.0680907877169559,
      "eval_loss": 0.42191359400749207,
      "eval_runtime": 5.8091,
      "eval_samples_per_second": 54.226,
      "eval_steps_per_second": 13.599,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 1
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9104560841687040.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}