{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998357694202661,
  "eval_steps": 500,
  "global_step": 3044,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 2.445040776275458,
      "learning_rate": 1.0869565217391305e-07,
      "loss": 0.9868,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.989742365306354,
      "learning_rate": 2.173913043478261e-07,
      "loss": 0.7764,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.230249742312078,
      "learning_rate": 3.2608695652173915e-07,
      "loss": 0.7381,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.3260704095970337,
      "learning_rate": 4.347826086956522e-07,
      "loss": 1.047,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.909016828387356,
      "learning_rate": 5.434782608695653e-07,
      "loss": 0.8349,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.6517371595391466,
      "learning_rate": 6.521739130434783e-07,
      "loss": 1.0602,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.541389301268049,
      "learning_rate": 7.608695652173914e-07,
      "loss": 1.0802,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.342955246937528,
      "learning_rate": 8.695652173913044e-07,
      "loss": 1.0928,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.34042701366761,
      "learning_rate": 9.782608695652175e-07,
      "loss": 0.9632,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.336293619658557,
      "learning_rate": 1.0869565217391306e-06,
      "loss": 0.9494,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.5979839103393556,
      "learning_rate": 1.1956521739130436e-06,
      "loss": 0.756,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.865989229545083,
      "learning_rate": 1.3043478260869566e-06,
      "loss": 0.7378,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.9412078951593126,
      "learning_rate": 1.4130434782608697e-06,
      "loss": 0.73,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.0323270618128233,
      "learning_rate": 1.521739130434783e-06,
      "loss": 0.9585,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.1546481869646392,
      "learning_rate": 1.6304347826086957e-06,
      "loss": 1.0388,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7732472075490988,
      "learning_rate": 1.7391304347826088e-06,
      "loss": 0.7955,
      "step": 16
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.478864539651302,
      "learning_rate": 1.8478260869565218e-06,
      "loss": 0.7787,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2955199883907298,
      "learning_rate": 1.956521739130435e-06,
      "loss": 0.7271,
      "step": 18
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7903737948020677,
      "learning_rate": 2.065217391304348e-06,
      "loss": 0.8677,
      "step": 19
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.061188265857377,
      "learning_rate": 2.173913043478261e-06,
      "loss": 0.8127,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1496063897938886,
      "learning_rate": 2.282608695652174e-06,
      "loss": 0.7448,
      "step": 21
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.786885891962979,
      "learning_rate": 2.391304347826087e-06,
      "loss": 0.8985,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8269403327802782,
      "learning_rate": 2.5e-06,
      "loss": 0.9135,
      "step": 23
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8084308155798194,
      "learning_rate": 2.6086956521739132e-06,
      "loss": 0.9688,
      "step": 24
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.147522260003084,
      "learning_rate": 2.7173913043478263e-06,
      "loss": 0.7068,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.282273278048067,
      "learning_rate": 2.8260869565217393e-06,
      "loss": 0.7511,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.5005235138052364,
      "learning_rate": 2.9347826086956528e-06,
      "loss": 0.9303,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5430934819730453,
      "learning_rate": 3.043478260869566e-06,
      "loss": 0.942,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0074432014818484,
      "learning_rate": 3.152173913043479e-06,
      "loss": 0.7492,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3995621847779565,
      "learning_rate": 3.2608695652173914e-06,
      "loss": 0.8901,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1176775693872782,
      "learning_rate": 3.3695652173913045e-06,
      "loss": 0.7326,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.002901998068151,
      "learning_rate": 3.4782608695652175e-06,
      "loss": 0.7244,
      "step": 32
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.284708071426493,
      "learning_rate": 3.5869565217391305e-06,
      "loss": 0.9172,
      "step": 33
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0940391908283764,
      "learning_rate": 3.6956521739130436e-06,
      "loss": 0.7381,
      "step": 34
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.079915535820766,
      "learning_rate": 3.804347826086957e-06,
      "loss": 0.7109,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0673016179077326,
      "learning_rate": 3.91304347826087e-06,
      "loss": 0.745,
      "step": 36
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0256269940755625,
      "learning_rate": 4.021739130434783e-06,
      "loss": 0.7622,
      "step": 37
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3708744157871775,
      "learning_rate": 4.130434782608696e-06,
      "loss": 0.8609,
      "step": 38
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1135527529416773,
      "learning_rate": 4.239130434782609e-06,
      "loss": 0.8449,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1863404480033013,
      "learning_rate": 4.347826086956522e-06,
      "loss": 0.8474,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2334142191873352,
      "learning_rate": 4.456521739130435e-06,
      "loss": 0.9032,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1606335245167092,
      "learning_rate": 4.565217391304348e-06,
      "loss": 0.8252,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1360274984650538,
      "learning_rate": 4.673913043478261e-06,
      "loss": 0.8475,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1515428898288662,
      "learning_rate": 4.782608695652174e-06,
      "loss": 0.8163,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1838177560532344,
      "learning_rate": 4.891304347826087e-06,
      "loss": 0.8076,
      "step": 45
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3093770571149743,
      "learning_rate": 5e-06,
      "loss": 0.8879,
      "step": 46
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.552800731397327,
      "learning_rate": 5.108695652173914e-06,
      "loss": 0.905,
      "step": 47
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.116607866152898,
      "learning_rate": 5.2173913043478265e-06,
      "loss": 0.8378,
      "step": 48
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0469554192434605,
      "learning_rate": 5.3260869565217395e-06,
      "loss": 0.8373,
      "step": 49
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8981788709609119,
      "learning_rate": 5.4347826086956525e-06,
      "loss": 0.6677,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9876405640178365,
      "learning_rate": 5.543478260869566e-06,
      "loss": 0.7995,
      "step": 51
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.6058927958075366,
      "learning_rate": 5.652173913043479e-06,
      "loss": 0.7858,
      "step": 52
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2293740216924507,
      "learning_rate": 5.760869565217392e-06,
      "loss": 0.8071,
      "step": 53
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.93018498063927,
      "learning_rate": 5.8695652173913055e-06,
      "loss": 0.6674,
      "step": 54
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3264041658913968,
      "learning_rate": 5.978260869565218e-06,
      "loss": 0.7882,
      "step": 55
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2676556872774662,
      "learning_rate": 6.086956521739132e-06,
      "loss": 0.8352,
      "step": 56
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.056565764606453,
      "learning_rate": 6.195652173913044e-06,
      "loss": 0.7851,
      "step": 57
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.212871382680825,
      "learning_rate": 6.304347826086958e-06,
      "loss": 0.8691,
      "step": 58
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8968925914521655,
      "learning_rate": 6.41304347826087e-06,
      "loss": 0.6328,
      "step": 59
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1474034617214153,
      "learning_rate": 6.521739130434783e-06,
      "loss": 0.6957,
      "step": 60
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9823285768464796,
      "learning_rate": 6.630434782608696e-06,
      "loss": 0.7935,
      "step": 61
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0222066419830473,
      "learning_rate": 6.739130434782609e-06,
      "loss": 0.8466,
      "step": 62
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0883219119409173,
      "learning_rate": 6.847826086956523e-06,
      "loss": 0.8082,
      "step": 63
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0631092487060734,
      "learning_rate": 6.956521739130435e-06,
      "loss": 0.7634,
      "step": 64
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1569195166033206,
      "learning_rate": 7.065217391304349e-06,
      "loss": 0.7095,
      "step": 65
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9162493488736874,
      "learning_rate": 7.173913043478261e-06,
      "loss": 0.7114,
      "step": 66
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0646780999890517,
      "learning_rate": 7.282608695652175e-06,
      "loss": 0.756,
      "step": 67
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.237310568119309,
      "learning_rate": 7.391304347826087e-06,
      "loss": 0.8807,
      "step": 68
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0233712533996078,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.8145,
      "step": 69
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9978839609932268,
      "learning_rate": 7.608695652173914e-06,
      "loss": 0.7148,
      "step": 70
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8517573218112434,
      "learning_rate": 7.717391304347827e-06,
      "loss": 0.679,
      "step": 71
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9196801226887821,
      "learning_rate": 7.82608695652174e-06,
      "loss": 0.6374,
      "step": 72
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1026527535264155,
      "learning_rate": 7.934782608695653e-06,
      "loss": 0.7582,
      "step": 73
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9020604814079142,
      "learning_rate": 8.043478260869566e-06,
      "loss": 0.6928,
      "step": 74
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8409968846950108,
      "learning_rate": 8.15217391304348e-06,
      "loss": 0.7569,
      "step": 75
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.948880552829938,
      "learning_rate": 8.260869565217392e-06,
      "loss": 0.6841,
      "step": 76
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0994791344477897,
      "learning_rate": 8.369565217391305e-06,
      "loss": 0.8393,
      "step": 77
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8978592353969381,
      "learning_rate": 8.478260869565218e-06,
      "loss": 0.6825,
      "step": 78
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2121820951110518,
      "learning_rate": 8.586956521739131e-06,
      "loss": 0.8117,
      "step": 79
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8678787504231154,
      "learning_rate": 8.695652173913044e-06,
      "loss": 0.6404,
      "step": 80
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7918489606378726,
      "learning_rate": 8.804347826086957e-06,
      "loss": 0.6516,
      "step": 81
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.248035881398254,
      "learning_rate": 8.91304347826087e-06,
      "loss": 0.7347,
      "step": 82
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0649651386509473,
      "learning_rate": 9.021739130434784e-06,
      "loss": 0.7823,
      "step": 83
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9276015240176944,
      "learning_rate": 9.130434782608697e-06,
      "loss": 0.7586,
      "step": 84
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.78974608722068,
      "learning_rate": 9.23913043478261e-06,
      "loss": 0.6673,
      "step": 85
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8510198999511553,
      "learning_rate": 9.347826086956523e-06,
      "loss": 0.6871,
      "step": 86
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.108223654938501,
      "learning_rate": 9.456521739130436e-06,
      "loss": 0.7879,
      "step": 87
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4875298799649201,
      "learning_rate": 9.565217391304349e-06,
      "loss": 0.7627,
      "step": 88
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0119932364261555,
      "learning_rate": 9.673913043478262e-06,
      "loss": 0.7518,
      "step": 89
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9243956354472447,
      "learning_rate": 9.782608695652175e-06,
      "loss": 0.6827,
      "step": 90
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0713248716143475,
      "learning_rate": 9.891304347826088e-06,
      "loss": 0.8149,
      "step": 91
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8999046418783153,
      "learning_rate": 1e-05,
      "loss": 0.679,
      "step": 92
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8337713519206983,
      "learning_rate": 9.999997168562324e-06,
      "loss": 0.699,
      "step": 93
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.615704217463385,
      "learning_rate": 9.9999886742525e-06,
      "loss": 0.8013,
      "step": 94
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0206516528125915,
      "learning_rate": 9.99997451708015e-06,
      "loss": 0.8078,
      "step": 95
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0883762286129413,
      "learning_rate": 9.999954697061305e-06,
      "loss": 0.7081,
      "step": 96
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9822385361087392,
      "learning_rate": 9.999929214218419e-06,
      "loss": 0.7183,
      "step": 97
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.372279387591036,
      "learning_rate": 9.999898068580346e-06,
      "loss": 0.7639,
      "step": 98
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0095799362291977,
      "learning_rate": 9.999861260182366e-06,
      "loss": 0.7295,
      "step": 99
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9250304950768959,
      "learning_rate": 9.999818789066164e-06,
      "loss": 0.7445,
      "step": 100
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9747995017174348,
      "learning_rate": 9.999770655279843e-06,
      "loss": 0.6573,
      "step": 101
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.876049704191012,
      "learning_rate": 9.99971685887792e-06,
      "loss": 0.6231,
      "step": 102
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0340351803845838,
      "learning_rate": 9.999657399921321e-06,
      "loss": 0.7276,
      "step": 103
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.8917023620924488,
      "learning_rate": 9.999592278477389e-06,
      "loss": 0.7078,
      "step": 104
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9971834786342074,
      "learning_rate": 9.999521494619876e-06,
      "loss": 0.7392,
      "step": 105
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9366509153135962,
      "learning_rate": 9.999445048428952e-06,
      "loss": 0.7322,
      "step": 106
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8124871403705912,
      "learning_rate": 9.999362939991202e-06,
      "loss": 0.6899,
      "step": 107
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0753848885349877,
      "learning_rate": 9.999275169399614e-06,
      "loss": 0.7679,
      "step": 108
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.074917554625309,
      "learning_rate": 9.999181736753598e-06,
      "loss": 0.6491,
      "step": 109
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9719330911507945,
      "learning_rate": 9.999082642158972e-06,
      "loss": 0.7282,
      "step": 110
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8127203278384769,
      "learning_rate": 9.99897788572797e-06,
      "loss": 0.689,
      "step": 111
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9286831025183129,
      "learning_rate": 9.998867467579234e-06,
      "loss": 0.7399,
      "step": 112
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0292424938893436,
      "learning_rate": 9.998751387837822e-06,
      "loss": 0.7556,
      "step": 113
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8995707386618567,
      "learning_rate": 9.998629646635203e-06,
      "loss": 0.756,
      "step": 114
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.916086588569709,
      "learning_rate": 9.99850224410926e-06,
      "loss": 0.6683,
      "step": 115
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0822951132788285,
      "learning_rate": 9.998369180404283e-06,
      "loss": 0.8869,
      "step": 116
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2467257296449181,
      "learning_rate": 9.998230455670978e-06,
      "loss": 0.8023,
      "step": 117
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0980174561112248,
      "learning_rate": 9.998086070066459e-06,
      "loss": 0.8669,
      "step": 118
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8412836326009508,
      "learning_rate": 9.997936023754258e-06,
      "loss": 0.6672,
      "step": 119
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8552245062618424,
      "learning_rate": 9.99778031690431e-06,
      "loss": 0.719,
      "step": 120
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.003357676341457,
      "learning_rate": 9.997618949692966e-06,
      "loss": 0.7696,
      "step": 121
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.269191226871722,
      "learning_rate": 9.997451922302987e-06,
      "loss": 0.7268,
      "step": 122
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0396073674775712,
      "learning_rate": 9.997279234923542e-06,
      "loss": 0.7759,
      "step": 123
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9643718857177153,
      "learning_rate": 9.997100887750215e-06,
      "loss": 0.8106,
      "step": 124
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9172147741215632,
      "learning_rate": 9.996916880984995e-06,
      "loss": 0.7527,
      "step": 125
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9564948656352784,
      "learning_rate": 9.996727214836286e-06,
      "loss": 0.8052,
      "step": 126
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9858258664271873,
      "learning_rate": 9.996531889518898e-06,
      "loss": 0.7796,
      "step": 127
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.013036252358679,
      "learning_rate": 9.99633090525405e-06,
      "loss": 0.7401,
      "step": 128
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.010503959363189,
      "learning_rate": 9.996124262269376e-06,
      "loss": 0.727,
      "step": 129
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8063947289465596,
      "learning_rate": 9.99591196079891e-06,
      "loss": 0.6684,
      "step": 130
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9527624267967559,
      "learning_rate": 9.995694001083103e-06,
      "loss": 0.7201,
      "step": 131
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9666168299508682,
      "learning_rate": 9.995470383368808e-06,
      "loss": 0.7144,
      "step": 132
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1228492150074727,
      "learning_rate": 9.99524110790929e-06,
      "loss": 0.8424,
      "step": 133
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8501824009797683,
      "learning_rate": 9.99500617496422e-06,
      "loss": 0.6646,
      "step": 134
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0523613388924231,
      "learning_rate": 9.994765584799679e-06,
      "loss": 0.7378,
      "step": 135
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9559523578846474,
      "learning_rate": 9.994519337688152e-06,
      "loss": 0.7846,
      "step": 136
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0533542648255576,
      "learning_rate": 9.994267433908533e-06,
      "loss": 0.7787,
      "step": 137
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0908081301560486,
      "learning_rate": 9.994009873746121e-06,
      "loss": 0.7645,
      "step": 138
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.034256431421784,
      "learning_rate": 9.993746657492622e-06,
      "loss": 0.6901,
      "step": 139
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8497508371432984,
      "learning_rate": 9.993477785446151e-06,
      "loss": 0.7834,
      "step": 140
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7986838490351048,
      "learning_rate": 9.993203257911222e-06,
      "loss": 0.6732,
      "step": 141
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1799900612777527,
      "learning_rate": 9.99292307519876e-06,
      "loss": 0.7969,
      "step": 142
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0777416237253792,
      "learning_rate": 9.992637237626092e-06,
      "loss": 0.7334,
      "step": 143
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0086076818088814,
      "learning_rate": 9.992345745516954e-06,
      "loss": 0.7568,
      "step": 144
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9286926097766862,
      "learning_rate": 9.992048599201478e-06,
      "loss": 0.6822,
      "step": 145
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0319959624929085,
      "learning_rate": 9.991745799016206e-06,
      "loss": 0.7705,
      "step": 146
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.928748336777597,
      "learning_rate": 9.991437345304084e-06,
      "loss": 0.6589,
      "step": 147
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.997393698777604,
      "learning_rate": 9.991123238414455e-06,
      "loss": 0.6337,
      "step": 148
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1156895567029936,
      "learning_rate": 9.990803478703073e-06,
      "loss": 0.805,
      "step": 149
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0727138898966078,
      "learning_rate": 9.990478066532088e-06,
      "loss": 0.7873,
      "step": 150
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9364940212883477,
      "learning_rate": 9.990147002270051e-06,
      "loss": 0.7212,
      "step": 151
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.233918641304828,
      "learning_rate": 9.989810286291923e-06,
      "loss": 0.8041,
      "step": 152
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.941304622930228,
      "learning_rate": 9.989467918979055e-06,
      "loss": 0.7013,
      "step": 153
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.201878066698044,
      "learning_rate": 9.989119900719206e-06,
      "loss": 0.8116,
      "step": 154
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2203512184658423,
      "learning_rate": 9.988766231906532e-06,
      "loss": 0.7867,
      "step": 155
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1257363249786823,
      "learning_rate": 9.988406912941591e-06,
      "loss": 0.8118,
      "step": 156
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8702438027115976,
      "learning_rate": 9.988041944231335e-06,
      "loss": 0.7204,
      "step": 157
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0656008548060092,
      "learning_rate": 9.987671326189123e-06,
      "loss": 0.7937,
      "step": 158
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7514259799343008,
      "learning_rate": 9.987295059234704e-06,
      "loss": 0.6537,
      "step": 159
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9160089199903402,
      "learning_rate": 9.986913143794232e-06,
      "loss": 0.668,
      "step": 160
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.094702658175478,
      "learning_rate": 9.986525580300253e-06,
      "loss": 0.7938,
      "step": 161
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9893619430551294,
      "learning_rate": 9.986132369191712e-06,
      "loss": 0.819,
      "step": 162
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4047828714593085,
      "learning_rate": 9.98573351091395e-06,
      "loss": 0.8082,
      "step": 163
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8565975403525069,
      "learning_rate": 9.985329005918702e-06,
      "loss": 0.6769,
      "step": 164
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1197012910085002,
      "learning_rate": 9.984918854664105e-06,
      "loss": 0.7666,
      "step": 165
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7616069212051001,
      "learning_rate": 9.984503057614684e-06,
      "loss": 0.6438,
      "step": 166
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9694873673911835,
      "learning_rate": 9.984081615241356e-06,
      "loss": 0.6798,
      "step": 167
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9273366277880725,
      "learning_rate": 9.983654528021442e-06,
      "loss": 0.7348,
      "step": 168
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.838770880684148,
      "learning_rate": 9.98322179643865e-06,
      "loss": 0.7249,
      "step": 169
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9399027498095155,
      "learning_rate": 9.982783420983075e-06,
      "loss": 0.7623,
      "step": 170
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.926567883334631,
      "learning_rate": 9.982339402151217e-06,
      "loss": 0.7272,
      "step": 171
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8673540384999711,
      "learning_rate": 9.981889740445958e-06,
      "loss": 0.6844,
      "step": 172
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1558595686540039,
      "learning_rate": 9.981434436376572e-06,
      "loss": 0.7082,
      "step": 173
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8573211167133595,
      "learning_rate": 9.980973490458728e-06,
      "loss": 0.7159,
      "step": 174
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9524772760200544,
      "learning_rate": 9.980506903214481e-06,
      "loss": 0.6878,
      "step": 175
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0350115510779712,
      "learning_rate": 9.980034675172274e-06,
      "loss": 0.7973,
      "step": 176
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0291551653050797,
      "learning_rate": 9.979556806866943e-06,
      "loss": 0.786,
      "step": 177
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.114050707035334,
      "learning_rate": 9.97907329883971e-06,
      "loss": 0.7359,
      "step": 178
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1203168299662791,
      "learning_rate": 9.978584151638182e-06,
      "loss": 0.8357,
      "step": 179
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9148853189427812,
      "learning_rate": 9.978089365816357e-06,
      "loss": 0.6933,
      "step": 180
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9761086572036398,
      "learning_rate": 9.977588941934615e-06,
      "loss": 0.7948,
      "step": 181
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9483722596354219,
      "learning_rate": 9.977082880559725e-06,
      "loss": 0.7446,
      "step": 182
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0308019696267663,
      "learning_rate": 9.97657118226484e-06,
      "loss": 0.734,
      "step": 183
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0132065599246194,
      "learning_rate": 9.976053847629496e-06,
      "loss": 0.7791,
      "step": 184
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0769361960419865,
      "learning_rate": 9.975530877239613e-06,
      "loss": 0.6188,
      "step": 185
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0018467267808946,
      "learning_rate": 9.975002271687496e-06,
      "loss": 0.7819,
      "step": 186
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1912819765565776,
      "learning_rate": 9.974468031571825e-06,
      "loss": 0.7695,
      "step": 187
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7984497815870524,
      "learning_rate": 9.973928157497675e-06,
      "loss": 0.6255,
      "step": 188
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8306878610799435,
      "learning_rate": 9.973382650076488e-06,
      "loss": 0.7923,
      "step": 189
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3564551196225032,
      "learning_rate": 9.972831509926094e-06,
      "loss": 0.7658,
      "step": 190
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9650520155809644,
      "learning_rate": 9.972274737670702e-06,
      "loss": 0.7321,
      "step": 191
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8372459363324823,
      "learning_rate": 9.971712333940896e-06,
      "loss": 0.741,
      "step": 192
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9152136577390622,
      "learning_rate": 9.971144299373643e-06,
      "loss": 0.7654,
      "step": 193
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7444261622042563,
      "learning_rate": 9.970570634612282e-06,
      "loss": 0.7103,
      "step": 194
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9283175454535282,
      "learning_rate": 9.969991340306533e-06,
      "loss": 0.7578,
      "step": 195
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8186137297552611,
      "learning_rate": 9.969406417112489e-06,
      "loss": 0.6552,
      "step": 196
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8657824612856261,
      "learning_rate": 9.968815865692622e-06,
      "loss": 0.7132,
      "step": 197
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8669347002664606,
      "learning_rate": 9.968219686715773e-06,
      "loss": 0.7171,
      "step": 198
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4687218157110138,
      "learning_rate": 9.96761788085716e-06,
      "loss": 0.7447,
      "step": 199
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9195226326047943,
      "learning_rate": 9.967010448798376e-06,
      "loss": 0.6857,
      "step": 200
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8798718689949948,
      "learning_rate": 9.96639739122738e-06,
      "loss": 0.7035,
      "step": 201
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.83592356885766,
      "learning_rate": 9.965778708838509e-06,
      "loss": 0.7635,
      "step": 202
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8631101054666683,
      "learning_rate": 9.965154402332464e-06,
      "loss": 0.6251,
      "step": 203
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0464494287944497,
      "learning_rate": 9.964524472416319e-06,
      "loss": 0.7737,
      "step": 204
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8717003027903266,
      "learning_rate": 9.96388891980352e-06,
      "loss": 0.7039,
      "step": 205
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9172136276758414,
      "learning_rate": 9.963247745213876e-06,
      "loss": 0.6997,
      "step": 206
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9705647295576846,
      "learning_rate": 9.962600949373567e-06,
      "loss": 0.7436,
      "step": 207
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0216072068218205,
      "learning_rate": 9.961948533015135e-06,
      "loss": 0.8015,
      "step": 208
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8271141956012964,
      "learning_rate": 9.961290496877492e-06,
      "loss": 0.6316,
      "step": 209
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1268317071701959,
      "learning_rate": 9.960626841705913e-06,
      "loss": 0.7779,
      "step": 210
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0359278844546231,
      "learning_rate": 9.95995756825204e-06,
      "loss": 0.7948,
      "step": 211
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7905477751407617,
      "learning_rate": 9.959282677273869e-06,
      "loss": 0.6336,
      "step": 212
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0246422992031743,
      "learning_rate": 9.95860216953577e-06,
      "loss": 0.799,
      "step": 213
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0109348828450897,
      "learning_rate": 9.95791604580847e-06,
      "loss": 0.702,
      "step": 214
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0681605755370165,
      "learning_rate": 9.957224306869053e-06,
      "loss": 0.8171,
      "step": 215
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6950418677716819,
      "learning_rate": 9.956526953500965e-06,
      "loss": 0.611,
      "step": 216
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1421395123323654,
      "learning_rate": 9.955823986494012e-06,
      "loss": 0.7434,
      "step": 217
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7907341463576631,
      "learning_rate": 9.955115406644357e-06,
      "loss": 0.6457,
      "step": 218
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9458587258800284,
      "learning_rate": 9.95440121475452e-06,
      "loss": 0.6427,
      "step": 219
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8966773628518434,
      "learning_rate": 9.953681411633376e-06,
      "loss": 0.7071,
      "step": 220
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9557736851664623,
      "learning_rate": 9.952955998096155e-06,
      "loss": 0.6673,
      "step": 221
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9744145445873985,
      "learning_rate": 9.952224974964446e-06,
      "loss": 0.7879,
      "step": 222
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0148620701752151,
      "learning_rate": 9.951488343066184e-06,
      "loss": 0.8211,
      "step": 223
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7382283347789032,
      "learning_rate": 9.950746103235663e-06,
      "loss": 0.6142,
      "step": 224
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0303989274180805,
      "learning_rate": 9.949998256313523e-06,
      "loss": 0.7677,
      "step": 225
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9988131250275015,
      "learning_rate": 9.949244803146757e-06,
      "loss": 0.7589,
      "step": 226
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9342730081100333,
      "learning_rate": 9.948485744588709e-06,
      "loss": 0.6461,
      "step": 227
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.833154776080246,
      "learning_rate": 9.947721081499068e-06,
      "loss": 0.6115,
      "step": 228
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7780468055776345,
      "learning_rate": 9.946950814743871e-06,
      "loss": 0.6138,
      "step": 229
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.173154176912463,
      "learning_rate": 9.946174945195508e-06,
      "loss": 0.7275,
      "step": 230
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9125352009228612,
      "learning_rate": 9.945393473732706e-06,
      "loss": 0.6738,
      "step": 231
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0225704783170706,
      "learning_rate": 9.944606401240538e-06,
      "loss": 0.6576,
      "step": 232
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9201092138697231,
      "learning_rate": 9.943813728610428e-06,
      "loss": 0.7455,
      "step": 233
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9154926370601923,
      "learning_rate": 9.943015456740132e-06,
      "loss": 0.7573,
      "step": 234
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8661986936238251,
      "learning_rate": 9.942211586533756e-06,
      "loss": 0.6503,
      "step": 235
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1237337065410111,
      "learning_rate": 9.941402118901743e-06,
      "loss": 0.6914,
      "step": 236
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9902124776174177,
      "learning_rate": 9.940587054760875e-06,
      "loss": 0.767,
      "step": 237
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9790180505430341,
      "learning_rate": 9.939766395034275e-06,
      "loss": 0.7186,
      "step": 238
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0618778488468135,
      "learning_rate": 9.938940140651398e-06,
      "loss": 0.7719,
      "step": 239
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0412645406273737,
      "learning_rate": 9.938108292548044e-06,
      "loss": 0.8559,
      "step": 240
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0047406222943678,
      "learning_rate": 9.937270851666341e-06,
      "loss": 0.7105,
      "step": 241
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.245207803344047,
      "learning_rate": 9.936427818954753e-06,
      "loss": 0.746,
      "step": 242
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.300461852336359,
      "learning_rate": 9.935579195368078e-06,
      "loss": 0.7658,
      "step": 243
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7592505948998411,
      "learning_rate": 9.934724981867447e-06,
      "loss": 0.6375,
      "step": 244
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8854762296041577,
      "learning_rate": 9.93386517942032e-06,
      "loss": 0.7532,
      "step": 245
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.223848988776398,
      "learning_rate": 9.93299978900049e-06,
      "loss": 0.7316,
      "step": 246
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1897183298772016,
      "learning_rate": 9.932128811588074e-06,
      "loss": 0.7443,
      "step": 247
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.017476822697644,
      "learning_rate": 9.931252248169518e-06,
      "loss": 0.7635,
      "step": 248
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2504115846358679,
      "learning_rate": 9.9303700997376e-06,
      "loss": 0.7972,
      "step": 249
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8524661939384456,
      "learning_rate": 9.929482367291417e-06,
      "loss": 0.7592,
      "step": 250
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.003847512283789,
      "learning_rate": 9.928589051836392e-06,
      "loss": 0.7468,
      "step": 251
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2765540794839563,
      "learning_rate": 9.927690154384273e-06,
      "loss": 0.76,
      "step": 252
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.835829000294391,
      "learning_rate": 9.92678567595313e-06,
      "loss": 0.6995,
      "step": 253
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0972715439710843,
      "learning_rate": 9.92587561756735e-06,
      "loss": 0.7641,
      "step": 254
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9114357864755536,
      "learning_rate": 9.924959980257645e-06,
      "loss": 0.7024,
      "step": 255
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9736819371233564,
      "learning_rate": 9.924038765061042e-06,
      "loss": 0.6826,
      "step": 256
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9270352436661844,
      "learning_rate": 9.923111973020885e-06,
      "loss": 0.7527,
      "step": 257
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8100006510414014,
      "learning_rate": 9.922179605186837e-06,
      "loss": 0.6897,
      "step": 258
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9315170406166742,
      "learning_rate": 9.921241662614874e-06,
      "loss": 0.6533,
      "step": 259
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1660055080233465,
      "learning_rate": 9.920298146367287e-06,
      "loss": 0.7547,
      "step": 260
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9137684252664252,
      "learning_rate": 9.919349057512679e-06,
      "loss": 0.7137,
      "step": 261
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9249281689939083,
      "learning_rate": 9.918394397125963e-06,
      "loss": 0.7643,
      "step": 262
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0761637209376995,
      "learning_rate": 9.917434166288364e-06,
      "loss": 0.7865,
      "step": 263
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9776638458360875,
      "learning_rate": 9.916468366087418e-06,
      "loss": 0.7825,
      "step": 264
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0034481792073153,
      "learning_rate": 9.915496997616963e-06,
      "loss": 0.7711,
      "step": 265
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9103503084803876,
      "learning_rate": 9.91452006197715e-06,
      "loss": 0.695,
      "step": 266
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8443732482966375,
      "learning_rate": 9.913537560274426e-06,
      "loss": 0.6453,
      "step": 267
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9225782126357601,
      "learning_rate": 9.912549493621555e-06,
      "loss": 0.7735,
      "step": 268
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8974937789407551,
      "learning_rate": 9.911555863137593e-06,
      "loss": 0.7044,
      "step": 269
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7898712682675104,
      "learning_rate": 9.910556669947902e-06,
      "loss": 0.6785,
      "step": 270
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3332098192069561,
      "learning_rate": 9.909551915184144e-06,
      "loss": 0.7228,
      "step": 271
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0946635589382507,
      "learning_rate": 9.908541599984276e-06,
      "loss": 0.7682,
      "step": 272
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8438257526338855,
      "learning_rate": 9.907525725492559e-06,
      "loss": 0.7459,
      "step": 273
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8926079851855051,
      "learning_rate": 9.906504292859544e-06,
      "loss": 0.6145,
      "step": 274
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.912878308167378,
      "learning_rate": 9.905477303242085e-06,
      "loss": 0.6596,
      "step": 275
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9378317928496892,
      "learning_rate": 9.904444757803322e-06,
      "loss": 0.6991,
      "step": 276
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0775997280350367,
      "learning_rate": 9.903406657712688e-06,
      "loss": 0.7313,
      "step": 277
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6868936156812814,
      "learning_rate": 9.902363004145914e-06,
      "loss": 0.6504,
      "step": 278
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9665466249269894,
      "learning_rate": 9.901313798285012e-06,
      "loss": 0.7122,
      "step": 279
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9680582761111121,
      "learning_rate": 9.90025904131829e-06,
      "loss": 0.6342,
      "step": 280
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8405612296065017,
      "learning_rate": 9.899198734440335e-06,
      "loss": 0.7062,
      "step": 281
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.947699911577507,
      "learning_rate": 9.898132878852026e-06,
      "loss": 0.727,
      "step": 282
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0252314526506694,
      "learning_rate": 9.897061475760528e-06,
      "loss": 0.6481,
      "step": 283
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0691051864200367,
      "learning_rate": 9.895984526379282e-06,
      "loss": 0.7448,
      "step": 284
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7851837964868426,
      "learning_rate": 9.894902031928014e-06,
      "loss": 0.6099,
      "step": 285
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.252193738124493,
      "learning_rate": 9.89381399363273e-06,
      "loss": 0.7925,
      "step": 286
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8963596763834751,
      "learning_rate": 9.892720412725717e-06,
      "loss": 0.6567,
      "step": 287
    },
    {
      "epoch": 0.09,
      "grad_norm": 8.285676989392282,
      "learning_rate": 9.891621290445534e-06,
      "loss": 0.7483,
      "step": 288
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8347098757308624,
      "learning_rate": 9.890516628037024e-06,
      "loss": 0.6592,
      "step": 289
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9195015892881888,
      "learning_rate": 9.889406426751296e-06,
      "loss": 0.6844,
      "step": 290
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.156808058661733,
      "learning_rate": 9.88829068784574e-06,
      "loss": 0.754,
      "step": 291
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9257890368952317,
      "learning_rate": 9.887169412584012e-06,
      "loss": 0.7358,
      "step": 292
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9655795937788614,
      "learning_rate": 9.88604260223604e-06,
      "loss": 0.7888,
      "step": 293
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.849546300382042,
      "learning_rate": 9.884910258078022e-06,
      "loss": 0.6867,
      "step": 294
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0297069197884126,
      "learning_rate": 9.883772381392423e-06,
      "loss": 0.7905,
      "step": 295
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8424902304244675,
      "learning_rate": 9.882628973467972e-06,
      "loss": 0.6561,
      "step": 296
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8179815438926153,
      "learning_rate": 9.881480035599667e-06,
      "loss": 0.638,
      "step": 297
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2173870453625892,
      "learning_rate": 9.880325569088765e-06,
      "loss": 0.7988,
      "step": 298
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0558147156314206,
      "learning_rate": 9.879165575242788e-06,
      "loss": 0.7966,
      "step": 299
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0343340409822646,
      "learning_rate": 9.878000055375512e-06,
      "loss": 0.7369,
      "step": 300
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8899882693709432,
      "learning_rate": 9.87682901080698e-06,
      "loss": 0.6706,
      "step": 301
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9608729111654882,
      "learning_rate": 9.875652442863483e-06,
      "loss": 0.6852,
      "step": 302
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8989866295136291,
      "learning_rate": 9.874470352877576e-06,
      "loss": 0.6515,
      "step": 303
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7993625171790771,
      "learning_rate": 9.873282742188066e-06,
      "loss": 0.6132,
      "step": 304
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9332375359947341,
      "learning_rate": 9.87208961214001e-06,
      "loss": 0.766,
      "step": 305
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.015168500909836,
      "learning_rate": 9.870890964084713e-06,
      "loss": 0.7013,
      "step": 306
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7616186392673551,
      "learning_rate": 9.86968679937974e-06,
      "loss": 0.6464,
      "step": 307
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.241485170943926,
      "learning_rate": 9.868477119388897e-06,
      "loss": 0.7486,
      "step": 308
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0783864678224706,
      "learning_rate": 9.867261925482233e-06,
      "loss": 0.7997,
      "step": 309
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7503303447528851,
      "learning_rate": 9.866041219036051e-06,
      "loss": 0.5943,
      "step": 310
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9577117048828818,
      "learning_rate": 9.86481500143289e-06,
      "loss": 0.7602,
      "step": 311
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2183916931606569,
      "learning_rate": 9.863583274061535e-06,
      "loss": 0.7961,
      "step": 312
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0096960262261139,
      "learning_rate": 9.862346038317009e-06,
      "loss": 0.7863,
      "step": 313
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.020516347143766,
      "learning_rate": 9.861103295600574e-06,
      "loss": 0.7347,
      "step": 314
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9178381450680819,
      "learning_rate": 9.859855047319732e-06,
      "loss": 0.7253,
      "step": 315
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9157620512658748,
      "learning_rate": 9.858601294888212e-06,
      "loss": 0.772,
      "step": 316
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8460195916021005,
      "learning_rate": 9.85734203972599e-06,
      "loss": 0.6532,
      "step": 317
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0012286795426062,
      "learning_rate": 9.856077283259262e-06,
      "loss": 0.7979,
      "step": 318
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8018098387197734,
      "learning_rate": 9.85480702692046e-06,
      "loss": 0.7266,
      "step": 319
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.9881378259344988,
      "learning_rate": 9.853531272148248e-06,
      "loss": 0.7616,
      "step": 320
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9799427264913372,
      "learning_rate": 9.852250020387513e-06,
      "loss": 0.7018,
      "step": 321
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7424245085687332,
      "learning_rate": 9.850963273089365e-06,
      "loss": 0.6635,
      "step": 322
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9354681290829517,
      "learning_rate": 9.849671031711146e-06,
      "loss": 0.7412,
      "step": 323
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8757633730483352,
      "learning_rate": 9.848373297716414e-06,
      "loss": 0.709,
      "step": 324
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9326348846397732,
      "learning_rate": 9.847070072574952e-06,
      "loss": 0.725,
      "step": 325
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1043957774496747,
      "learning_rate": 9.84576135776276e-06,
      "loss": 0.7307,
      "step": 326
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.903978003507937,
      "learning_rate": 9.844447154762054e-06,
      "loss": 0.6831,
      "step": 327
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8245536240024122,
      "learning_rate": 9.84312746506127e-06,
      "loss": 0.6788,
      "step": 328
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8449434279435769,
      "learning_rate": 9.841802290155054e-06,
      "loss": 0.6898,
      "step": 329
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0051684230038282,
      "learning_rate": 9.840471631544266e-06,
      "loss": 0.7148,
      "step": 330
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8963941956275608,
      "learning_rate": 9.839135490735978e-06,
      "loss": 0.7058,
      "step": 331
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6899008906613271,
      "learning_rate": 9.837793869243468e-06,
      "loss": 0.6648,
      "step": 332
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1244677441821003,
      "learning_rate": 9.836446768586225e-06,
      "loss": 0.8022,
      "step": 333
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8868911902077274,
      "learning_rate": 9.835094190289941e-06,
      "loss": 0.6501,
      "step": 334
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8149332564771296,
      "learning_rate": 9.833736135886513e-06,
      "loss": 0.6334,
      "step": 335
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8747815009720158,
      "learning_rate": 9.832372606914038e-06,
      "loss": 0.6699,
      "step": 336
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8138989438474075,
      "learning_rate": 9.831003604916815e-06,
      "loss": 0.64,
      "step": 337
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8175119779024647,
      "learning_rate": 9.829629131445342e-06,
      "loss": 0.7155,
      "step": 338
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9239995060332353,
      "learning_rate": 9.828249188056314e-06,
      "loss": 0.7407,
      "step": 339
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9710314003583486,
      "learning_rate": 9.826863776312621e-06,
      "loss": 0.735,
      "step": 340
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7109128893020553,
      "learning_rate": 9.825472897783344e-06,
      "loss": 0.6486,
      "step": 341
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8979291337066151,
      "learning_rate": 9.824076554043759e-06,
      "loss": 0.6747,
      "step": 342
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9957541520085738,
      "learning_rate": 9.822674746675329e-06,
      "loss": 0.744,
      "step": 343
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9475277585443167,
      "learning_rate": 9.821267477265705e-06,
      "loss": 0.7796,
      "step": 344
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0860854136981528,
      "learning_rate": 9.819854747408728e-06,
      "loss": 0.7952,
      "step": 345
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.059881528932078,
      "learning_rate": 9.81843655870442e-06,
      "loss": 0.8198,
      "step": 346
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0100545763934237,
      "learning_rate": 9.817012912758986e-06,
      "loss": 0.76,
      "step": 347
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9767981958725184,
      "learning_rate": 9.815583811184809e-06,
      "loss": 0.7907,
      "step": 348
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9903275881276746,
      "learning_rate": 9.814149255600458e-06,
      "loss": 0.7203,
      "step": 349
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9647173909415846,
      "learning_rate": 9.812709247630671e-06,
      "loss": 0.6317,
      "step": 350
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.207750594721588,
      "learning_rate": 9.81126378890637e-06,
      "loss": 0.7469,
      "step": 351
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1607421192952165,
      "learning_rate": 9.80981288106464e-06,
      "loss": 0.7781,
      "step": 352
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.011444276862801,
      "learning_rate": 9.808356525748748e-06,
      "loss": 0.7269,
      "step": 353
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.956827765492544,
      "learning_rate": 9.806894724608122e-06,
      "loss": 0.7185,
      "step": 354
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9878183865008413,
      "learning_rate": 9.805427479298365e-06,
      "loss": 0.6705,
      "step": 355
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0723250662908421,
      "learning_rate": 9.803954791481239e-06,
      "loss": 0.781,
      "step": 356
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0106015958631274,
      "learning_rate": 9.802476662824676e-06,
      "loss": 0.71,
      "step": 357
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9934709365672842,
      "learning_rate": 9.800993095002767e-06,
      "loss": 0.7509,
      "step": 358
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7531071947570862,
      "learning_rate": 9.799504089695762e-06,
      "loss": 0.6826,
      "step": 359
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.214731461250954,
      "learning_rate": 9.798009648590073e-06,
      "loss": 0.8142,
      "step": 360
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0549154775354572,
      "learning_rate": 9.796509773378267e-06,
      "loss": 0.7267,
      "step": 361
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7964361553532705,
      "learning_rate": 9.795004465759067e-06,
      "loss": 0.6445,
      "step": 362
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9602706345390669,
      "learning_rate": 9.793493727437343e-06,
      "loss": 0.7823,
      "step": 363
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9382503466065094,
      "learning_rate": 9.79197756012412e-06,
      "loss": 0.7891,
      "step": 364
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8035805282617092,
      "learning_rate": 9.790455965536574e-06,
      "loss": 0.6533,
      "step": 365
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0219568412764435,
      "learning_rate": 9.788928945398025e-06,
      "loss": 0.7857,
      "step": 366
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.008792371907559,
      "learning_rate": 9.787396501437934e-06,
      "loss": 0.8286,
      "step": 367
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9450291142329816,
      "learning_rate": 9.785858635391913e-06,
      "loss": 0.6977,
      "step": 368
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9069862284453795,
      "learning_rate": 9.78431534900171e-06,
      "loss": 0.7258,
      "step": 369
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8199440320782768,
      "learning_rate": 9.782766644015212e-06,
      "loss": 0.6605,
      "step": 370
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9645307599431963,
      "learning_rate": 9.781212522186442e-06,
      "loss": 0.7537,
      "step": 371
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8947192767991695,
      "learning_rate": 9.779652985275562e-06,
      "loss": 0.6929,
      "step": 372
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.072716659379777,
      "learning_rate": 9.778088035048866e-06,
      "loss": 0.759,
      "step": 373
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1583560266610575,
      "learning_rate": 9.776517673278772e-06,
      "loss": 0.7306,
      "step": 374
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.898602307947361,
      "learning_rate": 9.774941901743838e-06,
      "loss": 0.66,
      "step": 375
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8561719832772476,
      "learning_rate": 9.773360722228742e-06,
      "loss": 0.6577,
      "step": 376
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8916724354942055,
      "learning_rate": 9.771774136524287e-06,
      "loss": 0.6548,
      "step": 377
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.277604144732013,
      "learning_rate": 9.770182146427403e-06,
      "loss": 0.7865,
      "step": 378
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7455775214941086,
      "learning_rate": 9.768584753741134e-06,
      "loss": 0.6175,
      "step": 379
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.058883534141362,
      "learning_rate": 9.766981960274653e-06,
      "loss": 0.6431,
      "step": 380
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8347202903543546,
      "learning_rate": 9.76537376784324e-06,
      "loss": 0.7023,
      "step": 381
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8287120364647761,
      "learning_rate": 9.763760178268296e-06,
      "loss": 0.6323,
      "step": 382
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8704195398531038,
      "learning_rate": 9.762141193377329e-06,
      "loss": 0.6842,
      "step": 383
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9890859942516557,
      "learning_rate": 9.760516815003965e-06,
      "loss": 0.7856,
      "step": 384
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9081578684931405,
      "learning_rate": 9.758887044987929e-06,
      "loss": 0.7348,
      "step": 385
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0406430701065312,
      "learning_rate": 9.757251885175063e-06,
      "loss": 0.7288,
      "step": 386
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7341991757257379,
      "learning_rate": 9.755611337417306e-06,
      "loss": 0.644,
      "step": 387
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6402206482864832,
      "learning_rate": 9.753965403572703e-06,
      "loss": 0.7224,
      "step": 388
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9540969198135537,
      "learning_rate": 9.752314085505396e-06,
      "loss": 0.7703,
      "step": 389
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.000057502451944,
      "learning_rate": 9.750657385085627e-06,
      "loss": 0.7538,
      "step": 390
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8525715273895952,
      "learning_rate": 9.748995304189734e-06,
      "loss": 0.6487,
      "step": 391
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3684849957648948,
      "learning_rate": 9.747327844700147e-06,
      "loss": 0.779,
      "step": 392
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9424804154046685,
      "learning_rate": 9.745655008505392e-06,
      "loss": 0.6483,
      "step": 393
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9582560756448683,
      "learning_rate": 9.74397679750008e-06,
      "loss": 0.7552,
      "step": 394
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8115207890758018,
      "learning_rate": 9.74229321358491e-06,
      "loss": 0.6645,
      "step": 395
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5381683245275797,
      "learning_rate": 9.740604258666668e-06,
      "loss": 0.7008,
      "step": 396
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7409447872740962,
      "learning_rate": 9.738909934658223e-06,
      "loss": 0.6014,
      "step": 397
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.802846679303493,
      "learning_rate": 9.737210243478522e-06,
      "loss": 0.6321,
      "step": 398
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9255071507432086,
      "learning_rate": 9.735505187052595e-06,
      "loss": 0.6266,
      "step": 399
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0632266912400192,
      "learning_rate": 9.733794767311545e-06,
      "loss": 0.7205,
      "step": 400
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9657342206218478,
      "learning_rate": 9.732078986192552e-06,
      "loss": 0.7585,
      "step": 401
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9276711230291155,
      "learning_rate": 9.730357845638866e-06,
      "loss": 0.8086,
      "step": 402
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.99429609556717,
      "learning_rate": 9.72863134759981e-06,
      "loss": 0.767,
      "step": 403
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7688941279791843,
      "learning_rate": 9.726899494030768e-06,
      "loss": 0.6832,
      "step": 404
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9680624849640714,
      "learning_rate": 9.725162286893197e-06,
      "loss": 0.7581,
      "step": 405
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8245641530703578,
      "learning_rate": 9.723419728154617e-06,
      "loss": 0.6282,
      "step": 406
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9617420064335063,
      "learning_rate": 9.721671819788603e-06,
      "loss": 0.6927,
      "step": 407
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.640162632884996,
      "learning_rate": 9.719918563774793e-06,
      "loss": 0.6272,
      "step": 408
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.745025945305981,
      "learning_rate": 9.71815996209888e-06,
      "loss": 0.6578,
      "step": 409
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6914750650071712,
      "learning_rate": 9.716396016752616e-06,
      "loss": 0.6986,
      "step": 410
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.219826355034574,
      "learning_rate": 9.7146267297338e-06,
      "loss": 0.7109,
      "step": 411
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0066265218795938,
      "learning_rate": 9.712852103046281e-06,
      "loss": 0.932,
      "step": 412
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.94181952167471,
      "learning_rate": 9.711072138699957e-06,
      "loss": 0.7313,
      "step": 413
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9598002718223954,
      "learning_rate": 9.709286838710774e-06,
      "loss": 0.6981,
      "step": 414
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.72636387570247,
      "learning_rate": 9.707496205100714e-06,
      "loss": 0.6087,
      "step": 415
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7804882685687045,
      "learning_rate": 9.705700239897809e-06,
      "loss": 0.6438,
      "step": 416
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9641942414716136,
      "learning_rate": 9.70389894513612e-06,
      "loss": 0.7717,
      "step": 417
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.960290082053921,
      "learning_rate": 9.70209232285575e-06,
      "loss": 0.8255,
      "step": 418
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1879901545550535,
      "learning_rate": 9.700280375102835e-06,
      "loss": 0.7653,
      "step": 419
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9216081686991088,
      "learning_rate": 9.698463103929542e-06,
      "loss": 0.702,
      "step": 420
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.918152414735972,
      "learning_rate": 9.696640511394066e-06,
      "loss": 0.6291,
      "step": 421
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7699572924989532,
      "learning_rate": 9.694812599560632e-06,
      "loss": 0.5873,
      "step": 422
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0041073071596593,
      "learning_rate": 9.692979370499485e-06,
      "loss": 0.7554,
      "step": 423
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8566147466313092,
      "learning_rate": 9.691140826286893e-06,
      "loss": 0.6912,
      "step": 424
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0271493453004292,
      "learning_rate": 9.689296969005151e-06,
      "loss": 0.7901,
      "step": 425
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.7173383667803908,
      "learning_rate": 9.68744780074256e-06,
      "loss": 0.696,
      "step": 426
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8958078726796065,
      "learning_rate": 9.685593323593445e-06,
      "loss": 0.7347,
      "step": 427
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9425671302106341,
      "learning_rate": 9.68373353965814e-06,
      "loss": 0.6804,
      "step": 428
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7779767573885398,
      "learning_rate": 9.68186845104299e-06,
      "loss": 0.6789,
      "step": 429
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.100917320261526,
      "learning_rate": 9.679998059860347e-06,
      "loss": 0.7413,
      "step": 430
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8353375511013794,
      "learning_rate": 9.678122368228571e-06,
      "loss": 0.6583,
      "step": 431
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9590771758956412,
      "learning_rate": 9.676241378272022e-06,
      "loss": 0.7273,
      "step": 432
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0877362811023614,
      "learning_rate": 9.674355092121064e-06,
      "loss": 0.7646,
      "step": 433
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8828771200231669,
      "learning_rate": 9.672463511912056e-06,
      "loss": 0.7152,
      "step": 434
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.962937391552748,
      "learning_rate": 9.670566639787355e-06,
      "loss": 0.7474,
      "step": 435
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9769514644933437,
      "learning_rate": 9.66866447789531e-06,
      "loss": 0.6778,
      "step": 436
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9408295676406716,
      "learning_rate": 9.666757028390267e-06,
      "loss": 0.6918,
      "step": 437
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0019529733378214,
      "learning_rate": 9.66484429343255e-06,
      "loss": 0.764,
      "step": 438
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9233780928419283,
      "learning_rate": 9.662926275188478e-06,
      "loss": 0.7316,
      "step": 439
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0834277419715896,
      "learning_rate": 9.66100297583035e-06,
      "loss": 0.7485,
      "step": 440
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9940827978713271,
      "learning_rate": 9.659074397536446e-06,
      "loss": 0.6771,
      "step": 441
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8315863943805435,
      "learning_rate": 9.657140542491025e-06,
      "loss": 0.6891,
      "step": 442
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9792855413008249,
      "learning_rate": 9.655201412884328e-06,
      "loss": 0.7737,
      "step": 443
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7211766877464442,
      "learning_rate": 9.65325701091256e-06,
      "loss": 0.7125,
      "step": 444
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9184928057526522,
      "learning_rate": 9.651307338777903e-06,
      "loss": 0.7197,
      "step": 445
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8066104198101104,
      "learning_rate": 9.649352398688506e-06,
      "loss": 0.5961,
      "step": 446
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9982137477434561,
      "learning_rate": 9.647392192858489e-06,
      "loss": 0.7799,
      "step": 447
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7434629790036386,
      "learning_rate": 9.645426723507929e-06,
      "loss": 0.6042,
      "step": 448
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7644346095449386,
      "learning_rate": 9.64345599286287e-06,
      "loss": 0.6743,
      "step": 449
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7578745440004568,
      "learning_rate": 9.64148000315531e-06,
      "loss": 0.612,
      "step": 450
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7859272775348631,
      "learning_rate": 9.63949875662321e-06,
      "loss": 0.643,
      "step": 451
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.847713306242087,
      "learning_rate": 9.637512255510475e-06,
      "loss": 0.6612,
      "step": 452
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9360649454514292,
      "learning_rate": 9.635520502066968e-06,
      "loss": 0.6747,
      "step": 453
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0311497902922708,
      "learning_rate": 9.633523498548502e-06,
      "loss": 0.7723,
      "step": 454
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9264393922914358,
      "learning_rate": 9.63152124721683e-06,
      "loss": 0.7513,
      "step": 455
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9176973592570169,
      "learning_rate": 9.629513750339656e-06,
      "loss": 0.6947,
      "step": 456
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0735520685887865,
      "learning_rate": 9.627501010190616e-06,
      "loss": 0.7408,
      "step": 457
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9861992908267102,
      "learning_rate": 9.625483029049295e-06,
      "loss": 0.633,
      "step": 458
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7405015675098431,
      "learning_rate": 9.623459809201201e-06,
      "loss": 0.7391,
      "step": 459
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0260496352523372,
      "learning_rate": 9.62143135293779e-06,
      "loss": 0.7782,
      "step": 460
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8334888687878178,
      "learning_rate": 9.619397662556434e-06,
      "loss": 0.6368,
      "step": 461
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9924625988289631,
      "learning_rate": 9.617358740360446e-06,
      "loss": 0.7144,
      "step": 462
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0000492031160186,
      "learning_rate": 9.615314588659054e-06,
      "loss": 0.7749,
      "step": 463
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9013866534849198,
      "learning_rate": 9.613265209767417e-06,
      "loss": 0.6767,
      "step": 464
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2550804241996292,
      "learning_rate": 9.611210606006606e-06,
      "loss": 0.7338,
      "step": 465
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9405621147247304,
      "learning_rate": 9.60915077970362e-06,
      "loss": 0.708,
      "step": 466
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8803961421165376,
      "learning_rate": 9.607085733191362e-06,
      "loss": 0.6152,
      "step": 467
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8904515962886552,
      "learning_rate": 9.605015468808651e-06,
      "loss": 0.7155,
      "step": 468
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7150835621461106,
      "learning_rate": 9.602939988900223e-06,
      "loss": 0.6605,
      "step": 469
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.924543465025261,
      "learning_rate": 9.600859295816708e-06,
      "loss": 0.737,
      "step": 470
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7565129086404463,
      "learning_rate": 9.598773391914655e-06,
      "loss": 0.6054,
      "step": 471
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7752910756029932,
      "learning_rate": 9.596682279556499e-06,
      "loss": 0.6071,
      "step": 472
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1229274504913365,
      "learning_rate": 9.594585961110586e-06,
      "loss": 0.7794,
      "step": 473
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9910103128382708,
      "learning_rate": 9.59248443895115e-06,
      "loss": 0.7658,
      "step": 474
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8531729597377833,
      "learning_rate": 9.590377715458328e-06,
      "loss": 0.6626,
      "step": 475
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8662564100527651,
      "learning_rate": 9.588265793018141e-06,
      "loss": 0.6656,
      "step": 476
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8244629176386715,
      "learning_rate": 9.586148674022498e-06,
      "loss": 0.6226,
      "step": 477
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9827696581091406,
      "learning_rate": 9.584026360869195e-06,
      "loss": 0.7904,
      "step": 478
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9515936677119152,
      "learning_rate": 9.581898855961911e-06,
      "loss": 0.6884,
      "step": 479
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1856232914538076,
      "learning_rate": 9.579766161710209e-06,
      "loss": 0.7069,
      "step": 480
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.047571258571708,
      "learning_rate": 9.577628280529519e-06,
      "loss": 0.7537,
      "step": 481
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0991411221667087,
      "learning_rate": 9.575485214841158e-06,
      "loss": 0.7859,
      "step": 482
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0780091038147253,
      "learning_rate": 9.573336967072304e-06,
      "loss": 0.702,
      "step": 483
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1011564552139255,
      "learning_rate": 9.571183539656011e-06,
      "loss": 0.7174,
      "step": 484
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9821449290251854,
      "learning_rate": 9.569024935031198e-06,
      "loss": 0.7131,
      "step": 485
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8717058948673405,
      "learning_rate": 9.566861155642646e-06,
      "loss": 0.73,
      "step": 486
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8308792433505042,
      "learning_rate": 9.564692203940997e-06,
      "loss": 0.6401,
      "step": 487
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8403414765425137,
      "learning_rate": 9.562518082382751e-06,
      "loss": 0.6885,
      "step": 488
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0261052308919636,
      "learning_rate": 9.560338793430266e-06,
      "loss": 0.7898,
      "step": 489
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8833490961062833,
      "learning_rate": 9.558154339551748e-06,
      "loss": 0.7758,
      "step": 490
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8999991173248719,
      "learning_rate": 9.555964723221258e-06,
      "loss": 0.6481,
      "step": 491
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9675127555954194,
      "learning_rate": 9.553769946918698e-06,
      "loss": 0.7204,
      "step": 492
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8247063304043396,
      "learning_rate": 9.551570013129819e-06,
      "loss": 0.5993,
      "step": 493
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9496135608097974,
      "learning_rate": 9.54936492434621e-06,
      "loss": 0.763,
      "step": 494
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9326390601861602,
      "learning_rate": 9.547154683065298e-06,
      "loss": 0.7316,
      "step": 495
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9274044340851069,
      "learning_rate": 9.544939291790352e-06,
      "loss": 0.6459,
      "step": 496
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7716134899963204,
      "learning_rate": 9.542718753030463e-06,
      "loss": 0.6469,
      "step": 497
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9522976958946473,
      "learning_rate": 9.540493069300563e-06,
      "loss": 0.8136,
      "step": 498
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8571272146543413,
      "learning_rate": 9.538262243121403e-06,
      "loss": 0.6576,
      "step": 499
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9421914499519692,
      "learning_rate": 9.536026277019562e-06,
      "loss": 0.6259,
      "step": 500
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9277876029911232,
      "learning_rate": 9.533785173527438e-06,
      "loss": 0.7701,
      "step": 501
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9892789666118113,
      "learning_rate": 9.531538935183252e-06,
      "loss": 0.7644,
      "step": 502
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9888354971437208,
      "learning_rate": 9.529287564531034e-06,
      "loss": 0.7578,
      "step": 503
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.0690356847748663,
      "learning_rate": 9.527031064120632e-06,
      "loss": 0.7405,
      "step": 504
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7559409570533546,
      "learning_rate": 9.524769436507703e-06,
      "loss": 0.6462,
      "step": 505
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.0686745722435764,
      "learning_rate": 9.522502684253709e-06,
      "loss": 0.7637,
      "step": 506
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.093587348202067,
      "learning_rate": 9.520230809925917e-06,
      "loss": 0.7365,
      "step": 507
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1020040666611008,
      "learning_rate": 9.517953816097396e-06,
      "loss": 0.8206,
      "step": 508
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8679058731951811,
      "learning_rate": 9.515671705347012e-06,
      "loss": 0.6982,
      "step": 509
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7919656549053152,
      "learning_rate": 9.513384480259427e-06,
      "loss": 0.6233,
      "step": 510
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9268212327844318,
      "learning_rate": 9.511092143425093e-06,
      "loss": 0.6626,
      "step": 511
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8232692546823805,
      "learning_rate": 9.508794697440257e-06,
      "loss": 0.7704,
      "step": 512
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9718779999431784,
      "learning_rate": 9.506492144906949e-06,
      "loss": 0.7327,
      "step": 513
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9199547680790549,
      "learning_rate": 9.50418448843298e-06,
      "loss": 0.7947,
      "step": 514
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9509389606332403,
      "learning_rate": 9.501871730631944e-06,
      "loss": 0.7681,
      "step": 515
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9146461272430507,
      "learning_rate": 9.499553874123213e-06,
      "loss": 0.7934,
      "step": 516
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1451372635019013,
      "learning_rate": 9.497230921531938e-06,
      "loss": 0.8029,
      "step": 517
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9403002902876973,
      "learning_rate": 9.494902875489031e-06,
      "loss": 0.7148,
      "step": 518
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7288080343900791,
      "learning_rate": 9.492569738631182e-06,
      "loss": 0.6061,
      "step": 519
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1446049584213738,
      "learning_rate": 9.490231513600842e-06,
      "loss": 0.8,
      "step": 520
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9857222004963156,
      "learning_rate": 9.487888203046232e-06,
      "loss": 0.7679,
      "step": 521
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9909708552259188,
      "learning_rate": 9.485539809621319e-06,
      "loss": 0.6804,
      "step": 522
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6890094033907328,
      "learning_rate": 9.48318633598584e-06,
      "loss": 0.6312,
      "step": 523
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.0267600265237455,
      "learning_rate": 9.480827784805278e-06,
      "loss": 0.7675,
      "step": 524
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.863798383249548,
      "learning_rate": 9.478464158750873e-06,
      "loss": 0.6629,
      "step": 525
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6677883366915691,
      "learning_rate": 9.476095460499604e-06,
      "loss": 0.6661,
      "step": 526
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.04911949176404,
      "learning_rate": 9.473721692734203e-06,
      "loss": 0.8072,
      "step": 527
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9479562352243812,
      "learning_rate": 9.47134285814314e-06,
      "loss": 0.6788,
      "step": 528
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3559845067778815,
      "learning_rate": 9.468958959420622e-06,
      "loss": 0.7635,
      "step": 529
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.0681683043531809,
      "learning_rate": 9.466569999266595e-06,
      "loss": 0.7395,
      "step": 530
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.833654375843791,
      "learning_rate": 9.464175980386735e-06,
      "loss": 0.6783,
      "step": 531
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9491035860112432,
      "learning_rate": 9.461776905492446e-06,
      "loss": 0.6529,
      "step": 532
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0541175123547213,
      "learning_rate": 9.459372777300863e-06,
      "loss": 0.8028,
      "step": 533
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8583080820661412,
      "learning_rate": 9.456963598534843e-06,
      "loss": 0.6646,
      "step": 534
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8421575794031955,
      "learning_rate": 9.454549371922958e-06,
      "loss": 0.6784,
      "step": 535
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0735477740757935,
      "learning_rate": 9.452130100199504e-06,
      "loss": 0.7101,
      "step": 536
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7637134120339485,
      "learning_rate": 9.449705786104486e-06,
      "loss": 0.6067,
      "step": 537
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8988109269879833,
      "learning_rate": 9.447276432383622e-06,
      "loss": 0.7424,
      "step": 538
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0846666642818,
      "learning_rate": 9.44484204178834e-06,
      "loss": 0.7533,
      "step": 539
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9493260548094621,
      "learning_rate": 9.442402617075765e-06,
      "loss": 0.6827,
      "step": 540
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.732967413231929,
      "learning_rate": 9.439958161008733e-06,
      "loss": 0.5992,
      "step": 541
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0661550944064715,
      "learning_rate": 9.437508676355774e-06,
      "loss": 0.7225,
      "step": 542
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7183603293026771,
      "learning_rate": 9.43505416589111e-06,
      "loss": 0.6589,
      "step": 543
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0460197079256066,
      "learning_rate": 9.43259463239466e-06,
      "loss": 0.7625,
      "step": 544
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0105619609474341,
      "learning_rate": 9.43013007865203e-06,
      "loss": 0.7321,
      "step": 545
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0122934442619662,
      "learning_rate": 9.427660507454515e-06,
      "loss": 0.8218,
      "step": 546
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8857025844069099,
      "learning_rate": 9.425185921599085e-06,
      "loss": 0.7041,
      "step": 547
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0772357772123347,
      "learning_rate": 9.422706323888398e-06,
      "loss": 0.7375,
      "step": 548
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9814653364349569,
      "learning_rate": 9.420221717130783e-06,
      "loss": 0.7242,
      "step": 549
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8727922381357238,
      "learning_rate": 9.417732104140243e-06,
      "loss": 0.661,
      "step": 550
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8366553531883681,
      "learning_rate": 9.415237487736452e-06,
      "loss": 0.6123,
      "step": 551
    },
    {
      "epoch": 0.18,
      "grad_norm": 11.324880882734751,
      "learning_rate": 9.412737870744752e-06,
      "loss": 0.8448,
      "step": 552
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4383078964223863,
      "learning_rate": 9.410233255996146e-06,
      "loss": 0.7223,
      "step": 553
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3883483103393328,
      "learning_rate": 9.407723646327299e-06,
      "loss": 0.778,
      "step": 554
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9876065984409924,
      "learning_rate": 9.40520904458053e-06,
      "loss": 0.7302,
      "step": 555
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0853189578491222,
      "learning_rate": 9.402689453603815e-06,
      "loss": 0.7444,
      "step": 556
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9004835490718606,
      "learning_rate": 9.400164876250781e-06,
      "loss": 0.7094,
      "step": 557
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0249069478228405,
      "learning_rate": 9.3976353153807e-06,
      "loss": 0.7851,
      "step": 558
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8958737079457008,
      "learning_rate": 9.395100773858492e-06,
      "loss": 0.7023,
      "step": 559
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9612011690320202,
      "learning_rate": 9.392561254554712e-06,
      "loss": 0.742,
      "step": 560
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7171004378977424,
      "learning_rate": 9.39001676034556e-06,
      "loss": 0.6394,
      "step": 561
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8156240736150678,
      "learning_rate": 9.387467294112864e-06,
      "loss": 0.5921,
      "step": 562
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8881349414883571,
      "learning_rate": 9.384912858744088e-06,
      "loss": 0.7742,
      "step": 563
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8690963846517649,
      "learning_rate": 9.382353457132318e-06,
      "loss": 0.7507,
      "step": 564
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0196517444156148,
      "learning_rate": 9.379789092176275e-06,
      "loss": 0.7855,
      "step": 565
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.034326266194523,
      "learning_rate": 9.377219766780288e-06,
      "loss": 0.6428,
      "step": 566
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9814395793354385,
      "learning_rate": 9.374645483854315e-06,
      "loss": 0.6734,
      "step": 567
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1102201596761367,
      "learning_rate": 9.372066246313922e-06,
      "loss": 0.7136,
      "step": 568
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0651782936188494,
      "learning_rate": 9.369482057080293e-06,
      "loss": 0.7901,
      "step": 569
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9406420555719702,
      "learning_rate": 9.366892919080213e-06,
      "loss": 0.6737,
      "step": 570
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9206138691133133,
      "learning_rate": 9.364298835246074e-06,
      "loss": 0.6738,
      "step": 571
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.129148647910398,
      "learning_rate": 9.361699808515877e-06,
      "loss": 0.8041,
      "step": 572
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9572641256566572,
      "learning_rate": 9.359095841833206e-06,
      "loss": 0.7314,
      "step": 573
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9720709765898802,
      "learning_rate": 9.356486938147256e-06,
      "loss": 0.8117,
      "step": 574
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7461462585879582,
      "learning_rate": 9.353873100412805e-06,
      "loss": 0.6663,
      "step": 575
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9770697891173985,
      "learning_rate": 9.351254331590216e-06,
      "loss": 0.7781,
      "step": 576
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2777444254034835,
      "learning_rate": 9.348630634645446e-06,
      "loss": 0.7424,
      "step": 577
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0508674470631996,
      "learning_rate": 9.346002012550027e-06,
      "loss": 0.7614,
      "step": 578
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9092279284037597,
      "learning_rate": 9.34336846828107e-06,
      "loss": 0.6822,
      "step": 579
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8051956348346901,
      "learning_rate": 9.340730004821266e-06,
      "loss": 0.6486,
      "step": 580
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0754282314421206,
      "learning_rate": 9.338086625158867e-06,
      "loss": 0.766,
      "step": 581
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8385423601196921,
      "learning_rate": 9.3354383322877e-06,
      "loss": 0.7071,
      "step": 582
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9286015316378625,
      "learning_rate": 9.33278512920716e-06,
      "loss": 0.7225,
      "step": 583
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8766180814940792,
      "learning_rate": 9.330127018922195e-06,
      "loss": 0.706,
      "step": 584
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9870559444963771,
      "learning_rate": 9.327464004443315e-06,
      "loss": 0.7497,
      "step": 585
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8305887120856372,
      "learning_rate": 9.324796088786581e-06,
      "loss": 0.6286,
      "step": 586
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8416397511066416,
      "learning_rate": 9.322123274973613e-06,
      "loss": 0.7255,
      "step": 587
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.004493516802248,
      "learning_rate": 9.31944556603157e-06,
      "loss": 0.7536,
      "step": 588
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9158259689660694,
      "learning_rate": 9.31676296499316e-06,
      "loss": 0.7704,
      "step": 589
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9287631835480019,
      "learning_rate": 9.314075474896631e-06,
      "loss": 0.7378,
      "step": 590
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0230597589383004,
      "learning_rate": 9.311383098785765e-06,
      "loss": 0.7516,
      "step": 591
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.098239594279667,
      "learning_rate": 9.308685839709878e-06,
      "loss": 0.6668,
      "step": 592
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.902908918927589,
      "learning_rate": 9.305983700723824e-06,
      "loss": 0.6743,
      "step": 593
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3171071792007893,
      "learning_rate": 9.303276684887973e-06,
      "loss": 0.7235,
      "step": 594
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.824621415694341,
      "learning_rate": 9.30056479526823e-06,
      "loss": 0.6391,
      "step": 595
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1675872457348828,
      "learning_rate": 9.297848034936007e-06,
      "loss": 0.7104,
      "step": 596
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0771053442306748,
      "learning_rate": 9.295126406968241e-06,
      "loss": 0.7713,
      "step": 597
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8419054108925397,
      "learning_rate": 9.292399914447381e-06,
      "loss": 0.6265,
      "step": 598
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1553633038821658,
      "learning_rate": 9.289668560461385e-06,
      "loss": 0.7601,
      "step": 599
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0245549896881214,
      "learning_rate": 9.286932348103716e-06,
      "loss": 0.8072,
      "step": 600
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9602071482078671,
      "learning_rate": 9.284191280473338e-06,
      "loss": 0.7512,
      "step": 601
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1019940133805564,
      "learning_rate": 9.281445360674717e-06,
      "loss": 0.7529,
      "step": 602
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1071616455130409,
      "learning_rate": 9.278694591817814e-06,
      "loss": 0.7415,
      "step": 603
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9884557478456081,
      "learning_rate": 9.275938977018082e-06,
      "loss": 0.6956,
      "step": 604
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8886188820944909,
      "learning_rate": 9.273178519396459e-06,
      "loss": 0.729,
      "step": 605
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9977035663154761,
      "learning_rate": 9.270413222079373e-06,
      "loss": 0.7847,
      "step": 606
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9577968119384663,
      "learning_rate": 9.26764308819873e-06,
      "loss": 0.7247,
      "step": 607
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8861437928068333,
      "learning_rate": 9.264868120891913e-06,
      "loss": 0.7353,
      "step": 608
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8852429482076052,
      "learning_rate": 9.262088323301782e-06,
      "loss": 0.7092,
      "step": 609
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.115544757581034,
      "learning_rate": 9.259303698576669e-06,
      "loss": 0.7627,
      "step": 610
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8621402879397205,
      "learning_rate": 9.256514249870366e-06,
      "loss": 0.6887,
      "step": 611
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9904011199050817,
      "learning_rate": 9.253719980342134e-06,
      "loss": 0.7129,
      "step": 612
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8877665226324248,
      "learning_rate": 9.250920893156696e-06,
      "loss": 0.6977,
      "step": 613
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7397361325475978,
      "learning_rate": 9.24811699148423e-06,
      "loss": 0.641,
      "step": 614
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9526475550150493,
      "learning_rate": 9.245308278500355e-06,
      "loss": 0.7634,
      "step": 615
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.06911781685805,
      "learning_rate": 9.24249475738616e-06,
      "loss": 0.7509,
      "step": 616
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8420646590969377,
      "learning_rate": 9.239676431328164e-06,
      "loss": 0.6907,
      "step": 617
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1436004916135332,
      "learning_rate": 9.236853303518333e-06,
      "loss": 0.7466,
      "step": 618
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0466498035706804,
      "learning_rate": 9.234025377154073e-06,
      "loss": 0.8089,
      "step": 619
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.048847829265204,
      "learning_rate": 9.231192655438222e-06,
      "loss": 0.7394,
      "step": 620
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.008765105914753,
      "learning_rate": 9.228355141579048e-06,
      "loss": 0.7203,
      "step": 621
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8500928726293179,
      "learning_rate": 9.225512838790252e-06,
      "loss": 0.6646,
      "step": 622
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8306824257699645,
      "learning_rate": 9.222665750290953e-06,
      "loss": 0.7109,
      "step": 623
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.927153680894259,
      "learning_rate": 9.219813879305692e-06,
      "loss": 0.7126,
      "step": 624
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.95477749395188,
      "learning_rate": 9.21695722906443e-06,
      "loss": 0.7496,
      "step": 625
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8993391248816455,
      "learning_rate": 9.214095802802533e-06,
      "loss": 0.7149,
      "step": 626
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8840140675949864,
      "learning_rate": 9.211229603760787e-06,
      "loss": 0.665,
      "step": 627
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8439349897403492,
      "learning_rate": 9.208358635185372e-06,
      "loss": 0.7367,
      "step": 628
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.988024541065905,
      "learning_rate": 9.20548290032788e-06,
      "loss": 0.7209,
      "step": 629
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.382453066347688,
      "learning_rate": 9.202602402445294e-06,
      "loss": 0.7062,
      "step": 630
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0056337175716872,
      "learning_rate": 9.199717144799994e-06,
      "loss": 0.7342,
      "step": 631
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9347861652767969,
      "learning_rate": 9.196827130659752e-06,
      "loss": 0.6101,
      "step": 632
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0653571280096694,
      "learning_rate": 9.193932363297724e-06,
      "loss": 0.8415,
      "step": 633
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9657851686022416,
      "learning_rate": 9.191032845992453e-06,
      "loss": 0.7708,
      "step": 634
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8241298866941948,
      "learning_rate": 9.18812858202786e-06,
      "loss": 0.6873,
      "step": 635
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0225517826205113,
      "learning_rate": 9.185219574693242e-06,
      "loss": 0.773,
      "step": 636
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0680962894689234,
      "learning_rate": 9.18230582728327e-06,
      "loss": 0.7317,
      "step": 637
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0902869961278445,
      "learning_rate": 9.179387343097978e-06,
      "loss": 0.7655,
      "step": 638
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9202300937533647,
      "learning_rate": 9.17646412544277e-06,
      "loss": 0.7412,
      "step": 639
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7704769099896459,
      "learning_rate": 9.17353617762841e-06,
      "loss": 0.625,
      "step": 640
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.963759730735912,
      "learning_rate": 9.170603502971017e-06,
      "loss": 0.7268,
      "step": 641
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2315571359326185,
      "learning_rate": 9.167666104792067e-06,
      "loss": 0.7372,
      "step": 642
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8356849287948522,
      "learning_rate": 9.164723986418385e-06,
      "loss": 0.7491,
      "step": 643
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8787927177733852,
      "learning_rate": 9.161777151182137e-06,
      "loss": 0.6075,
      "step": 644
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8620442942995725,
      "learning_rate": 9.158825602420838e-06,
      "loss": 0.6497,
      "step": 645
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8465822130822189,
      "learning_rate": 9.155869343477339e-06,
      "loss": 0.6648,
      "step": 646
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6795775088297845,
      "learning_rate": 9.152908377699823e-06,
      "loss": 0.6122,
      "step": 647
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0728950829129744,
      "learning_rate": 9.149942708441808e-06,
      "loss": 0.7935,
      "step": 648
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.757526412308653,
      "learning_rate": 9.146972339062136e-06,
      "loss": 0.6333,
      "step": 649
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.333635039923097,
      "learning_rate": 9.143997272924974e-06,
      "loss": 0.7481,
      "step": 650
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9407404201265595,
      "learning_rate": 9.141017513399806e-06,
      "loss": 0.6998,
      "step": 651
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7961475495808616,
      "learning_rate": 9.138033063861436e-06,
      "loss": 0.653,
      "step": 652
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.794319209847177,
      "learning_rate": 9.135043927689975e-06,
      "loss": 0.6716,
      "step": 653
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.986828904886894,
      "learning_rate": 9.132050108270845e-06,
      "loss": 0.8244,
      "step": 654
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1503798021184264,
      "learning_rate": 9.129051608994773e-06,
      "loss": 0.7737,
      "step": 655
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9809248234772074,
      "learning_rate": 9.12604843325778e-06,
      "loss": 0.771,
      "step": 656
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9264165381739574,
      "learning_rate": 9.123040584461192e-06,
      "loss": 0.7438,
      "step": 657
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0765647024053324,
      "learning_rate": 9.120028066011621e-06,
      "loss": 0.6378,
      "step": 658
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.908522881507948,
      "learning_rate": 9.117010881320973e-06,
      "loss": 0.7236,
      "step": 659
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9736487921999856,
      "learning_rate": 9.113989033806434e-06,
      "loss": 0.7517,
      "step": 660
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8502175782198679,
      "learning_rate": 9.110962526890474e-06,
      "loss": 0.6696,
      "step": 661
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.794577629474433,
      "learning_rate": 9.10793136400084e-06,
      "loss": 0.593,
      "step": 662
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8148149823446464,
      "learning_rate": 9.104895548570549e-06,
      "loss": 0.7249,
      "step": 663
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6907034024352915,
      "learning_rate": 9.101855084037893e-06,
      "loss": 0.6315,
      "step": 664
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8132103287045299,
      "learning_rate": 9.098809973846425e-06,
      "loss": 0.6156,
      "step": 665
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3865625948202647,
      "learning_rate": 9.09576022144496e-06,
      "loss": 0.7822,
      "step": 666
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9073321705123577,
      "learning_rate": 9.092705830287572e-06,
      "loss": 0.8413,
      "step": 667
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9991491404334227,
      "learning_rate": 9.089646803833589e-06,
      "loss": 0.7586,
      "step": 668
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9838939628982964,
      "learning_rate": 9.086583145547588e-06,
      "loss": 0.5978,
      "step": 669
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8402054761070726,
      "learning_rate": 9.083514858899391e-06,
      "loss": 0.6853,
      "step": 670
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.951047969943493,
      "learning_rate": 9.080441947364065e-06,
      "loss": 0.659,
      "step": 671
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9674269236974247,
      "learning_rate": 9.07736441442191e-06,
      "loss": 0.7357,
      "step": 672
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8212183609456811,
      "learning_rate": 9.074282263558465e-06,
      "loss": 0.6898,
      "step": 673
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9809673516728659,
      "learning_rate": 9.071195498264497e-06,
      "loss": 0.691,
      "step": 674
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9467159278800019,
      "learning_rate": 9.068104122036e-06,
      "loss": 0.8328,
      "step": 675
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7902853934846635,
      "learning_rate": 9.06500813837419e-06,
      "loss": 0.66,
      "step": 676
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8268326409731352,
      "learning_rate": 9.061907550785498e-06,
      "loss": 0.7167,
      "step": 677
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9718502395915779,
      "learning_rate": 9.058802362781576e-06,
      "loss": 0.6734,
      "step": 678
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8095807048898819,
      "learning_rate": 9.055692577879279e-06,
      "loss": 0.6298,
      "step": 679
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9527092307045641,
      "learning_rate": 9.052578199600675e-06,
      "loss": 0.7812,
      "step": 680
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0279456071313633,
      "learning_rate": 9.049459231473028e-06,
      "loss": 0.7015,
      "step": 681
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.818831889311798,
      "learning_rate": 9.046335677028806e-06,
      "loss": 0.6365,
      "step": 682
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0054575671039239,
      "learning_rate": 9.04320753980567e-06,
      "loss": 0.7434,
      "step": 683
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8377784313224783,
      "learning_rate": 9.040074823346466e-06,
      "loss": 0.6064,
      "step": 684
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.999964833229709,
      "learning_rate": 9.036937531199235e-06,
      "loss": 0.7749,
      "step": 685
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0635204953207384,
      "learning_rate": 9.033795666917191e-06,
      "loss": 0.7308,
      "step": 686
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8034123510308859,
      "learning_rate": 9.030649234058738e-06,
      "loss": 0.5907,
      "step": 687
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.64811392259624,
      "learning_rate": 9.02749823618744e-06,
      "loss": 0.6207,
      "step": 688
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8341285937574606,
      "learning_rate": 9.024342676872044e-06,
      "loss": 0.6251,
      "step": 689
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2576978896278814,
      "learning_rate": 9.021182559686454e-06,
      "loss": 0.7395,
      "step": 690
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2438266727989384,
      "learning_rate": 9.018017888209744e-06,
      "loss": 0.7201,
      "step": 691
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8202895366646272,
      "learning_rate": 9.014848666026138e-06,
      "loss": 0.6383,
      "step": 692
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8604654307292744,
      "learning_rate": 9.01167489672502e-06,
      "loss": 0.6307,
      "step": 693
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8028243132817917,
      "learning_rate": 9.008496583900925e-06,
      "loss": 0.6324,
      "step": 694
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9860968228930308,
      "learning_rate": 9.005313731153525e-06,
      "loss": 0.7523,
      "step": 695
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9903612883017341,
      "learning_rate": 9.002126342087643e-06,
      "loss": 0.7379,
      "step": 696
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.010723938367854,
      "learning_rate": 8.998934420313236e-06,
      "loss": 0.753,
      "step": 697
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6202198256807998,
      "learning_rate": 8.995737969445395e-06,
      "loss": 0.8354,
      "step": 698
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8536603979568819,
      "learning_rate": 8.992536993104339e-06,
      "loss": 0.6315,
      "step": 699
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.02988469953239,
      "learning_rate": 8.989331494915417e-06,
      "loss": 0.7481,
      "step": 700
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8904230699533175,
      "learning_rate": 8.986121478509096e-06,
      "loss": 0.7295,
      "step": 701
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9585654986153241,
      "learning_rate": 8.982906947520958e-06,
      "loss": 0.7752,
      "step": 702
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2991838779167777,
      "learning_rate": 8.9796879055917e-06,
      "loss": 0.7879,
      "step": 703
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.841291477863086,
      "learning_rate": 8.976464356367133e-06,
      "loss": 0.6612,
      "step": 704
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0310557359376675,
      "learning_rate": 8.973236303498165e-06,
      "loss": 0.7834,
      "step": 705
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8482168309935321,
      "learning_rate": 8.97000375064081e-06,
      "loss": 0.6312,
      "step": 706
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0037260688410135,
      "learning_rate": 8.966766701456177e-06,
      "loss": 0.7347,
      "step": 707
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9632762370906816,
      "learning_rate": 8.963525159610465e-06,
      "loss": 0.7703,
      "step": 708
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7881016248631046,
      "learning_rate": 8.960279128774965e-06,
      "loss": 0.6443,
      "step": 709
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9866054964208962,
      "learning_rate": 8.957028612626051e-06,
      "loss": 0.7167,
      "step": 710
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0947877688934318,
      "learning_rate": 8.953773614845175e-06,
      "loss": 0.7971,
      "step": 711
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9002658275982601,
      "learning_rate": 8.950514139118868e-06,
      "loss": 0.7776,
      "step": 712
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8113980500509852,
      "learning_rate": 8.947250189138732e-06,
      "loss": 0.7523,
      "step": 713
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0263658212519398,
      "learning_rate": 8.943981768601431e-06,
      "loss": 0.8074,
      "step": 714
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7493959627724917,
      "learning_rate": 8.9407088812087e-06,
      "loss": 0.6451,
      "step": 715
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8047726150630545,
      "learning_rate": 8.937431530667329e-06,
      "loss": 0.7304,
      "step": 716
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8808519100286883,
      "learning_rate": 8.934149720689164e-06,
      "loss": 0.6517,
      "step": 717
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7295413044200245,
      "learning_rate": 8.9308634549911e-06,
      "loss": 0.6381,
      "step": 718
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7229300508420393,
      "learning_rate": 8.927572737295081e-06,
      "loss": 0.6362,
      "step": 719
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9108726094292433,
      "learning_rate": 8.924277571328091e-06,
      "loss": 0.7022,
      "step": 720
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9602711927038345,
      "learning_rate": 8.92097796082215e-06,
      "loss": 0.7477,
      "step": 721
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.0028066923080516,
      "learning_rate": 8.917673909514321e-06,
      "loss": 0.7448,
      "step": 722
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9140131552015541,
      "learning_rate": 8.914365421146685e-06,
      "loss": 0.6906,
      "step": 723
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.829812272607995,
      "learning_rate": 8.911052499466358e-06,
      "loss": 0.6384,
      "step": 724
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7588409949834557,
      "learning_rate": 8.907735148225465e-06,
      "loss": 0.653,
      "step": 725
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8782927643590002,
      "learning_rate": 8.904413371181164e-06,
      "loss": 0.6421,
      "step": 726
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9821537978689782,
      "learning_rate": 8.90108717209561e-06,
      "loss": 0.6579,
      "step": 727
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9295946182780803,
      "learning_rate": 8.897756554735976e-06,
      "loss": 0.7047,
      "step": 728
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4671708213494303,
      "learning_rate": 8.894421522874438e-06,
      "loss": 0.773,
      "step": 729
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9975686139858639,
      "learning_rate": 8.891082080288167e-06,
      "loss": 0.7488,
      "step": 730
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8699514438015369,
      "learning_rate": 8.887738230759334e-06,
      "loss": 0.7367,
      "step": 731
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9944021920604762,
      "learning_rate": 8.884389978075098e-06,
      "loss": 0.7785,
      "step": 732
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9582672506833576,
      "learning_rate": 8.88103732602761e-06,
      "loss": 0.6877,
      "step": 733
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8385334742371638,
      "learning_rate": 8.877680278413995e-06,
      "loss": 0.665,
      "step": 734
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9766155213796524,
      "learning_rate": 8.874318839036367e-06,
      "loss": 0.7252,
      "step": 735
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8055609719321187,
      "learning_rate": 8.870953011701804e-06,
      "loss": 0.6285,
      "step": 736
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.0613348796836946,
      "learning_rate": 8.867582800222358e-06,
      "loss": 0.7122,
      "step": 737
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.025595390018868,
      "learning_rate": 8.864208208415051e-06,
      "loss": 0.7159,
      "step": 738
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8248775808329637,
      "learning_rate": 8.860829240101858e-06,
      "loss": 0.6417,
      "step": 739
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9782350544110885,
      "learning_rate": 8.857445899109716e-06,
      "loss": 0.7299,
      "step": 740
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9726515741766169,
      "learning_rate": 8.85405818927051e-06,
      "loss": 0.7165,
      "step": 741
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.0221049775979423,
      "learning_rate": 8.85066611442108e-06,
      "loss": 0.7518,
      "step": 742
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8143157844075243,
      "learning_rate": 8.847269678403202e-06,
      "loss": 0.6179,
      "step": 743
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8091971447666274,
      "learning_rate": 8.843868885063594e-06,
      "loss": 0.6367,
      "step": 744
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9113664243720063,
      "learning_rate": 8.840463738253913e-06,
      "loss": 0.6559,
      "step": 745
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7780879545222129,
      "learning_rate": 8.83705424183074e-06,
      "loss": 0.6069,
      "step": 746
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1701006412735253,
      "learning_rate": 8.83364039965559e-06,
      "loss": 0.7334,
      "step": 747
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8054110420173579,
      "learning_rate": 8.83022221559489e-06,
      "loss": 0.6132,
      "step": 748
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9694032444856583,
      "learning_rate": 8.826799693519996e-06,
      "loss": 0.6388,
      "step": 749
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9890045699135275,
      "learning_rate": 8.823372837307167e-06,
      "loss": 0.6999,
      "step": 750
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0779844173772706,
      "learning_rate": 8.819941650837576e-06,
      "loss": 0.7959,
      "step": 751
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1203389468600973,
      "learning_rate": 8.8165061379973e-06,
      "loss": 0.8632,
      "step": 752
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7783160382317021,
      "learning_rate": 8.813066302677314e-06,
      "loss": 0.6187,
      "step": 753
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0320324864949795,
      "learning_rate": 8.809622148773492e-06,
      "loss": 0.7232,
      "step": 754
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0093525115042374,
      "learning_rate": 8.806173680186594e-06,
      "loss": 0.7572,
      "step": 755
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8834555217156258,
      "learning_rate": 8.80272090082227e-06,
      "loss": 0.7145,
      "step": 756
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1125714942192897,
      "learning_rate": 8.799263814591053e-06,
      "loss": 0.7359,
      "step": 757
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9302323923155821,
      "learning_rate": 8.795802425408352e-06,
      "loss": 0.6868,
      "step": 758
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7816333498594232,
      "learning_rate": 8.792336737194452e-06,
      "loss": 0.6083,
      "step": 759
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.908228401793284,
      "learning_rate": 8.788866753874504e-06,
      "loss": 0.6311,
      "step": 760
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9178744149416327,
      "learning_rate": 8.785392479378522e-06,
      "loss": 0.6945,
      "step": 761
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.031625494280168,
      "learning_rate": 8.781913917641385e-06,
      "loss": 0.7569,
      "step": 762
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.886034846882963,
      "learning_rate": 8.778431072602825e-06,
      "loss": 0.616,
      "step": 763
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0104233935129885,
      "learning_rate": 8.774943948207427e-06,
      "loss": 0.7412,
      "step": 764
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8872425459162345,
      "learning_rate": 8.771452548404618e-06,
      "loss": 0.7185,
      "step": 765
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6741065714047182,
      "learning_rate": 8.767956877148671e-06,
      "loss": 0.5878,
      "step": 766
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7788833195982775,
      "learning_rate": 8.7644569383987e-06,
      "loss": 0.6794,
      "step": 767
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0333708335462473,
      "learning_rate": 8.760952736118645e-06,
      "loss": 0.7322,
      "step": 768
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9806919672601613,
      "learning_rate": 8.757444274277277e-06,
      "loss": 0.679,
      "step": 769
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8058283343600019,
      "learning_rate": 8.753931556848195e-06,
      "loss": 0.6118,
      "step": 770
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9514497721541775,
      "learning_rate": 8.750414587809815e-06,
      "loss": 0.7196,
      "step": 771
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9820605587870576,
      "learning_rate": 8.746893371145367e-06,
      "loss": 0.802,
      "step": 772
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8123552295128817,
      "learning_rate": 8.743367910842895e-06,
      "loss": 0.6129,
      "step": 773
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8131065001104522,
      "learning_rate": 8.739838210895244e-06,
      "loss": 0.6733,
      "step": 774
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9937030016117011,
      "learning_rate": 8.736304275300069e-06,
      "loss": 0.7438,
      "step": 775
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7423813021376905,
      "learning_rate": 8.732766108059814e-06,
      "loss": 0.6701,
      "step": 776
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.785572073958818,
      "learning_rate": 8.72922371318172e-06,
      "loss": 0.6447,
      "step": 777
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9097674543845211,
      "learning_rate": 8.725677094677816e-06,
      "loss": 0.7461,
      "step": 778
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8518848683119278,
      "learning_rate": 8.722126256564911e-06,
      "loss": 0.614,
      "step": 779
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0699485836797902,
      "learning_rate": 8.718571202864598e-06,
      "loss": 0.7694,
      "step": 780
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9003600114255887,
      "learning_rate": 8.715011937603243e-06,
      "loss": 0.7146,
      "step": 781
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7487535178468626,
      "learning_rate": 8.711448464811978e-06,
      "loss": 0.7915,
      "step": 782
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7749435364155581,
      "learning_rate": 8.707880788526708e-06,
      "loss": 0.7133,
      "step": 783
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9607990361034371,
      "learning_rate": 8.70430891278809e-06,
      "loss": 0.7683,
      "step": 784
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8850927907686661,
      "learning_rate": 8.700732841641542e-06,
      "loss": 0.7025,
      "step": 785
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9689870161946755,
      "learning_rate": 8.697152579137235e-06,
      "loss": 0.7038,
      "step": 786
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1494061666136188,
      "learning_rate": 8.693568129330083e-06,
      "loss": 0.6964,
      "step": 787
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9771047508342844,
      "learning_rate": 8.689979496279747e-06,
      "loss": 0.7097,
      "step": 788
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9397911467146313,
      "learning_rate": 8.68638668405062e-06,
      "loss": 0.7163,
      "step": 789
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.754741871843309,
      "learning_rate": 8.682789696711835e-06,
      "loss": 0.6357,
      "step": 790
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.699937461177403,
      "learning_rate": 8.679188538337248e-06,
      "loss": 0.6208,
      "step": 791
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0397797825843635,
      "learning_rate": 8.675583213005443e-06,
      "loss": 0.7302,
      "step": 792
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0298527083351643,
      "learning_rate": 8.671973724799719e-06,
      "loss": 0.7007,
      "step": 793
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0209165865919174,
      "learning_rate": 8.668360077808093e-06,
      "loss": 0.8149,
      "step": 794
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9963772540632397,
      "learning_rate": 8.664742276123293e-06,
      "loss": 0.751,
      "step": 795
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7486301145676616,
      "learning_rate": 8.661120323842751e-06,
      "loss": 0.6472,
      "step": 796
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2467677792528153,
      "learning_rate": 8.657494225068599e-06,
      "loss": 0.7621,
      "step": 797
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8955443292573868,
      "learning_rate": 8.653863983907665e-06,
      "loss": 0.7474,
      "step": 798
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0541937663559509,
      "learning_rate": 8.650229604471471e-06,
      "loss": 0.7385,
      "step": 799
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8063669347363549,
      "learning_rate": 8.646591090876225e-06,
      "loss": 0.7572,
      "step": 800
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9076006399336813,
      "learning_rate": 8.642948447242816e-06,
      "loss": 0.7416,
      "step": 801
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7658620753225677,
      "learning_rate": 8.639301677696812e-06,
      "loss": 0.643,
      "step": 802
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0598222723440145,
      "learning_rate": 8.635650786368452e-06,
      "loss": 0.7364,
      "step": 803
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8851506092559168,
      "learning_rate": 8.631995777392645e-06,
      "loss": 0.6326,
      "step": 804
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1257122476654478,
      "learning_rate": 8.628336654908965e-06,
      "loss": 0.7444,
      "step": 805
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9952174879377115,
      "learning_rate": 8.62467342306164e-06,
      "loss": 0.7499,
      "step": 806
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.0119900427670148,
      "learning_rate": 8.621006085999557e-06,
      "loss": 0.7363,
      "step": 807
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9370867316127278,
      "learning_rate": 8.61733464787625e-06,
      "loss": 0.7373,
      "step": 808
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8351723549464602,
      "learning_rate": 8.613659112849898e-06,
      "loss": 0.6954,
      "step": 809
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9435177762852037,
      "learning_rate": 8.609979485083319e-06,
      "loss": 0.662,
      "step": 810
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0857327634762786,
      "learning_rate": 8.606295768743971e-06,
      "loss": 0.7368,
      "step": 811
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7235950865105105,
      "learning_rate": 8.602607968003935e-06,
      "loss": 0.6469,
      "step": 812
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.065435913259934,
      "learning_rate": 8.598916087039929e-06,
      "loss": 0.7142,
      "step": 813
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1683380381468929,
      "learning_rate": 8.595220130033278e-06,
      "loss": 0.7081,
      "step": 814
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8581324712869739,
      "learning_rate": 8.591520101169932e-06,
      "loss": 0.7247,
      "step": 815
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0170665380886896,
      "learning_rate": 8.587816004640456e-06,
      "loss": 0.7163,
      "step": 816
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.080149674215495,
      "learning_rate": 8.584107844640015e-06,
      "loss": 0.8025,
      "step": 817
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.7874259531828205,
      "learning_rate": 8.580395625368377e-06,
      "loss": 0.7568,
      "step": 818
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0175578863405101,
      "learning_rate": 8.57667935102991e-06,
      "loss": 0.8184,
      "step": 819
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9860131476873206,
      "learning_rate": 8.572959025833573e-06,
      "loss": 0.7303,
      "step": 820
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8544563084060365,
      "learning_rate": 8.569234653992916e-06,
      "loss": 0.6425,
      "step": 821
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.7191777647956874,
      "learning_rate": 8.565506239726068e-06,
      "loss": 0.6435,
      "step": 822
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9456406019026168,
      "learning_rate": 8.561773787255738e-06,
      "loss": 0.7071,
      "step": 823
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0389279861240206,
      "learning_rate": 8.558037300809209e-06,
      "loss": 0.7573,
      "step": 824
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.6580248355166234,
      "learning_rate": 8.554296784618331e-06,
      "loss": 0.6563,
      "step": 825
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9356785007636047,
      "learning_rate": 8.550552242919521e-06,
      "loss": 0.7509,
      "step": 826
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1214859478948043,
      "learning_rate": 8.546803679953754e-06,
      "loss": 0.7823,
      "step": 827
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0863546496004906,
      "learning_rate": 8.543051099966558e-06,
      "loss": 0.7657,
      "step": 828
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.908853446495658,
      "learning_rate": 8.539294507208011e-06,
      "loss": 0.7455,
      "step": 829
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9138522795872385,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.717,
      "step": 830
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9686861092821755,
      "learning_rate": 8.531769300399901e-06,
      "loss": 0.7419,
      "step": 831
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9274641210784149,
      "learning_rate": 8.5280006948732e-06,
      "loss": 0.6503,
      "step": 832
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8936852601284723,
      "learning_rate": 8.524228093620858e-06,
      "loss": 0.701,
      "step": 833
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9459077933738074,
      "learning_rate": 8.520451500915636e-06,
      "loss": 0.75,
      "step": 834
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9306840251720445,
      "learning_rate": 8.516670921034808e-06,
      "loss": 0.7531,
      "step": 835
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2610189857294263,
      "learning_rate": 8.512886358260162e-06,
      "loss": 0.7028,
      "step": 836
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0337521237552725,
      "learning_rate": 8.509097816877998e-06,
      "loss": 0.7171,
      "step": 837
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9209537266470418,
      "learning_rate": 8.505305301179126e-06,
      "loss": 0.8064,
      "step": 838
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9700007371181514,
      "learning_rate": 8.501508815458856e-06,
      "loss": 0.7652,
      "step": 839
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9717721992595474,
      "learning_rate": 8.49770836401699e-06,
      "loss": 0.7162,
      "step": 840
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8886206150346997,
      "learning_rate": 8.493903951157827e-06,
      "loss": 0.7525,
      "step": 841
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9985558256547368,
      "learning_rate": 8.490095581190149e-06,
      "loss": 0.7401,
      "step": 842
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7766103956579089,
      "learning_rate": 8.486283258427222e-06,
      "loss": 0.6104,
      "step": 843
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8805848592606387,
      "learning_rate": 8.482466987186785e-06,
      "loss": 0.6273,
      "step": 844
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8397287474179335,
      "learning_rate": 8.478646771791054e-06,
      "loss": 0.627,
      "step": 845
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9045368085575555,
      "learning_rate": 8.474822616566711e-06,
      "loss": 0.6838,
      "step": 846
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9642995259214991,
      "learning_rate": 8.470994525844895e-06,
      "loss": 0.7511,
      "step": 847
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9581407592387787,
      "learning_rate": 8.467162503961209e-06,
      "loss": 0.6891,
      "step": 848
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1414027049930155,
      "learning_rate": 8.463326555255705e-06,
      "loss": 0.7756,
      "step": 849
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8754512678696753,
      "learning_rate": 8.459486684072883e-06,
      "loss": 0.6917,
      "step": 850
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.877054071818956,
      "learning_rate": 8.455642894761684e-06,
      "loss": 0.6343,
      "step": 851
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8508258934128403,
      "learning_rate": 8.451795191675488e-06,
      "loss": 0.6154,
      "step": 852
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.932420417709588,
      "learning_rate": 8.44794357917211e-06,
      "loss": 0.7654,
      "step": 853
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9861935650095922,
      "learning_rate": 8.444088061613788e-06,
      "loss": 0.7554,
      "step": 854
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8864036957053009,
      "learning_rate": 8.440228643367188e-06,
      "loss": 0.6657,
      "step": 855
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9205429155991101,
      "learning_rate": 8.436365328803386e-06,
      "loss": 0.7285,
      "step": 856
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0364222320989553,
      "learning_rate": 8.432498122297879e-06,
      "loss": 0.7506,
      "step": 857
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.024523449596807,
      "learning_rate": 8.42862702823057e-06,
      "loss": 0.7788,
      "step": 858
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9323476768895136,
      "learning_rate": 8.424752050985759e-06,
      "loss": 0.7269,
      "step": 859
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8602515934741869,
      "learning_rate": 8.420873194952153e-06,
      "loss": 0.6698,
      "step": 860
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8654080803456099,
      "learning_rate": 8.416990464522847e-06,
      "loss": 0.6795,
      "step": 861
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8177637623296794,
      "learning_rate": 8.413103864095322e-06,
      "loss": 0.6359,
      "step": 862
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9652783090044615,
      "learning_rate": 8.409213398071448e-06,
      "loss": 0.7694,
      "step": 863
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8150450416881613,
      "learning_rate": 8.405319070857466e-06,
      "loss": 0.6603,
      "step": 864
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9003171229954026,
      "learning_rate": 8.401420886863998e-06,
      "loss": 0.7505,
      "step": 865
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7956268460092911,
      "learning_rate": 8.39751885050603e-06,
      "loss": 0.6689,
      "step": 866
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8144152306182175,
      "learning_rate": 8.393612966202907e-06,
      "loss": 0.6864,
      "step": 867
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0732357564450004,
      "learning_rate": 8.38970323837834e-06,
      "loss": 0.7495,
      "step": 868
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6762022489941486,
      "learning_rate": 8.385789671460387e-06,
      "loss": 0.6061,
      "step": 869
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1134607840647353,
      "learning_rate": 8.381872269881457e-06,
      "loss": 0.7758,
      "step": 870
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0778355777971047,
      "learning_rate": 8.377951038078303e-06,
      "loss": 0.7703,
      "step": 871
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8506141475793664,
      "learning_rate": 8.37402598049201e-06,
      "loss": 0.6917,
      "step": 872
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9195134181402745,
      "learning_rate": 8.370097101568007e-06,
      "loss": 0.7233,
      "step": 873
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1194588750225916,
      "learning_rate": 8.366164405756039e-06,
      "loss": 0.6823,
      "step": 874
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7405959228461672,
      "learning_rate": 8.36222789751018e-06,
      "loss": 0.6252,
      "step": 875
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9512243521698605,
      "learning_rate": 8.358287581288824e-06,
      "loss": 0.6779,
      "step": 876
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.064834985287162,
      "learning_rate": 8.35434346155467e-06,
      "loss": 0.7944,
      "step": 877
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8066817395227287,
      "learning_rate": 8.350395542774737e-06,
      "loss": 0.6904,
      "step": 878
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8832864352270612,
      "learning_rate": 8.34644382942033e-06,
      "loss": 0.7009,
      "step": 879
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9136466367388423,
      "learning_rate": 8.342488325967068e-06,
      "loss": 0.7122,
      "step": 880
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9113025994590201,
      "learning_rate": 8.338529036894855e-06,
      "loss": 0.6673,
      "step": 881
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.043634239858814,
      "learning_rate": 8.334565966687882e-06,
      "loss": 0.6463,
      "step": 882
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9727482810493359,
      "learning_rate": 8.330599119834622e-06,
      "loss": 0.6528,
      "step": 883
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9307125961555106,
      "learning_rate": 8.326628500827826e-06,
      "loss": 0.6952,
      "step": 884
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8644104176609234,
      "learning_rate": 8.322654114164524e-06,
      "loss": 0.6869,
      "step": 885
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7957372235125939,
      "learning_rate": 8.318675964346001e-06,
      "loss": 0.6715,
      "step": 886
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9252020544037995,
      "learning_rate": 8.314694055877814e-06,
      "loss": 0.7112,
      "step": 887
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.085175603487083,
      "learning_rate": 8.310708393269773e-06,
      "loss": 0.7642,
      "step": 888
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8158810538708322,
      "learning_rate": 8.306718981035937e-06,
      "loss": 0.6539,
      "step": 889
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8461616105441895,
      "learning_rate": 8.302725823694619e-06,
      "loss": 0.6443,
      "step": 890
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8602512186208899,
      "learning_rate": 8.298728925768367e-06,
      "loss": 0.6912,
      "step": 891
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9620207450502871,
      "learning_rate": 8.294728291783967e-06,
      "loss": 0.6456,
      "step": 892
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9468631348318748,
      "learning_rate": 8.290723926272439e-06,
      "loss": 0.7167,
      "step": 893
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1689976250139458,
      "learning_rate": 8.286715833769027e-06,
      "loss": 0.6874,
      "step": 894
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9783914080865138,
      "learning_rate": 8.282704018813199e-06,
      "loss": 0.7357,
      "step": 895
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.708955169154014,
      "learning_rate": 8.278688485948634e-06,
      "loss": 0.6028,
      "step": 896
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9758402034116606,
      "learning_rate": 8.274669239723223e-06,
      "loss": 0.7542,
      "step": 897
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7433768229984828,
      "learning_rate": 8.270646284689067e-06,
      "loss": 0.6118,
      "step": 898
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9535872845888176,
      "learning_rate": 8.266619625402465e-06,
      "loss": 0.7439,
      "step": 899
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.143770626776781,
      "learning_rate": 8.262589266423908e-06,
      "loss": 0.7512,
      "step": 900
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9466928416844992,
      "learning_rate": 8.258555212318083e-06,
      "loss": 0.7516,
      "step": 901
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8820131792063,
      "learning_rate": 8.254517467653858e-06,
      "loss": 0.7252,
      "step": 902
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9281764038863443,
      "learning_rate": 8.25047603700428e-06,
      "loss": 0.7875,
      "step": 903
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9014545994758599,
      "learning_rate": 8.246430924946575e-06,
      "loss": 0.6604,
      "step": 904
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.204887942542925,
      "learning_rate": 8.242382136062135e-06,
      "loss": 0.8034,
      "step": 905
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4488184897984615,
      "learning_rate": 8.238329674936518e-06,
      "loss": 0.7189,
      "step": 906
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9693645474007758,
      "learning_rate": 8.234273546159441e-06,
      "loss": 0.7231,
      "step": 907
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8827534150673573,
      "learning_rate": 8.230213754324773e-06,
      "loss": 0.7371,
      "step": 908
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0223862282915728,
      "learning_rate": 8.226150304030534e-06,
      "loss": 0.775,
      "step": 909
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8143639155648684,
      "learning_rate": 8.222083199878885e-06,
      "loss": 0.6342,
      "step": 910
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9685292284553088,
      "learning_rate": 8.218012446476128e-06,
      "loss": 0.8194,
      "step": 911
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9570510455433007,
      "learning_rate": 8.213938048432697e-06,
      "loss": 0.7051,
      "step": 912
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.937660699938855,
      "learning_rate": 8.209860010363153e-06,
      "loss": 0.722,
      "step": 913
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7753983116654974,
      "learning_rate": 8.205778336886182e-06,
      "loss": 0.6463,
      "step": 914
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7402942850667393,
      "learning_rate": 8.201693032624584e-06,
      "loss": 0.6322,
      "step": 915
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8986638007796093,
      "learning_rate": 8.19760410220527e-06,
      "loss": 0.6893,
      "step": 916
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8664857953711804,
      "learning_rate": 8.193511550259268e-06,
      "loss": 0.7165,
      "step": 917
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8275181232154956,
      "learning_rate": 8.189415381421693e-06,
      "loss": 0.6305,
      "step": 918
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7879290281179459,
      "learning_rate": 8.185315600331768e-06,
      "loss": 0.6903,
      "step": 919
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8636200013858588,
      "learning_rate": 8.1812122116328e-06,
      "loss": 0.5958,
      "step": 920
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9206312299645982,
      "learning_rate": 8.177105219972187e-06,
      "loss": 0.6435,
      "step": 921
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0438337136977287,
      "learning_rate": 8.172994630001405e-06,
      "loss": 0.7933,
      "step": 922
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1046840132099516,
      "learning_rate": 8.168880446376003e-06,
      "loss": 0.739,
      "step": 923
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9502040186194274,
      "learning_rate": 8.16476267375561e-06,
      "loss": 0.7548,
      "step": 924
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0072385151695344,
      "learning_rate": 8.160641316803904e-06,
      "loss": 0.7491,
      "step": 925
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6775179467533824,
      "learning_rate": 8.156516380188635e-06,
      "loss": 0.6285,
      "step": 926
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7472385948344997,
      "learning_rate": 8.152387868581606e-06,
      "loss": 0.6551,
      "step": 927
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7586257452375826,
      "learning_rate": 8.148255786658661e-06,
      "loss": 0.5965,
      "step": 928
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9227356745991939,
      "learning_rate": 8.144120139099697e-06,
      "loss": 0.6946,
      "step": 929
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0012297978535263,
      "learning_rate": 8.139980930588643e-06,
      "loss": 0.8109,
      "step": 930
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0314823714709955,
      "learning_rate": 8.135838165813465e-06,
      "loss": 0.7512,
      "step": 931
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0832979437370962,
      "learning_rate": 8.131691849466154e-06,
      "loss": 0.7634,
      "step": 932
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9507482155822826,
      "learning_rate": 8.127541986242726e-06,
      "loss": 0.6442,
      "step": 933
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9314814492580638,
      "learning_rate": 8.123388580843209e-06,
      "loss": 0.6515,
      "step": 934
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7866069422149394,
      "learning_rate": 8.119231637971651e-06,
      "loss": 0.6221,
      "step": 935
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.11041610246473,
      "learning_rate": 8.115071162336099e-06,
      "loss": 0.7444,
      "step": 936
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5967992764123887,
      "learning_rate": 8.110907158648605e-06,
      "loss": 0.6031,
      "step": 937
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.27952074575679,
      "learning_rate": 8.106739631625216e-06,
      "loss": 0.7733,
      "step": 938
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8994621599957671,
      "learning_rate": 8.102568585985968e-06,
      "loss": 0.7034,
      "step": 939
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8681933415894646,
      "learning_rate": 8.098394026454886e-06,
      "loss": 0.6609,
      "step": 940
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9726467912185958,
      "learning_rate": 8.09421595775997e-06,
      "loss": 0.7481,
      "step": 941
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9475716798410735,
      "learning_rate": 8.090034384633194e-06,
      "loss": 0.7436,
      "step": 942
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7630743073738241,
      "learning_rate": 8.08584931181051e-06,
      "loss": 0.6894,
      "step": 943
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8442094646733277,
      "learning_rate": 8.081660744031818e-06,
      "loss": 0.7462,
      "step": 944
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.494704607300498,
      "learning_rate": 8.077468686040994e-06,
      "loss": 0.7517,
      "step": 945
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8321047487397654,
      "learning_rate": 8.073273142585856e-06,
      "loss": 0.7104,
      "step": 946
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9068075087636333,
      "learning_rate": 8.06907411841817e-06,
      "loss": 0.7438,
      "step": 947
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8989933879922984,
      "learning_rate": 8.064871618293647e-06,
      "loss": 0.7094,
      "step": 948
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8898435507540571,
      "learning_rate": 8.060665646971934e-06,
      "loss": 0.7522,
      "step": 949
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0441783387957027,
      "learning_rate": 8.056456209216609e-06,
      "loss": 0.7522,
      "step": 950
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7851069582585241,
      "learning_rate": 8.052243309795175e-06,
      "loss": 0.6525,
      "step": 951
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8349033257643401,
      "learning_rate": 8.048026953479062e-06,
      "loss": 0.6453,
      "step": 952
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8368531351712711,
      "learning_rate": 8.043807145043604e-06,
      "loss": 0.6116,
      "step": 953
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9717838397307258,
      "learning_rate": 8.039583889268055e-06,
      "loss": 0.7166,
      "step": 954
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9781465623328525,
      "learning_rate": 8.035357190935565e-06,
      "loss": 0.7133,
      "step": 955
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8235746041869093,
      "learning_rate": 8.031127054833192e-06,
      "loss": 0.6363,
      "step": 956
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9134962872471852,
      "learning_rate": 8.026893485751877e-06,
      "loss": 0.6731,
      "step": 957
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.405635358292227,
      "learning_rate": 8.02265648848646e-06,
      "loss": 0.733,
      "step": 958
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0063558033469875,
      "learning_rate": 8.01841606783566e-06,
      "loss": 0.772,
      "step": 959
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8215025757382275,
      "learning_rate": 8.014172228602063e-06,
      "loss": 0.6445,
      "step": 960
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7731136256720291,
      "learning_rate": 8.009924975592145e-06,
      "loss": 0.6774,
      "step": 961
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0200416226279772,
      "learning_rate": 8.005674313616231e-06,
      "loss": 0.7852,
      "step": 962
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8893221521729463,
      "learning_rate": 8.00142024748852e-06,
      "loss": 0.6409,
      "step": 963
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9633660036927135,
      "learning_rate": 7.997162782027061e-06,
      "loss": 0.7364,
      "step": 964
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7680963950612176,
      "learning_rate": 7.992901922053751e-06,
      "loss": 0.6541,
      "step": 965
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8194573035242576,
      "learning_rate": 7.988637672394337e-06,
      "loss": 0.6951,
      "step": 966
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9778611083357927,
      "learning_rate": 7.984370037878396e-06,
      "loss": 0.7514,
      "step": 967
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9224410801292328,
      "learning_rate": 7.98009902333935e-06,
      "loss": 0.7101,
      "step": 968
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9129333827399044,
      "learning_rate": 7.975824633614443e-06,
      "loss": 0.666,
      "step": 969
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.828625983872654,
      "learning_rate": 7.971546873544737e-06,
      "loss": 0.6928,
      "step": 970
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.849023416114209,
      "learning_rate": 7.967265747975124e-06,
      "loss": 0.7589,
      "step": 971
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9635224716803372,
      "learning_rate": 7.962981261754295e-06,
      "loss": 0.7139,
      "step": 972
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0873840311305003,
      "learning_rate": 7.958693419734752e-06,
      "loss": 0.7639,
      "step": 973
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7023942571116759,
      "learning_rate": 7.954402226772804e-06,
      "loss": 0.6669,
      "step": 974
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7896724403762554,
      "learning_rate": 7.950107687728543e-06,
      "loss": 0.6691,
      "step": 975
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8890070311464883,
      "learning_rate": 7.945809807465857e-06,
      "loss": 0.6551,
      "step": 976
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9022965483296108,
      "learning_rate": 7.941508590852422e-06,
      "loss": 0.7389,
      "step": 977
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.6069406247516937,
      "learning_rate": 7.937204042759685e-06,
      "loss": 0.7382,
      "step": 978
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7978151642418594,
      "learning_rate": 7.932896168062874e-06,
      "loss": 0.7083,
      "step": 979
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.004368627578388,
      "learning_rate": 7.928584971640974e-06,
      "loss": 0.7674,
      "step": 980
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.904882436325364,
      "learning_rate": 7.924270458376746e-06,
      "loss": 0.7224,
      "step": 981
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.211926990451346,
      "learning_rate": 7.919952633156695e-06,
      "loss": 0.8172,
      "step": 982
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0399917164324948,
      "learning_rate": 7.915631500871084e-06,
      "loss": 0.7463,
      "step": 983
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9227538416084268,
      "learning_rate": 7.91130706641392e-06,
      "loss": 0.5913,
      "step": 984
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9700031636145278,
      "learning_rate": 7.906979334682948e-06,
      "loss": 0.7475,
      "step": 985
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.031292531060127,
      "learning_rate": 7.90264831057965e-06,
      "loss": 0.6847,
      "step": 986
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7846770636627572,
      "learning_rate": 7.898313999009238e-06,
      "loss": 0.6141,
      "step": 987
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9056597841076156,
      "learning_rate": 7.893976404880643e-06,
      "loss": 0.6272,
      "step": 988
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8953514143594252,
      "learning_rate": 7.889635533106515e-06,
      "loss": 0.635,
      "step": 989
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0268105796443436,
      "learning_rate": 7.88529138860322e-06,
      "loss": 0.7016,
      "step": 990
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9011894848302177,
      "learning_rate": 7.880943976290826e-06,
      "loss": 0.7582,
      "step": 991
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2689572567332472,
      "learning_rate": 7.876593301093104e-06,
      "loss": 0.7257,
      "step": 992
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1174675916575283,
      "learning_rate": 7.87223936793752e-06,
      "loss": 0.7232,
      "step": 993
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8302273294756617,
      "learning_rate": 7.86788218175523e-06,
      "loss": 0.6478,
      "step": 994
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.061931986269046,
      "learning_rate": 7.863521747481078e-06,
      "loss": 0.746,
      "step": 995
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1422847118886201,
      "learning_rate": 7.859158070053578e-06,
      "loss": 0.7678,
      "step": 996
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1783888998522787,
      "learning_rate": 7.854791154414925e-06,
      "loss": 0.785,
      "step": 997
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9249811747534014,
      "learning_rate": 7.850421005510977e-06,
      "loss": 0.7378,
      "step": 998
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8582742786733485,
      "learning_rate": 7.846047628291259e-06,
      "loss": 0.7376,
      "step": 999
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9870597056494438,
      "learning_rate": 7.841671027708945e-06,
      "loss": 0.728,
      "step": 1000
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9705973304058699,
      "learning_rate": 7.837291208720867e-06,
      "loss": 0.7712,
      "step": 1001
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.974329079116173,
      "learning_rate": 7.832908176287497e-06,
      "loss": 0.7838,
      "step": 1002
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9188260418782908,
      "learning_rate": 7.828521935372948e-06,
      "loss": 0.7954,
      "step": 1003
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8665551928725694,
      "learning_rate": 7.824132490944968e-06,
      "loss": 0.6466,
      "step": 1004
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.133122578346318,
      "learning_rate": 7.819739847974932e-06,
      "loss": 0.7652,
      "step": 1005
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.810961045141537,
      "learning_rate": 7.81534401143784e-06,
      "loss": 0.6959,
      "step": 1006
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9319972113856735,
      "learning_rate": 7.810944986312303e-06,
      "loss": 0.6984,
      "step": 1007
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8566103343811146,
      "learning_rate": 7.80654277758055e-06,
      "loss": 0.657,
      "step": 1008
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.928954607848739,
      "learning_rate": 7.802137390228413e-06,
      "loss": 0.69,
      "step": 1009
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0374109265253715,
      "learning_rate": 7.797728829245321e-06,
      "loss": 0.5816,
      "step": 1010
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9250648121268944,
      "learning_rate": 7.793317099624304e-06,
      "loss": 0.6617,
      "step": 1011
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7853364205230804,
      "learning_rate": 7.788902206361974e-06,
      "loss": 0.669,
      "step": 1012
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9383849339494661,
      "learning_rate": 7.784484154458529e-06,
      "loss": 0.6399,
      "step": 1013
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0894411243955822,
      "learning_rate": 7.780062948917748e-06,
      "loss": 0.8173,
      "step": 1014
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.966366714029576,
      "learning_rate": 7.775638594746975e-06,
      "loss": 0.7538,
      "step": 1015
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9033507900290397,
      "learning_rate": 7.771211096957125e-06,
      "loss": 0.77,
      "step": 1016
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0502306949570168,
      "learning_rate": 7.766780460562668e-06,
      "loss": 0.7286,
      "step": 1017
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.843321575820326,
      "learning_rate": 7.762346690581636e-06,
      "loss": 0.6672,
      "step": 1018
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1302175776062569,
      "learning_rate": 7.757909792035608e-06,
      "loss": 0.6895,
      "step": 1019
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8265639785718496,
      "learning_rate": 7.753469769949701e-06,
      "loss": 0.6145,
      "step": 1020
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9013930961953783,
      "learning_rate": 7.749026629352574e-06,
      "loss": 0.636,
      "step": 1021
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9497440116817533,
      "learning_rate": 7.744580375276416e-06,
      "loss": 0.7028,
      "step": 1022
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7909839399293098,
      "learning_rate": 7.740131012756949e-06,
      "loss": 0.6028,
      "step": 1023
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3318379019771578,
      "learning_rate": 7.735678546833403e-06,
      "loss": 0.7504,
      "step": 1024
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8759069917239254,
      "learning_rate": 7.731222982548534e-06,
      "loss": 0.6681,
      "step": 1025
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8856679238893236,
      "learning_rate": 7.726764324948603e-06,
      "loss": 0.6484,
      "step": 1026
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.909208604290572,
      "learning_rate": 7.722302579083372e-06,
      "loss": 0.7255,
      "step": 1027
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9500202530779447,
      "learning_rate": 7.717837750006106e-06,
      "loss": 0.7517,
      "step": 1028
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9116844049536561,
      "learning_rate": 7.713369842773559e-06,
      "loss": 0.7108,
      "step": 1029
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8804805092644559,
      "learning_rate": 7.708898862445968e-06,
      "loss": 0.7249,
      "step": 1030
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8713110650880412,
      "learning_rate": 7.704424814087056e-06,
      "loss": 0.6699,
      "step": 1031
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8114368630759585,
      "learning_rate": 7.699947702764021e-06,
      "loss": 0.6805,
      "step": 1032
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.9465951839913553,
      "learning_rate": 7.695467533547526e-06,
      "loss": 0.6998,
      "step": 1033
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8738253197372549,
      "learning_rate": 7.690984311511695e-06,
      "loss": 0.6677,
      "step": 1034
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1002926581537285,
      "learning_rate": 7.686498041734121e-06,
      "loss": 0.718,
      "step": 1035
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8301979562944767,
      "learning_rate": 7.682008729295834e-06,
      "loss": 0.6367,
      "step": 1036
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0056492310100085,
      "learning_rate": 7.67751637928132e-06,
      "loss": 0.6989,
      "step": 1037
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8672503042357487,
      "learning_rate": 7.673020996778507e-06,
      "loss": 0.642,
      "step": 1038
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4136020202846,
      "learning_rate": 7.668522586878747e-06,
      "loss": 0.8021,
      "step": 1039
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0102704890773655,
      "learning_rate": 7.664021154676828e-06,
      "loss": 0.7549,
      "step": 1040
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5104242700246981,
      "learning_rate": 7.659516705270964e-06,
      "loss": 0.7229,
      "step": 1041
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8154191032363686,
      "learning_rate": 7.655009243762779e-06,
      "loss": 0.6215,
      "step": 1042
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.212524164832106,
      "learning_rate": 7.650498775257308e-06,
      "loss": 0.6862,
      "step": 1043
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8363245237809855,
      "learning_rate": 7.645985304863004e-06,
      "loss": 0.6084,
      "step": 1044
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1099235839512749,
      "learning_rate": 7.641468837691704e-06,
      "loss": 0.7675,
      "step": 1045
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7739148611324879,
      "learning_rate": 7.636949378858647e-06,
      "loss": 0.6647,
      "step": 1046
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7158751997076467,
      "learning_rate": 7.632426933482463e-06,
      "loss": 0.6491,
      "step": 1047
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7977655743083355,
      "learning_rate": 7.627901506685157e-06,
      "loss": 0.6153,
      "step": 1048
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6897113200797294,
      "learning_rate": 7.623373103592117e-06,
      "loss": 0.6091,
      "step": 1049
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8229734490579687,
      "learning_rate": 7.618841729332096e-06,
      "loss": 0.6631,
      "step": 1050
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7459396332686614,
      "learning_rate": 7.614307389037221e-06,
      "loss": 0.603,
      "step": 1051
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0938299446435513,
      "learning_rate": 7.609770087842969e-06,
      "loss": 0.7366,
      "step": 1052
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0921518109280668,
      "learning_rate": 7.605229830888175e-06,
      "loss": 0.7835,
      "step": 1053
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.818430497706939,
      "learning_rate": 7.6006866233150185e-06,
      "loss": 0.618,
      "step": 1054
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9501924834237111,
      "learning_rate": 7.596140470269029e-06,
      "loss": 0.7441,
      "step": 1055
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7965619785188961,
      "learning_rate": 7.5915913768990615e-06,
      "loss": 0.6981,
      "step": 1056
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.844340447267052,
      "learning_rate": 7.587039348357306e-06,
      "loss": 0.6646,
      "step": 1057
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9152853578323623,
      "learning_rate": 7.582484389799279e-06,
      "loss": 0.7363,
      "step": 1058
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8035665682430074,
      "learning_rate": 7.57792650638381e-06,
      "loss": 0.6357,
      "step": 1059
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9431430004347304,
      "learning_rate": 7.573365703273045e-06,
      "loss": 0.7488,
      "step": 1060
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8050230366757506,
      "learning_rate": 7.568801985632439e-06,
      "loss": 0.648,
      "step": 1061
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9524028045765739,
      "learning_rate": 7.564235358630741e-06,
      "loss": 0.6654,
      "step": 1062
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9752393442802039,
      "learning_rate": 7.559665827439999e-06,
      "loss": 0.7578,
      "step": 1063
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9724902608337542,
      "learning_rate": 7.555093397235553e-06,
      "loss": 0.7527,
      "step": 1064
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6469136287879875,
      "learning_rate": 7.55051807319602e-06,
      "loss": 0.7531,
      "step": 1065
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8662073094153137,
      "learning_rate": 7.545939860503302e-06,
      "loss": 0.6559,
      "step": 1066
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8890954384786293,
      "learning_rate": 7.541358764342566e-06,
      "loss": 0.7338,
      "step": 1067
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0792362704186755,
      "learning_rate": 7.536774789902246e-06,
      "loss": 0.8012,
      "step": 1068
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0837162303880068,
      "learning_rate": 7.532187942374039e-06,
      "loss": 0.6997,
      "step": 1069
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.026592755036229,
      "learning_rate": 7.527598226952895e-06,
      "loss": 0.7187,
      "step": 1070
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7863059007958465,
      "learning_rate": 7.52300564883701e-06,
      "loss": 0.5977,
      "step": 1071
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7384253254008776,
      "learning_rate": 7.518410213227823e-06,
      "loss": 0.6061,
      "step": 1072
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9089874419584213,
      "learning_rate": 7.51381192533001e-06,
      "loss": 0.6583,
      "step": 1073
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8568724703553673,
      "learning_rate": 7.50921079035148e-06,
      "loss": 0.7089,
      "step": 1074
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8935967144398287,
      "learning_rate": 7.504606813503359e-06,
      "loss": 0.7155,
      "step": 1075
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.177515405685276,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.7841,
      "step": 1076
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7862162696872199,
      "learning_rate": 7.495390355058965e-06,
      "loss": 0.6403,
      "step": 1077
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9405343376484555,
      "learning_rate": 7.490777883901022e-06,
      "loss": 0.7443,
      "step": 1078
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0163541085292598,
      "learning_rate": 7.486162591750139e-06,
      "loss": 0.6957,
      "step": 1079
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5595790605636421,
      "learning_rate": 7.481544483833485e-06,
      "loss": 0.703,
      "step": 1080
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9082609500266354,
      "learning_rate": 7.476923565381409e-06,
      "loss": 0.736,
      "step": 1081
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0067447666928548,
      "learning_rate": 7.472299841627452e-06,
      "loss": 0.7445,
      "step": 1082
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.944084412954358,
      "learning_rate": 7.467673317808326e-06,
      "loss": 0.7261,
      "step": 1083
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9407865389119586,
      "learning_rate": 7.463043999163919e-06,
      "loss": 0.7628,
      "step": 1084
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.972617612745444,
      "learning_rate": 7.45841189093728e-06,
      "loss": 0.695,
      "step": 1085
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8423441957851442,
      "learning_rate": 7.4537769983746176e-06,
      "loss": 0.6065,
      "step": 1086
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7730882371777038,
      "learning_rate": 7.4491393267253e-06,
      "loss": 0.6094,
      "step": 1087
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7477512756927904,
      "learning_rate": 7.444498881241835e-06,
      "loss": 0.597,
      "step": 1088
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7651160245970264,
      "learning_rate": 7.439855667179878e-06,
      "loss": 0.5838,
      "step": 1089
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6935638124960063,
      "learning_rate": 7.435209689798214e-06,
      "loss": 0.6024,
      "step": 1090
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8722101984861733,
      "learning_rate": 7.430560954358764e-06,
      "loss": 0.6155,
      "step": 1091
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0909991585453236,
      "learning_rate": 7.4259094661265685e-06,
      "loss": 0.7542,
      "step": 1092
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1729315614099027,
      "learning_rate": 7.421255230369789e-06,
      "loss": 0.7705,
      "step": 1093
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9439698986365965,
      "learning_rate": 7.4165982523596945e-06,
      "loss": 0.7022,
      "step": 1094
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.997583684776027,
      "learning_rate": 7.411938537370665e-06,
      "loss": 0.7957,
      "step": 1095
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8712166532700081,
      "learning_rate": 7.407276090680173e-06,
      "loss": 0.7541,
      "step": 1096
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1142212883629505,
      "learning_rate": 7.402610917568794e-06,
      "loss": 0.7265,
      "step": 1097
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9105304168832924,
      "learning_rate": 7.397943023320185e-06,
      "loss": 0.6321,
      "step": 1098
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9323529477460326,
      "learning_rate": 7.393272413221087e-06,
      "loss": 0.7329,
      "step": 1099
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0688046099049788,
      "learning_rate": 7.388599092561315e-06,
      "loss": 0.8141,
      "step": 1100
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7779689280531896,
      "learning_rate": 7.383923066633757e-06,
      "loss": 0.6094,
      "step": 1101
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8873965075807425,
      "learning_rate": 7.379244340734364e-06,
      "loss": 0.7223,
      "step": 1102
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.89795582895129,
      "learning_rate": 7.374562920162143e-06,
      "loss": 0.6783,
      "step": 1103
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7814556912179295,
      "learning_rate": 7.369878810219154e-06,
      "loss": 0.6366,
      "step": 1104
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.938767519341432,
      "learning_rate": 7.365192016210504e-06,
      "loss": 0.7141,
      "step": 1105
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0428825502244334,
      "learning_rate": 7.360502543444339e-06,
      "loss": 0.7648,
      "step": 1106
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7268182651598812,
      "learning_rate": 7.355810397231839e-06,
      "loss": 0.6019,
      "step": 1107
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.455807200683037,
      "learning_rate": 7.351115582887212e-06,
      "loss": 0.7341,
      "step": 1108
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.150110067052891,
      "learning_rate": 7.3464181057276864e-06,
      "loss": 0.761,
      "step": 1109
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7543495461326115,
      "learning_rate": 7.341717971073508e-06,
      "loss": 0.6645,
      "step": 1110
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0444840772433732,
      "learning_rate": 7.337015184247934e-06,
      "loss": 0.7505,
      "step": 1111
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8388614578300346,
      "learning_rate": 7.3323097505772225e-06,
      "loss": 0.7168,
      "step": 1112
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8812233754311694,
      "learning_rate": 7.32760167539063e-06,
      "loss": 0.6168,
      "step": 1113
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9712896828740539,
      "learning_rate": 7.322890964020404e-06,
      "loss": 0.7341,
      "step": 1114
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9967638759973017,
      "learning_rate": 7.318177621801781e-06,
      "loss": 0.7646,
      "step": 1115
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9569169168197379,
      "learning_rate": 7.313461654072974e-06,
      "loss": 0.7759,
      "step": 1116
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.817537286565712,
      "learning_rate": 7.308743066175172e-06,
      "loss": 0.7167,
      "step": 1117
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9700718168003762,
      "learning_rate": 7.304021863452525e-06,
      "loss": 0.6658,
      "step": 1118
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8953052363997919,
      "learning_rate": 7.299298051252155e-06,
      "loss": 0.6389,
      "step": 1119
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8466793444364316,
      "learning_rate": 7.2945716349241305e-06,
      "loss": 0.6259,
      "step": 1120
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0907130030024321,
      "learning_rate": 7.289842619821475e-06,
      "loss": 0.7716,
      "step": 1121
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9872210378652979,
      "learning_rate": 7.285111011300153e-06,
      "loss": 0.7537,
      "step": 1122
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8376950733708952,
      "learning_rate": 7.280376814719065e-06,
      "loss": 0.6725,
      "step": 1123
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8535800594163141,
      "learning_rate": 7.2756400354400445e-06,
      "loss": 0.5872,
      "step": 1124
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.888125568750287,
      "learning_rate": 7.2709006788278505e-06,
      "loss": 0.6946,
      "step": 1125
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0844320451025062,
      "learning_rate": 7.266158750250158e-06,
      "loss": 0.7588,
      "step": 1126
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.945768924504554,
      "learning_rate": 7.261414255077561e-06,
      "loss": 0.7628,
      "step": 1127
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9339000501137578,
      "learning_rate": 7.2566671986835515e-06,
      "loss": 0.7113,
      "step": 1128
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7756302122881714,
      "learning_rate": 7.2519175864445305e-06,
      "loss": 0.6491,
      "step": 1129
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0307495282409678,
      "learning_rate": 7.24716542373979e-06,
      "loss": 0.6959,
      "step": 1130
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0598918084846884,
      "learning_rate": 7.242410715951511e-06,
      "loss": 0.7012,
      "step": 1131
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7600987341531262,
      "learning_rate": 7.237653468464756e-06,
      "loss": 0.5691,
      "step": 1132
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8332992597972549,
      "learning_rate": 7.232893686667466e-06,
      "loss": 0.6084,
      "step": 1133
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6475829917407575,
      "learning_rate": 7.22813137595045e-06,
      "loss": 0.5777,
      "step": 1134
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0914177046781302,
      "learning_rate": 7.223366541707384e-06,
      "loss": 0.6602,
      "step": 1135
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9910387069359556,
      "learning_rate": 7.218599189334799e-06,
      "loss": 0.8001,
      "step": 1136
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8258122377408001,
      "learning_rate": 7.21382932423208e-06,
      "loss": 0.642,
      "step": 1137
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8778320676221218,
      "learning_rate": 7.209056951801459e-06,
      "loss": 0.5874,
      "step": 1138
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9442573143552611,
      "learning_rate": 7.204282077448002e-06,
      "loss": 0.6106,
      "step": 1139
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8115732206564454,
      "learning_rate": 7.199504706579617e-06,
      "loss": 0.616,
      "step": 1140
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8617685249942293,
      "learning_rate": 7.194724844607033e-06,
      "loss": 0.7568,
      "step": 1141
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7654626617651684,
      "learning_rate": 7.189942496943803e-06,
      "loss": 0.6509,
      "step": 1142
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9312086972519162,
      "learning_rate": 7.185157669006294e-06,
      "loss": 0.667,
      "step": 1143
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.82126891635103,
      "learning_rate": 7.180370366213684e-06,
      "loss": 0.7726,
      "step": 1144
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9515329308725716,
      "learning_rate": 7.175580593987952e-06,
      "loss": 0.7166,
      "step": 1145
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0380274857886986,
      "learning_rate": 7.170788357753873e-06,
      "loss": 0.7155,
      "step": 1146
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1242621776094677,
      "learning_rate": 7.165993662939018e-06,
      "loss": 0.7415,
      "step": 1147
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8110672437738771,
      "learning_rate": 7.161196514973735e-06,
      "loss": 0.6275,
      "step": 1148
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8712197433491977,
      "learning_rate": 7.1563969192911576e-06,
      "loss": 0.6607,
      "step": 1149
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8841829718988797,
      "learning_rate": 7.1515948813271875e-06,
      "loss": 0.7107,
      "step": 1150
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9448793457039176,
      "learning_rate": 7.146790406520491e-06,
      "loss": 0.627,
      "step": 1151
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0129777221416154,
      "learning_rate": 7.141983500312498e-06,
      "loss": 0.7694,
      "step": 1152
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9053638559703849,
      "learning_rate": 7.137174168147392e-06,
      "loss": 0.7426,
      "step": 1153
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0049767317739093,
      "learning_rate": 7.132362415472099e-06,
      "loss": 0.7759,
      "step": 1154
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9579533833578865,
      "learning_rate": 7.1275482477362946e-06,
      "loss": 0.6581,
      "step": 1155
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7541508818434822,
      "learning_rate": 7.122731670392381e-06,
      "loss": 0.6758,
      "step": 1156
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0056936423246716,
      "learning_rate": 7.1179126888954954e-06,
      "loss": 0.7525,
      "step": 1157
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9883625073242448,
      "learning_rate": 7.113091308703498e-06,
      "loss": 0.7142,
      "step": 1158
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8067306436202474,
      "learning_rate": 7.108267535276962e-06,
      "loss": 0.5897,
      "step": 1159
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.07214525938258,
      "learning_rate": 7.1034413740791705e-06,
      "loss": 0.7074,
      "step": 1160
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9493280429087999,
      "learning_rate": 7.098612830576118e-06,
      "loss": 0.6651,
      "step": 1161
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9701752867400573,
      "learning_rate": 7.09378191023649e-06,
      "loss": 0.7221,
      "step": 1162
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9182286277746856,
      "learning_rate": 7.088948618531668e-06,
      "loss": 0.6672,
      "step": 1163
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8304075544562339,
      "learning_rate": 7.0841129609357165e-06,
      "loss": 0.6237,
      "step": 1164
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8042436034094411,
      "learning_rate": 7.0792749429253785e-06,
      "loss": 0.635,
      "step": 1165
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9863464538924,
      "learning_rate": 7.0744345699800755e-06,
      "loss": 0.7333,
      "step": 1166
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7962879936068573,
      "learning_rate": 7.069591847581894e-06,
      "loss": 0.668,
      "step": 1167
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7341793462548434,
      "learning_rate": 7.064746781215578e-06,
      "loss": 0.5783,
      "step": 1168
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0748049700775129,
      "learning_rate": 7.059899376368531e-06,
      "loss": 0.7421,
      "step": 1169
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1239673939023294,
      "learning_rate": 7.0550496385308e-06,
      "loss": 0.7435,
      "step": 1170
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0244298023608125,
      "learning_rate": 7.050197573195081e-06,
      "loss": 0.732,
      "step": 1171
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0026647677308174,
      "learning_rate": 7.045343185856701e-06,
      "loss": 0.7643,
      "step": 1172
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9558537460619185,
      "learning_rate": 7.0404864820136165e-06,
      "loss": 0.695,
      "step": 1173
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9372421985354504,
      "learning_rate": 7.03562746716641e-06,
      "loss": 0.7637,
      "step": 1174
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8522869049546169,
      "learning_rate": 7.030766146818281e-06,
      "loss": 0.6461,
      "step": 1175
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9401801510463269,
      "learning_rate": 7.025902526475039e-06,
      "loss": 0.6782,
      "step": 1176
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7623305165890508,
      "learning_rate": 7.0210366116451e-06,
      "loss": 0.5926,
      "step": 1177
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9464338878898477,
      "learning_rate": 7.016168407839478e-06,
      "loss": 0.7015,
      "step": 1178
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7207934035520798,
      "learning_rate": 7.011297920571779e-06,
      "loss": 0.6281,
      "step": 1179
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0240818604532134,
      "learning_rate": 7.006425155358195e-06,
      "loss": 0.7078,
      "step": 1180
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0876994021446786,
      "learning_rate": 7.001550117717499e-06,
      "loss": 0.7567,
      "step": 1181
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9338535324606905,
      "learning_rate": 6.996672813171036e-06,
      "loss": 0.6968,
      "step": 1182
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9278740737109873,
      "learning_rate": 6.991793247242719e-06,
      "loss": 0.7518,
      "step": 1183
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8329281719168367,
      "learning_rate": 6.986911425459028e-06,
      "loss": 0.6397,
      "step": 1184
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9247050759910437,
      "learning_rate": 6.982027353348985e-06,
      "loss": 0.6683,
      "step": 1185
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6391190577739315,
      "learning_rate": 6.977141036444174e-06,
      "loss": 0.6041,
      "step": 1186
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6973215986974778,
      "learning_rate": 6.9722524802787125e-06,
      "loss": 0.5676,
      "step": 1187
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9893589302904703,
      "learning_rate": 6.967361690389258e-06,
      "loss": 0.7597,
      "step": 1188
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8439466718835955,
      "learning_rate": 6.962468672314999e-06,
      "loss": 0.6801,
      "step": 1189
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8026861809354161,
      "learning_rate": 6.957573431597646e-06,
      "loss": 0.6524,
      "step": 1190
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9983414854488152,
      "learning_rate": 6.952675973781423e-06,
      "loss": 0.7236,
      "step": 1191
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8097532606176624,
      "learning_rate": 6.947776304413072e-06,
      "loss": 0.6817,
      "step": 1192
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.920322453524182,
      "learning_rate": 6.942874429041834e-06,
      "loss": 0.7281,
      "step": 1193
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0138958959930817,
      "learning_rate": 6.937970353219453e-06,
      "loss": 0.7179,
      "step": 1194
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8699484624789602,
      "learning_rate": 6.933064082500161e-06,
      "loss": 0.6769,
      "step": 1195
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8835120579005712,
      "learning_rate": 6.92815562244068e-06,
      "loss": 0.6387,
      "step": 1196
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7813242251322599,
      "learning_rate": 6.923244978600206e-06,
      "loss": 0.6269,
      "step": 1197
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9236429151593615,
      "learning_rate": 6.918332156540417e-06,
      "loss": 0.7113,
      "step": 1198
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8048198429181387,
      "learning_rate": 6.913417161825449e-06,
      "loss": 0.6215,
      "step": 1199
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0086210370066702,
      "learning_rate": 6.908500000021905e-06,
      "loss": 0.6738,
      "step": 1200
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.097601180885866,
      "learning_rate": 6.903580676698838e-06,
      "loss": 0.7622,
      "step": 1201
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9355645407886746,
      "learning_rate": 6.898659197427748e-06,
      "loss": 0.7186,
      "step": 1202
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0434469459109554,
      "learning_rate": 6.893735567782587e-06,
      "loss": 0.7358,
      "step": 1203
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8675887485693239,
      "learning_rate": 6.888809793339729e-06,
      "loss": 0.7738,
      "step": 1204
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.036598119651261,
      "learning_rate": 6.8838818796779875e-06,
      "loss": 0.6456,
      "step": 1205
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6676677349234922,
      "learning_rate": 6.878951832378591e-06,
      "loss": 0.6806,
      "step": 1206
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8735871788862302,
      "learning_rate": 6.87401965702519e-06,
      "loss": 0.5758,
      "step": 1207
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8952960605467231,
      "learning_rate": 6.869085359203844e-06,
      "loss": 0.6871,
      "step": 1208
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0013167785616934,
      "learning_rate": 6.864148944503016e-06,
      "loss": 0.7318,
      "step": 1209
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9146626118997959,
      "learning_rate": 6.859210418513564e-06,
      "loss": 0.7058,
      "step": 1210
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6538954096026602,
      "learning_rate": 6.854269786828741e-06,
      "loss": 0.6074,
      "step": 1211
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8673162744368557,
      "learning_rate": 6.849327055044182e-06,
      "loss": 0.7269,
      "step": 1212
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9420622142384315,
      "learning_rate": 6.844382228757904e-06,
      "loss": 0.6974,
      "step": 1213
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9829663804069239,
      "learning_rate": 6.839435313570293e-06,
      "loss": 0.723,
      "step": 1214
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9186620387112415,
      "learning_rate": 6.834486315084101e-06,
      "loss": 0.7352,
      "step": 1215
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.877591540710803,
      "learning_rate": 6.82953523890444e-06,
      "loss": 0.635,
      "step": 1216
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9746319125608782,
      "learning_rate": 6.824582090638777e-06,
      "loss": 0.7321,
      "step": 1217
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8433976127996853,
      "learning_rate": 6.819626875896924e-06,
      "loss": 0.7116,
      "step": 1218
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1075628112120117,
      "learning_rate": 6.814669600291033e-06,
      "loss": 0.7714,
      "step": 1219
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0356027505220358,
      "learning_rate": 6.80971026943559e-06,
      "loss": 0.6793,
      "step": 1220
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8770793989675104,
      "learning_rate": 6.804748888947412e-06,
      "loss": 0.6885,
      "step": 1221
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0773052712814832,
      "learning_rate": 6.799785464445633e-06,
      "loss": 0.706,
      "step": 1222
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0792916234075012,
      "learning_rate": 6.794820001551703e-06,
      "loss": 0.7575,
      "step": 1223
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8590891449525122,
      "learning_rate": 6.789852505889384e-06,
      "loss": 0.6802,
      "step": 1224
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0854541798465078,
      "learning_rate": 6.784882983084735e-06,
      "loss": 0.7168,
      "step": 1225
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0127297994904971,
      "learning_rate": 6.779911438766117e-06,
      "loss": 0.7477,
      "step": 1226
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9547922757196862,
      "learning_rate": 6.774937878564175e-06,
      "loss": 0.7513,
      "step": 1227
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0551572985864954,
      "learning_rate": 6.769962308111839e-06,
      "loss": 0.7788,
      "step": 1228
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9801168328180616,
      "learning_rate": 6.764984733044316e-06,
      "loss": 0.7311,
      "step": 1229
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8887767929107301,
      "learning_rate": 6.7600051589990855e-06,
      "loss": 0.7007,
      "step": 1230
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9219332354640885,
      "learning_rate": 6.755023591615887e-06,
      "loss": 0.7391,
      "step": 1231
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8495690185947141,
      "learning_rate": 6.750040036536718e-06,
      "loss": 0.6978,
      "step": 1232
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.037552873090279,
      "learning_rate": 6.745054499405833e-06,
      "loss": 0.7397,
      "step": 1233
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.880077407682643,
      "learning_rate": 6.740066985869724e-06,
      "loss": 0.6748,
      "step": 1234
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9196271601455689,
      "learning_rate": 6.735077501577126e-06,
      "loss": 0.6985,
      "step": 1235
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7538208597881543,
      "learning_rate": 6.7300860521790034e-06,
      "loss": 0.6412,
      "step": 1236
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6806378510786095,
      "learning_rate": 6.725092643328548e-06,
      "loss": 0.5749,
      "step": 1237
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9996323761836986,
      "learning_rate": 6.72009728068117e-06,
      "loss": 0.723,
      "step": 1238
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.973895598862676,
      "learning_rate": 6.715099969894492e-06,
      "loss": 0.7962,
      "step": 1239
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9517173125349375,
      "learning_rate": 6.710100716628345e-06,
      "loss": 0.646,
      "step": 1240
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9023810748466781,
      "learning_rate": 6.705099526544757e-06,
      "loss": 0.7331,
      "step": 1241
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9626059508188719,
      "learning_rate": 6.700096405307952e-06,
      "loss": 0.7015,
      "step": 1242
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8713461076366035,
      "learning_rate": 6.69509135858434e-06,
      "loss": 0.6252,
      "step": 1243
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.886726159175274,
      "learning_rate": 6.690084392042514e-06,
      "loss": 0.7008,
      "step": 1244
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7271506850481048,
      "learning_rate": 6.6850755113532385e-06,
      "loss": 0.6317,
      "step": 1245
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8493408575410432,
      "learning_rate": 6.680064722189445e-06,
      "loss": 0.6385,
      "step": 1246
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8568033403074331,
      "learning_rate": 6.675052030226231e-06,
      "loss": 0.6268,
      "step": 1247
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8402129799512812,
      "learning_rate": 6.670037441140844e-06,
      "loss": 0.6197,
      "step": 1248
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0178879562207628,
      "learning_rate": 6.665020960612685e-06,
      "loss": 0.7531,
      "step": 1249
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.113820451201795,
      "learning_rate": 6.6600025943232935e-06,
      "loss": 0.7175,
      "step": 1250
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9658603582396702,
      "learning_rate": 6.6549823479563445e-06,
      "loss": 0.6664,
      "step": 1251
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8781923802410605,
      "learning_rate": 6.649960227197648e-06,
      "loss": 0.7343,
      "step": 1252
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7589007187648978,
      "learning_rate": 6.644936237735129e-06,
      "loss": 0.5656,
      "step": 1253
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8586165641216511,
      "learning_rate": 6.639910385258834e-06,
      "loss": 0.6488,
      "step": 1254
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2117091249826124,
      "learning_rate": 6.6348826754609195e-06,
      "loss": 0.8016,
      "step": 1255
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8338023606885074,
      "learning_rate": 6.629853114035643e-06,
      "loss": 0.6751,
      "step": 1256
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.896958996279347,
      "learning_rate": 6.62482170667936e-06,
      "loss": 0.6142,
      "step": 1257
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7425209585814274,
      "learning_rate": 6.619788459090517e-06,
      "loss": 0.6142,
      "step": 1258
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9733060795610079,
      "learning_rate": 6.614753376969647e-06,
      "loss": 0.7131,
      "step": 1259
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.6199520261828958,
      "learning_rate": 6.609716466019356e-06,
      "loss": 0.5698,
      "step": 1260
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0393263713121925,
      "learning_rate": 6.604677731944323e-06,
      "loss": 0.7331,
      "step": 1261
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8725479349836519,
      "learning_rate": 6.599637180451295e-06,
      "loss": 0.6413,
      "step": 1262
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9787825077509138,
      "learning_rate": 6.594594817249075e-06,
      "loss": 0.6556,
      "step": 1263
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9216213409276987,
      "learning_rate": 6.589550648048517e-06,
      "loss": 0.7477,
      "step": 1264
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0088033324717152,
      "learning_rate": 6.584504678562521e-06,
      "loss": 0.8039,
      "step": 1265
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7918532573141767,
      "learning_rate": 6.5794569145060264e-06,
      "loss": 0.5922,
      "step": 1266
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9239326463620332,
      "learning_rate": 6.574407361596005e-06,
      "loss": 0.718,
      "step": 1267
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.7351123424081112,
      "learning_rate": 6.569356025551454e-06,
      "loss": 0.6954,
      "step": 1268
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9406513463973131,
      "learning_rate": 6.564302912093393e-06,
      "loss": 0.7095,
      "step": 1269
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0240184199629905,
      "learning_rate": 6.5592480269448485e-06,
      "loss": 0.7752,
      "step": 1270
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8523336403427227,
      "learning_rate": 6.554191375830861e-06,
      "loss": 0.6818,
      "step": 1271
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9793794455204712,
      "learning_rate": 6.5491329644784655e-06,
      "loss": 0.7605,
      "step": 1272
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9986829358388158,
      "learning_rate": 6.544072798616694e-06,
      "loss": 0.5964,
      "step": 1273
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8970941898922052,
      "learning_rate": 6.539010883976562e-06,
      "loss": 0.7099,
      "step": 1274
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9903332455696136,
      "learning_rate": 6.53394722629107e-06,
      "loss": 0.7265,
      "step": 1275
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9885080455998007,
      "learning_rate": 6.5288818312951886e-06,
      "loss": 0.6916,
      "step": 1276
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9449509989430815,
      "learning_rate": 6.523814704725861e-06,
      "loss": 0.7444,
      "step": 1277
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.7642434063668184,
      "learning_rate": 6.518745852321985e-06,
      "loss": 0.705,
      "step": 1278
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7910744425771578,
      "learning_rate": 6.513675279824416e-06,
      "loss": 0.7041,
      "step": 1279
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.097005341787574,
      "learning_rate": 6.508602992975963e-06,
      "loss": 0.7411,
      "step": 1280
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9834634622259628,
      "learning_rate": 6.503528997521365e-06,
      "loss": 0.79,
      "step": 1281
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.073099849099574,
      "learning_rate": 6.4984532992073094e-06,
      "loss": 0.782,
      "step": 1282
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9760049837008934,
      "learning_rate": 6.493375903782402e-06,
      "loss": 0.7611,
      "step": 1283
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7755485148082963,
      "learning_rate": 6.4882968169971734e-06,
      "loss": 0.6055,
      "step": 1284
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8744706990517616,
      "learning_rate": 6.483216044604073e-06,
      "loss": 0.6846,
      "step": 1285
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.866402976533234,
      "learning_rate": 6.478133592357455e-06,
      "loss": 0.6687,
      "step": 1286
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8940782682563351,
      "learning_rate": 6.473049466013579e-06,
      "loss": 0.7279,
      "step": 1287
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1211796123193938,
      "learning_rate": 6.467963671330602e-06,
      "loss": 0.7467,
      "step": 1288
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8094468194289489,
      "learning_rate": 6.462876214068563e-06,
      "loss": 0.6966,
      "step": 1289
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9519848923134762,
      "learning_rate": 6.457787099989392e-06,
      "loss": 0.746,
      "step": 1290
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9350205963566842,
      "learning_rate": 6.452696334856895e-06,
      "loss": 0.7554,
      "step": 1291
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9317173468053732,
      "learning_rate": 6.447603924436744e-06,
      "loss": 0.7546,
      "step": 1292
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7500378500904032,
      "learning_rate": 6.442509874496475e-06,
      "loss": 0.6945,
      "step": 1293
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8027069512254718,
      "learning_rate": 6.437414190805482e-06,
      "loss": 0.624,
      "step": 1294
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8063683414473589,
      "learning_rate": 6.432316879135012e-06,
      "loss": 0.6383,
      "step": 1295
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9416080594999057,
      "learning_rate": 6.4272179452581505e-06,
      "loss": 0.7445,
      "step": 1296
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9606283817433832,
      "learning_rate": 6.422117394949824e-06,
      "loss": 0.7294,
      "step": 1297
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7780351225814401,
      "learning_rate": 6.417015233986786e-06,
      "loss": 0.6255,
      "step": 1298
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1083978227315923,
      "learning_rate": 6.41191146814762e-06,
      "loss": 0.6629,
      "step": 1299
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9448061278669595,
      "learning_rate": 6.406806103212725e-06,
      "loss": 0.6445,
      "step": 1300
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9349880099520822,
      "learning_rate": 6.401699144964306e-06,
      "loss": 0.7819,
      "step": 1301
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8160239404273874,
      "learning_rate": 6.3965905991863805e-06,
      "loss": 0.6592,
      "step": 1302
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.852113567477994,
      "learning_rate": 6.391480471664757e-06,
      "loss": 0.6775,
      "step": 1303
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9582682323244194,
      "learning_rate": 6.38636876818704e-06,
      "loss": 0.6445,
      "step": 1304
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8902605374579277,
      "learning_rate": 6.381255494542618e-06,
      "loss": 0.6804,
      "step": 1305
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7387509405188971,
      "learning_rate": 6.376140656522656e-06,
      "loss": 0.603,
      "step": 1306
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9293295782067776,
      "learning_rate": 6.371024259920091e-06,
      "loss": 0.6564,
      "step": 1307
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9906528278780758,
      "learning_rate": 6.365906310529631e-06,
      "loss": 0.7201,
      "step": 1308
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8079682121689202,
      "learning_rate": 6.360786814147731e-06,
      "loss": 0.6258,
      "step": 1309
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.938746613636512,
      "learning_rate": 6.3556657765726116e-06,
      "loss": 0.722,
      "step": 1310
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9318848665309428,
      "learning_rate": 6.350543203604228e-06,
      "loss": 0.6949,
      "step": 1311
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8720512912187814,
      "learning_rate": 6.345419101044281e-06,
      "loss": 0.7511,
      "step": 1312
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.061200496526882,
      "learning_rate": 6.340293474696198e-06,
      "loss": 0.7279,
      "step": 1313
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7362067307978787,
      "learning_rate": 6.335166330365141e-06,
      "loss": 0.6298,
      "step": 1314
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0830730468645564,
      "learning_rate": 6.330037673857982e-06,
      "loss": 0.7726,
      "step": 1315
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8293938020758028,
      "learning_rate": 6.32490751098331e-06,
      "loss": 0.6255,
      "step": 1316
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8040962741777141,
      "learning_rate": 6.3197758475514195e-06,
      "loss": 0.6388,
      "step": 1317
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8821557226746936,
      "learning_rate": 6.314642689374304e-06,
      "loss": 0.6602,
      "step": 1318
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.755291666076762,
      "learning_rate": 6.309508042265654e-06,
      "loss": 0.6158,
      "step": 1319
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8024631391464574,
      "learning_rate": 6.30437191204084e-06,
      "loss": 0.7076,
      "step": 1320
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9848978787179368,
      "learning_rate": 6.299234304516914e-06,
      "loss": 0.7953,
      "step": 1321
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9903015428329509,
      "learning_rate": 6.294095225512604e-06,
      "loss": 0.7519,
      "step": 1322
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8972528031634136,
      "learning_rate": 6.288954680848303e-06,
      "loss": 0.8049,
      "step": 1323
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.877050873184051,
      "learning_rate": 6.2838126763460635e-06,
      "loss": 0.711,
      "step": 1324
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8977638030348386,
      "learning_rate": 6.27866921782959e-06,
      "loss": 0.7247,
      "step": 1325
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8695994731062605,
      "learning_rate": 6.273524311124237e-06,
      "loss": 0.6416,
      "step": 1326
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8598894562195025,
      "learning_rate": 6.268377962056999e-06,
      "loss": 0.634,
      "step": 1327
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9219800231449142,
      "learning_rate": 6.263230176456497e-06,
      "loss": 0.7403,
      "step": 1328
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7560928860413139,
      "learning_rate": 6.258080960152991e-06,
      "loss": 0.6544,
      "step": 1329
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0663806367239468,
      "learning_rate": 6.252930318978353e-06,
      "loss": 0.6854,
      "step": 1330
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9521730398487932,
      "learning_rate": 6.247778258766069e-06,
      "loss": 0.6624,
      "step": 1331
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.796005318815377,
      "learning_rate": 6.2426247853512355e-06,
      "loss": 0.6654,
      "step": 1332
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6860799493889342,
      "learning_rate": 6.237469904570549e-06,
      "loss": 0.6438,
      "step": 1333
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9676207467144355,
      "learning_rate": 6.232313622262297e-06,
      "loss": 0.7034,
      "step": 1334
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0288770892572687,
      "learning_rate": 6.227155944266358e-06,
      "loss": 0.7007,
      "step": 1335
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0300317145065871,
      "learning_rate": 6.221996876424186e-06,
      "loss": 0.7131,
      "step": 1336
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.94580937415699,
      "learning_rate": 6.216836424578816e-06,
      "loss": 0.7377,
      "step": 1337
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9757228366059562,
      "learning_rate": 6.211674594574847e-06,
      "loss": 0.6216,
      "step": 1338
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0247805645576096,
      "learning_rate": 6.206511392258439e-06,
      "loss": 0.7354,
      "step": 1339
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0252185876846367,
      "learning_rate": 6.2013468234773034e-06,
      "loss": 0.7352,
      "step": 1340
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9535727882541695,
      "learning_rate": 6.196180894080707e-06,
      "loss": 0.6909,
      "step": 1341
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9229310488346462,
      "learning_rate": 6.191013609919448e-06,
      "loss": 0.7259,
      "step": 1342
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.461021161306806,
      "learning_rate": 6.185844976845866e-06,
      "loss": 0.7541,
      "step": 1343
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9316980429486661,
      "learning_rate": 6.180675000713825e-06,
      "loss": 0.755,
      "step": 1344
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9339360502204845,
      "learning_rate": 6.175503687378711e-06,
      "loss": 0.7278,
      "step": 1345
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1997107103708968,
      "learning_rate": 6.170331042697425e-06,
      "loss": 0.7427,
      "step": 1346
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8575602546235129,
      "learning_rate": 6.1651570725283774e-06,
      "loss": 0.6735,
      "step": 1347
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.188722528298823,
      "learning_rate": 6.1599817827314744e-06,
      "loss": 0.7927,
      "step": 1348
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8577034035762693,
      "learning_rate": 6.154805179168122e-06,
      "loss": 0.7217,
      "step": 1349
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9282120608166997,
      "learning_rate": 6.149627267701212e-06,
      "loss": 0.7011,
      "step": 1350
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8885976708921174,
      "learning_rate": 6.144448054195119e-06,
      "loss": 0.7092,
      "step": 1351
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9206673804857626,
      "learning_rate": 6.139267544515689e-06,
      "loss": 0.6658,
      "step": 1352
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0234824123260096,
      "learning_rate": 6.1340857445302395e-06,
      "loss": 0.7982,
      "step": 1353
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7913575147299087,
      "learning_rate": 6.128902660107547e-06,
      "loss": 0.6553,
      "step": 1354
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9559846443511354,
      "learning_rate": 6.123718297117844e-06,
      "loss": 0.7787,
      "step": 1355
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7712575471886937,
      "learning_rate": 6.118532661432812e-06,
      "loss": 0.5951,
      "step": 1356
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0945762341437777,
      "learning_rate": 6.113345758925572e-06,
      "loss": 0.735,
      "step": 1357
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2279292722316335,
      "learning_rate": 6.10815759547068e-06,
      "loss": 0.7134,
      "step": 1358
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1738193847904372,
      "learning_rate": 6.1029681769441195e-06,
      "loss": 0.7506,
      "step": 1359
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9439502432310031,
      "learning_rate": 6.097777509223299e-06,
      "loss": 0.7616,
      "step": 1360
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7837947938193858,
      "learning_rate": 6.09258559818704e-06,
      "loss": 0.624,
      "step": 1361
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9247832479369728,
      "learning_rate": 6.087392449715568e-06,
      "loss": 0.7085,
      "step": 1362
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9920936602358725,
      "learning_rate": 6.0821980696905145e-06,
      "loss": 0.8144,
      "step": 1363
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.938041390806714,
      "learning_rate": 6.077002463994908e-06,
      "loss": 0.7406,
      "step": 1364
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9211576368934901,
      "learning_rate": 6.0718056385131575e-06,
      "loss": 0.749,
      "step": 1365
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9932182253753432,
      "learning_rate": 6.066607599131061e-06,
      "loss": 0.6449,
      "step": 1366
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9295816953559248,
      "learning_rate": 6.061408351735787e-06,
      "loss": 0.7292,
      "step": 1367
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.898534615445679,
      "learning_rate": 6.056207902215874e-06,
      "loss": 0.7399,
      "step": 1368
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0381373342065825,
      "learning_rate": 6.051006256461221e-06,
      "loss": 0.7318,
      "step": 1369
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.702322311746769,
      "learning_rate": 6.045803420363085e-06,
      "loss": 0.555,
      "step": 1370
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0331336849213022,
      "learning_rate": 6.040599399814064e-06,
      "loss": 0.6972,
      "step": 1371
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9623180703848276,
      "learning_rate": 6.035394200708104e-06,
      "loss": 0.7342,
      "step": 1372
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9020805507201409,
      "learning_rate": 6.030187828940485e-06,
      "loss": 0.7108,
      "step": 1373
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.347083073976784,
      "learning_rate": 6.024980290407813e-06,
      "loss": 0.7329,
      "step": 1374
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3711373255919375,
      "learning_rate": 6.019771591008015e-06,
      "loss": 0.7002,
      "step": 1375
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7678728407573037,
      "learning_rate": 6.014561736640334e-06,
      "loss": 0.6018,
      "step": 1376
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9906988939995366,
      "learning_rate": 6.009350733205324e-06,
      "loss": 0.7086,
      "step": 1377
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1257454290874427,
      "learning_rate": 6.0041385866048356e-06,
      "loss": 0.7421,
      "step": 1378
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9872792774044387,
      "learning_rate": 5.998925302742017e-06,
      "loss": 0.7255,
      "step": 1379
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8714429930328871,
      "learning_rate": 5.993710887521302e-06,
      "loss": 0.7172,
      "step": 1380
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.001513292984342,
      "learning_rate": 5.988495346848409e-06,
      "loss": 0.7076,
      "step": 1381
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8107716511146561,
      "learning_rate": 5.983278686630327e-06,
      "loss": 0.6144,
      "step": 1382
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.073704031600852,
      "learning_rate": 5.978060912775319e-06,
      "loss": 0.7761,
      "step": 1383
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8374266840942752,
      "learning_rate": 5.972842031192901e-06,
      "loss": 0.5892,
      "step": 1384
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9489782105691024,
      "learning_rate": 5.967622047793853e-06,
      "loss": 0.7329,
      "step": 1385
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3805670782202404,
      "learning_rate": 5.962400968490194e-06,
      "loss": 0.7654,
      "step": 1386
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8849206903025459,
      "learning_rate": 5.957178799195191e-06,
      "loss": 0.7502,
      "step": 1387
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7801270011667383,
      "learning_rate": 5.951955545823342e-06,
      "loss": 0.6354,
      "step": 1388
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8600999465085732,
      "learning_rate": 5.946731214290373e-06,
      "loss": 0.7405,
      "step": 1389
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8819325209728376,
      "learning_rate": 5.941505810513233e-06,
      "loss": 0.7276,
      "step": 1390
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9437937780995936,
      "learning_rate": 5.936279340410082e-06,
      "loss": 0.7333,
      "step": 1391
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0264670466561971,
      "learning_rate": 5.93105180990029e-06,
      "loss": 0.7634,
      "step": 1392
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.760975547333307,
      "learning_rate": 5.925823224904429e-06,
      "loss": 0.6659,
      "step": 1393
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3897782044677918,
      "learning_rate": 5.920593591344264e-06,
      "loss": 0.7584,
      "step": 1394
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8298429238378328,
      "learning_rate": 5.9153629151427475e-06,
      "loss": 0.6441,
      "step": 1395
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9737226371672838,
      "learning_rate": 5.910131202224011e-06,
      "loss": 0.7266,
      "step": 1396
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8614543780633536,
      "learning_rate": 5.904898458513365e-06,
      "loss": 0.6894,
      "step": 1397
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0814058146156023,
      "learning_rate": 5.899664689937283e-06,
      "loss": 0.711,
      "step": 1398
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3981978266747324,
      "learning_rate": 5.894429902423402e-06,
      "loss": 0.7141,
      "step": 1399
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7771368584971629,
      "learning_rate": 5.8891941019005095e-06,
      "loss": 0.6242,
      "step": 1400
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9527907244480097,
      "learning_rate": 5.883957294298545e-06,
      "loss": 0.7292,
      "step": 1401
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9190052328496556,
      "learning_rate": 5.8787194855485855e-06,
      "loss": 0.6567,
      "step": 1402
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.059134488821524,
      "learning_rate": 5.87348068158284e-06,
      "loss": 0.7903,
      "step": 1403
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0128600265977636,
      "learning_rate": 5.8682408883346535e-06,
      "loss": 0.6672,
      "step": 1404
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.987437995510074,
      "learning_rate": 5.863000111738479e-06,
      "loss": 0.69,
      "step": 1405
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9935482458275721,
      "learning_rate": 5.857758357729892e-06,
      "loss": 0.7561,
      "step": 1406
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8705710274720655,
      "learning_rate": 5.852515632245574e-06,
      "loss": 0.644,
      "step": 1407
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7891325957610946,
      "learning_rate": 5.847271941223301e-06,
      "loss": 0.6333,
      "step": 1408
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0162842011191504,
      "learning_rate": 5.8420272906019506e-06,
      "loss": 0.7644,
      "step": 1409
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9739232413701088,
      "learning_rate": 5.8367816863214825e-06,
      "loss": 0.7102,
      "step": 1410
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0473983861999248,
      "learning_rate": 5.831535134322935e-06,
      "loss": 0.7218,
      "step": 1411
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8025137257343645,
      "learning_rate": 5.826287640548425e-06,
      "loss": 0.612,
      "step": 1412
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9942841286284062,
      "learning_rate": 5.821039210941133e-06,
      "loss": 0.7878,
      "step": 1413
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0485451967172223,
      "learning_rate": 5.815789851445296e-06,
      "loss": 0.6924,
      "step": 1414
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9047554756034356,
      "learning_rate": 5.810539568006213e-06,
      "loss": 0.7547,
      "step": 1415
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8357943647719772,
      "learning_rate": 5.80528836657022e-06,
      "loss": 0.6344,
      "step": 1416
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8283414881367136,
      "learning_rate": 5.800036253084699e-06,
      "loss": 0.6834,
      "step": 1417
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0877195221313123,
      "learning_rate": 5.794783233498062e-06,
      "loss": 0.7617,
      "step": 1418
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9128354177788677,
      "learning_rate": 5.789529313759746e-06,
      "loss": 0.7264,
      "step": 1419
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8771596873137159,
      "learning_rate": 5.784274499820214e-06,
      "loss": 0.6114,
      "step": 1420
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9602330735202569,
      "learning_rate": 5.779018797630934e-06,
      "loss": 0.6328,
      "step": 1421
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.758215473155901,
      "learning_rate": 5.773762213144384e-06,
      "loss": 0.6664,
      "step": 1422
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.555278722918652,
      "learning_rate": 5.76850475231404e-06,
      "loss": 0.7248,
      "step": 1423
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9909787142688735,
      "learning_rate": 5.763246421094373e-06,
      "loss": 0.7103,
      "step": 1424
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7703046706148527,
      "learning_rate": 5.757987225440836e-06,
      "loss": 0.5805,
      "step": 1425
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9470894023010181,
      "learning_rate": 5.7527271713098645e-06,
      "loss": 0.7481,
      "step": 1426
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.3070998441306108,
      "learning_rate": 5.747466264658863e-06,
      "loss": 0.7304,
      "step": 1427
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.00845173919377,
      "learning_rate": 5.742204511446203e-06,
      "loss": 0.6385,
      "step": 1428
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7402908658079272,
      "learning_rate": 5.736941917631217e-06,
      "loss": 0.6311,
      "step": 1429
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8646131811354621,
      "learning_rate": 5.731678489174186e-06,
      "loss": 0.6067,
      "step": 1430
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9600008370526285,
      "learning_rate": 5.7264142320363384e-06,
      "loss": 0.6775,
      "step": 1431
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1159144608717622,
      "learning_rate": 5.72114915217984e-06,
      "loss": 0.724,
      "step": 1432
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7378823963464667,
      "learning_rate": 5.7158832555677904e-06,
      "loss": 0.6733,
      "step": 1433
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1824098180967686,
      "learning_rate": 5.710616548164212e-06,
      "loss": 0.7701,
      "step": 1434
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9084658041447307,
      "learning_rate": 5.705349035934047e-06,
      "loss": 0.7298,
      "step": 1435
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.901292626088752,
      "learning_rate": 5.7000807248431466e-06,
      "loss": 0.6167,
      "step": 1436
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8986714670318976,
      "learning_rate": 5.694811620858269e-06,
      "loss": 0.6885,
      "step": 1437
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8149815425493934,
      "learning_rate": 5.689541729947071e-06,
      "loss": 0.6566,
      "step": 1438
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8703524441598446,
      "learning_rate": 5.684271058078101e-06,
      "loss": 0.6202,
      "step": 1439
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9395531140132779,
      "learning_rate": 5.6789996112207865e-06,
      "loss": 0.7733,
      "step": 1440
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7094092857852254,
      "learning_rate": 5.673727395345442e-06,
      "loss": 0.5487,
      "step": 1441
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.78331215774278,
      "learning_rate": 5.668454416423243e-06,
      "loss": 0.6979,
      "step": 1442
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7506314545441996,
      "learning_rate": 5.663180680426237e-06,
      "loss": 0.5645,
      "step": 1443
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9024939383248728,
      "learning_rate": 5.657906193327325e-06,
      "loss": 0.7176,
      "step": 1444
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1712853166955763,
      "learning_rate": 5.65263096110026e-06,
      "loss": 0.7241,
      "step": 1445
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0209870022801533,
      "learning_rate": 5.647354989719635e-06,
      "loss": 0.7843,
      "step": 1446
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9523040589367127,
      "learning_rate": 5.64207828516089e-06,
      "loss": 0.7469,
      "step": 1447
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8127428218464228,
      "learning_rate": 5.636800853400285e-06,
      "loss": 0.671,
      "step": 1448
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9116796887104708,
      "learning_rate": 5.631522700414909e-06,
      "loss": 0.6902,
      "step": 1449
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9275670698519547,
      "learning_rate": 5.626243832182663e-06,
      "loss": 0.7218,
      "step": 1450
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9451316156008894,
      "learning_rate": 5.620964254682267e-06,
      "loss": 0.7419,
      "step": 1451
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7008874898170646,
      "learning_rate": 5.615683973893235e-06,
      "loss": 0.5867,
      "step": 1452
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1109232323299278,
      "learning_rate": 5.610402995795884e-06,
      "loss": 0.7213,
      "step": 1453
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4140701560280249,
      "learning_rate": 5.605121326371316e-06,
      "loss": 0.7238,
      "step": 1454
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6749497129516295,
      "learning_rate": 5.599838971601418e-06,
      "loss": 0.6159,
      "step": 1455
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0972858305894932,
      "learning_rate": 5.594555937468856e-06,
      "loss": 0.7874,
      "step": 1456
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9607608307651996,
      "learning_rate": 5.589272229957061e-06,
      "loss": 0.7465,
      "step": 1457
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9223174599194296,
      "learning_rate": 5.583987855050228e-06,
      "loss": 0.7195,
      "step": 1458
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7415562384373776,
      "learning_rate": 5.578702818733308e-06,
      "loss": 0.5754,
      "step": 1459
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8553379697843208,
      "learning_rate": 5.573417126992004e-06,
      "loss": 0.7036,
      "step": 1460
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8184305737692195,
      "learning_rate": 5.568130785812755e-06,
      "loss": 0.6363,
      "step": 1461
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9005677724734233,
      "learning_rate": 5.562843801182741e-06,
      "loss": 0.7272,
      "step": 1462
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2005092886579043,
      "learning_rate": 5.5575561790898705e-06,
      "loss": 0.6876,
      "step": 1463
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7057829698787995,
      "learning_rate": 5.55226792552277e-06,
      "loss": 0.645,
      "step": 1464
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0352244827002168,
      "learning_rate": 5.546979046470784e-06,
      "loss": 0.6999,
      "step": 1465
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9096045259129149,
      "learning_rate": 5.5416895479239665e-06,
      "loss": 0.7234,
      "step": 1466
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8909158817825168,
      "learning_rate": 5.536399435873071e-06,
      "loss": 0.7552,
      "step": 1467
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7919106322123526,
      "learning_rate": 5.5311087163095475e-06,
      "loss": 0.673,
      "step": 1468
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0779055769479091,
      "learning_rate": 5.52581739522553e-06,
      "loss": 0.6396,
      "step": 1469
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.007765537643116,
      "learning_rate": 5.520525478613838e-06,
      "loss": 0.6859,
      "step": 1470
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9225444140430158,
      "learning_rate": 5.515232972467969e-06,
      "loss": 0.653,
      "step": 1471
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0358829962335732,
      "learning_rate": 5.509939882782077e-06,
      "loss": 0.7537,
      "step": 1472
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8908967017543987,
      "learning_rate": 5.504646215550988e-06,
      "loss": 0.6725,
      "step": 1473
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9107767063239419,
      "learning_rate": 5.4993519767701745e-06,
      "loss": 0.6833,
      "step": 1474
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8609726682946243,
      "learning_rate": 5.494057172435761e-06,
      "loss": 0.6938,
      "step": 1475
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8895006163496094,
      "learning_rate": 5.4887618085445094e-06,
      "loss": 0.6458,
      "step": 1476
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7374275019392066,
      "learning_rate": 5.48346589109382e-06,
      "loss": 0.5994,
      "step": 1477
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1830574451219806,
      "learning_rate": 5.478169426081712e-06,
      "loss": 0.7572,
      "step": 1478
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1078471876820473,
      "learning_rate": 5.472872419506833e-06,
      "loss": 0.7543,
      "step": 1479
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9988124229494402,
      "learning_rate": 5.467574877368441e-06,
      "loss": 0.709,
      "step": 1480
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.023716829065461,
      "learning_rate": 5.4622768056664e-06,
      "loss": 0.7284,
      "step": 1481
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.081160799436627,
      "learning_rate": 5.4569782104011725e-06,
      "loss": 0.7145,
      "step": 1482
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.83723694916145,
      "learning_rate": 5.4516790975738146e-06,
      "loss": 0.6914,
      "step": 1483
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9730261770488732,
      "learning_rate": 5.446379473185972e-06,
      "loss": 0.6945,
      "step": 1484
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8777161558041242,
      "learning_rate": 5.441079343239867e-06,
      "loss": 0.6981,
      "step": 1485
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.182928750047137,
      "learning_rate": 5.435778713738292e-06,
      "loss": 0.7497,
      "step": 1486
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6438214243942589,
      "learning_rate": 5.4304775906846095e-06,
      "loss": 0.6301,
      "step": 1487
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8370625351734354,
      "learning_rate": 5.42517598008274e-06,
      "loss": 0.7037,
      "step": 1488
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9346175623078955,
      "learning_rate": 5.419873887937154e-06,
      "loss": 0.6623,
      "step": 1489
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0204076656022674,
      "learning_rate": 5.41457132025287e-06,
      "loss": 0.6557,
      "step": 1490
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.895564556372504,
      "learning_rate": 5.4092682830354435e-06,
      "loss": 0.6805,
      "step": 1491
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9190789225776337,
      "learning_rate": 5.403964782290962e-06,
      "loss": 0.662,
      "step": 1492
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.911092258711396,
      "learning_rate": 5.398660824026039e-06,
      "loss": 0.7314,
      "step": 1493
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0551575530846293,
      "learning_rate": 5.393356414247806e-06,
      "loss": 0.7488,
      "step": 1494
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9012301099103941,
      "learning_rate": 5.388051558963904e-06,
      "loss": 0.7529,
      "step": 1495
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8912786199015843,
      "learning_rate": 5.38274626418248e-06,
      "loss": 0.712,
      "step": 1496
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9134610156758796,
      "learning_rate": 5.377440535912177e-06,
      "loss": 0.7521,
      "step": 1497
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.002070549228587,
      "learning_rate": 5.372134380162133e-06,
      "loss": 0.7672,
      "step": 1498
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8196452350164981,
      "learning_rate": 5.366827802941968e-06,
      "loss": 0.6334,
      "step": 1499
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9408760352005964,
      "learning_rate": 5.361520810261779e-06,
      "loss": 0.7352,
      "step": 1500
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3812685552882105,
      "learning_rate": 5.356213408132131e-06,
      "loss": 0.7829,
      "step": 1501
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7089973614897865,
      "learning_rate": 5.3509056025640575e-06,
      "loss": 0.5788,
      "step": 1502
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0012699200127768,
      "learning_rate": 5.345597399569047e-06,
      "loss": 0.766,
      "step": 1503
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1745740386889516,
      "learning_rate": 5.340288805159037e-06,
      "loss": 0.7372,
      "step": 1504
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9488250777667487,
      "learning_rate": 5.334979825346409e-06,
      "loss": 0.7547,
      "step": 1505
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9737163124335448,
      "learning_rate": 5.329670466143981e-06,
      "loss": 0.6912,
      "step": 1506
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9080866866549656,
      "learning_rate": 5.3243607335650014e-06,
      "loss": 0.6722,
      "step": 1507
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0889778207896377,
      "learning_rate": 5.319050633623141e-06,
      "loss": 0.8155,
      "step": 1508
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0470490802997734,
      "learning_rate": 5.3137401723324885e-06,
      "loss": 0.7451,
      "step": 1509
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9235452616940405,
      "learning_rate": 5.308429355707538e-06,
      "loss": 0.795,
      "step": 1510
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0293313457226172,
      "learning_rate": 5.303118189763187e-06,
      "loss": 0.7596,
      "step": 1511
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9055391375302858,
      "learning_rate": 5.297806680514731e-06,
      "loss": 0.7053,
      "step": 1512
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7791058911145103,
      "learning_rate": 5.292494833977853e-06,
      "loss": 0.6924,
      "step": 1513
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8178874975923227,
      "learning_rate": 5.287182656168618e-06,
      "loss": 0.596,
      "step": 1514
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9894739647111144,
      "learning_rate": 5.281870153103464e-06,
      "loss": 0.7077,
      "step": 1515
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9234104564506685,
      "learning_rate": 5.276557330799203e-06,
      "loss": 0.7151,
      "step": 1516
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.074185026588495,
      "learning_rate": 5.271244195273002e-06,
      "loss": 0.7539,
      "step": 1517
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.022370375834204,
      "learning_rate": 5.2659307525423895e-06,
      "loss": 0.7383,
      "step": 1518
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7582319751265133,
      "learning_rate": 5.260617008625235e-06,
      "loss": 0.5939,
      "step": 1519
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6692472019640662,
      "learning_rate": 5.255302969539753e-06,
      "loss": 0.5914,
      "step": 1520
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2268281180189229,
      "learning_rate": 5.2499886413044934e-06,
      "loss": 0.692,
      "step": 1521
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.824438727888699,
      "learning_rate": 5.24467402993833e-06,
      "loss": 0.6675,
      "step": 1522
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7689680276166297,
      "learning_rate": 5.239359141460461e-06,
      "loss": 0.5974,
      "step": 1523
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9009202870354305,
      "learning_rate": 5.234043981890395e-06,
      "loss": 0.6545,
      "step": 1524
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9396747810861062,
      "learning_rate": 5.2287285572479475e-06,
      "loss": 0.6601,
      "step": 1525
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0308414559774401,
      "learning_rate": 5.22341287355324e-06,
      "loss": 0.7654,
      "step": 1526
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8794684030033467,
      "learning_rate": 5.218096936826681e-06,
      "loss": 0.7449,
      "step": 1527
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6936038940242666,
      "learning_rate": 5.212780753088968e-06,
      "loss": 0.6081,
      "step": 1528
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9290488679258988,
      "learning_rate": 5.207464328361078e-06,
      "loss": 0.697,
      "step": 1529
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.166752874311457,
      "learning_rate": 5.202147668664264e-06,
      "loss": 0.7306,
      "step": 1530
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9029140153650114,
      "learning_rate": 5.196830780020038e-06,
      "loss": 0.6865,
      "step": 1531
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.056014085151729,
      "learning_rate": 5.191513668450178e-06,
      "loss": 0.7656,
      "step": 1532
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0496327760440924,
      "learning_rate": 5.186196339976711e-06,
      "loss": 0.7853,
      "step": 1533
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9600362945043249,
      "learning_rate": 5.180878800621911e-06,
      "loss": 0.731,
      "step": 1534
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8073372553397985,
      "learning_rate": 5.175561056408291e-06,
      "loss": 0.6862,
      "step": 1535
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2217210940314887,
      "learning_rate": 5.170243113358594e-06,
      "loss": 0.701,
      "step": 1536
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8663576687542903,
      "learning_rate": 5.164924977495792e-06,
      "loss": 0.6488,
      "step": 1537
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8415229130373304,
      "learning_rate": 5.1596066548430725e-06,
      "loss": 0.6574,
      "step": 1538
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0580099830127563,
      "learning_rate": 5.154288151423833e-06,
      "loss": 0.764,
      "step": 1539
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8602308840361186,
      "learning_rate": 5.1489694732616805e-06,
      "loss": 0.5853,
      "step": 1540
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8438190699198839,
      "learning_rate": 5.143650626380417e-06,
      "loss": 0.6286,
      "step": 1541
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9168680781920946,
      "learning_rate": 5.138331616804034e-06,
      "loss": 0.7214,
      "step": 1542
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9588639223616958,
      "learning_rate": 5.133012450556709e-06,
      "loss": 0.6633,
      "step": 1543
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.852103014520121,
      "learning_rate": 5.127693133662801e-06,
      "loss": 0.6417,
      "step": 1544
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9467642307624752,
      "learning_rate": 5.122373672146831e-06,
      "loss": 0.7176,
      "step": 1545
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7335684847859835,
      "learning_rate": 5.117054072033492e-06,
      "loss": 0.6075,
      "step": 1546
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8932919904057315,
      "learning_rate": 5.111734339347629e-06,
      "loss": 0.6807,
      "step": 1547
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.014162874223753,
      "learning_rate": 5.106414480114238e-06,
      "loss": 0.7224,
      "step": 1548
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.682719206721075,
      "learning_rate": 5.10109450035846e-06,
      "loss": 0.6255,
      "step": 1549
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8607746483608469,
      "learning_rate": 5.095774406105572e-06,
      "loss": 0.6801,
      "step": 1550
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.899398596327014,
      "learning_rate": 5.0904542033809774e-06,
      "loss": 0.7176,
      "step": 1551
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8075172423103372,
      "learning_rate": 5.085133898210208e-06,
      "loss": 0.616,
      "step": 1552
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.033430281388978,
      "learning_rate": 5.079813496618908e-06,
      "loss": 0.7398,
      "step": 1553
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9593470982450291,
      "learning_rate": 5.07449300463283e-06,
      "loss": 0.7692,
      "step": 1554
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.780142917919789,
      "learning_rate": 5.0691724282778345e-06,
      "loss": 0.6624,
      "step": 1555
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.055810449380175,
      "learning_rate": 5.06385177357987e-06,
      "loss": 0.7142,
      "step": 1556
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8701166203304308,
      "learning_rate": 5.058531046564977e-06,
      "loss": 0.7134,
      "step": 1557
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.6444908070853244,
      "learning_rate": 5.053210253259282e-06,
      "loss": 0.5395,
      "step": 1558
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9110655140763382,
      "learning_rate": 5.04788939968898e-06,
      "loss": 0.6914,
      "step": 1559
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9122016137830014,
      "learning_rate": 5.042568491880338e-06,
      "loss": 0.7333,
      "step": 1560
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9573946339188993,
      "learning_rate": 5.0372475358596825e-06,
      "loss": 0.7356,
      "step": 1561
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7977679003450275,
      "learning_rate": 5.031926537653396e-06,
      "loss": 0.6408,
      "step": 1562
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7429432398059648,
      "learning_rate": 5.026605503287911e-06,
      "loss": 0.6608,
      "step": 1563
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9091980066783661,
      "learning_rate": 5.021284438789694e-06,
      "loss": 0.7405,
      "step": 1564
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9256935701743189,
      "learning_rate": 5.015963350185253e-06,
      "loss": 0.6213,
      "step": 1565
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1186132192159235,
      "learning_rate": 5.010642243501119e-06,
      "loss": 0.6796,
      "step": 1566
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7424574876684099,
      "learning_rate": 5.005321124763847e-06,
      "loss": 0.6531,
      "step": 1567
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8697264640645893,
      "learning_rate": 5e-06,
      "loss": 0.5991,
      "step": 1568
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.746800514261011,
      "learning_rate": 4.994678875236155e-06,
      "loss": 0.6199,
      "step": 1569
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7627836324228445,
      "learning_rate": 4.989357756498882e-06,
      "loss": 0.6276,
      "step": 1570
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7784657775879645,
      "learning_rate": 4.9840366498147495e-06,
      "loss": 0.6368,
      "step": 1571
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.022268141799551,
      "learning_rate": 4.9787155612103076e-06,
      "loss": 0.7324,
      "step": 1572
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7142573971280711,
      "learning_rate": 4.9733944967120905e-06,
      "loss": 0.6655,
      "step": 1573
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.847256428824931,
      "learning_rate": 4.968073462346605e-06,
      "loss": 0.6358,
      "step": 1574
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7409774300131184,
      "learning_rate": 4.962752464140318e-06,
      "loss": 0.616,
      "step": 1575
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.963352389439272,
      "learning_rate": 4.9574315081196634e-06,
      "loss": 0.7206,
      "step": 1576
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8098228316644708,
      "learning_rate": 4.952110600311021e-06,
      "loss": 0.6519,
      "step": 1577
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.801878913046719,
      "learning_rate": 4.94678974674072e-06,
      "loss": 0.6327,
      "step": 1578
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7846056439755829,
      "learning_rate": 4.941468953435024e-06,
      "loss": 0.6451,
      "step": 1579
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1358463754802655,
      "learning_rate": 4.936148226420133e-06,
      "loss": 0.7376,
      "step": 1580
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0025624923980656,
      "learning_rate": 4.930827571722167e-06,
      "loss": 0.7002,
      "step": 1581
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.815997818317631,
      "learning_rate": 4.92550699536717e-06,
      "loss": 0.6594,
      "step": 1582
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9252783250647036,
      "learning_rate": 4.9201865033810934e-06,
      "loss": 0.6732,
      "step": 1583
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8503238298752224,
      "learning_rate": 4.914866101789793e-06,
      "loss": 0.6322,
      "step": 1584
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0621367723488415,
      "learning_rate": 4.909545796619023e-06,
      "loss": 0.7683,
      "step": 1585
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9048135194375645,
      "learning_rate": 4.90422559389443e-06,
      "loss": 0.7617,
      "step": 1586
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8451062504148665,
      "learning_rate": 4.8989054996415414e-06,
      "loss": 0.6576,
      "step": 1587
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9415376677358324,
      "learning_rate": 4.893585519885764e-06,
      "loss": 0.5737,
      "step": 1588
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9956143938777452,
      "learning_rate": 4.8882656606523736e-06,
      "loss": 0.6446,
      "step": 1589
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0270730429784216,
      "learning_rate": 4.88294592796651e-06,
      "loss": 0.6813,
      "step": 1590
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7932070109191488,
      "learning_rate": 4.8776263278531705e-06,
      "loss": 0.6957,
      "step": 1591
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0131907839875927,
      "learning_rate": 4.8723068663372005e-06,
      "loss": 0.7641,
      "step": 1592
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.087190449719432,
      "learning_rate": 4.866987549443291e-06,
      "loss": 0.6758,
      "step": 1593
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7614569760817054,
      "learning_rate": 4.861668383195968e-06,
      "loss": 0.646,
      "step": 1594
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7757014891211128,
      "learning_rate": 4.856349373619586e-06,
      "loss": 0.637,
      "step": 1595
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9085811398598584,
      "learning_rate": 4.851030526738321e-06,
      "loss": 0.7258,
      "step": 1596
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6857676321644328,
      "learning_rate": 4.8457118485761686e-06,
      "loss": 0.6709,
      "step": 1597
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8998626515896248,
      "learning_rate": 4.84039334515693e-06,
      "loss": 0.5956,
      "step": 1598
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9726256057619442,
      "learning_rate": 4.835075022504211e-06,
      "loss": 0.7125,
      "step": 1599
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9863583650575994,
      "learning_rate": 4.829756886641408e-06,
      "loss": 0.7041,
      "step": 1600
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7950607920256911,
      "learning_rate": 4.82443894359171e-06,
      "loss": 0.5928,
      "step": 1601
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8392799552145107,
      "learning_rate": 4.819121199378091e-06,
      "loss": 0.6408,
      "step": 1602
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8473281673477417,
      "learning_rate": 4.81380366002329e-06,
      "loss": 0.6432,
      "step": 1603
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.941812045170405,
      "learning_rate": 4.808486331549824e-06,
      "loss": 0.7166,
      "step": 1604
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6985769244281709,
      "learning_rate": 4.803169219979963e-06,
      "loss": 0.5924,
      "step": 1605
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9005869137170962,
      "learning_rate": 4.797852331335739e-06,
      "loss": 0.5621,
      "step": 1606
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8647596440487705,
      "learning_rate": 4.7925356716389235e-06,
      "loss": 0.6237,
      "step": 1607
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.063719802528088,
      "learning_rate": 4.787219246911034e-06,
      "loss": 0.7429,
      "step": 1608
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7540710330047473,
      "learning_rate": 4.781903063173321e-06,
      "loss": 0.6554,
      "step": 1609
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8278061449847358,
      "learning_rate": 4.776587126446761e-06,
      "loss": 0.7757,
      "step": 1610
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2718873738302456,
      "learning_rate": 4.771271442752053e-06,
      "loss": 0.7741,
      "step": 1611
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0213186653893245,
      "learning_rate": 4.765956018109607e-06,
      "loss": 0.7768,
      "step": 1612
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7704775846660951,
      "learning_rate": 4.760640858539541e-06,
      "loss": 0.6266,
      "step": 1613
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9152469870924589,
      "learning_rate": 4.755325970061671e-06,
      "loss": 0.6794,
      "step": 1614
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9510567229561873,
      "learning_rate": 4.750011358695508e-06,
      "loss": 0.6825,
      "step": 1615
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6425081439861225,
      "learning_rate": 4.744697030460248e-06,
      "loss": 0.5714,
      "step": 1616
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0309888411662615,
      "learning_rate": 4.739382991374767e-06,
      "loss": 0.751,
      "step": 1617
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8357378946638595,
      "learning_rate": 4.734069247457613e-06,
      "loss": 0.592,
      "step": 1618
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8094212027920986,
      "learning_rate": 4.728755804726998e-06,
      "loss": 0.7373,
      "step": 1619
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9837480021537042,
      "learning_rate": 4.7234426692007985e-06,
      "loss": 0.7489,
      "step": 1620
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0028424170899757,
      "learning_rate": 4.718129846896538e-06,
      "loss": 0.7555,
      "step": 1621
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0269088623629452,
      "learning_rate": 4.712817343831384e-06,
      "loss": 0.722,
      "step": 1622
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.867522797679128,
      "learning_rate": 4.707505166022149e-06,
      "loss": 0.6743,
      "step": 1623
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6544359347207068,
      "learning_rate": 4.702193319485271e-06,
      "loss": 0.6038,
      "step": 1624
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0497006401153264,
      "learning_rate": 4.696881810236815e-06,
      "loss": 0.6547,
      "step": 1625
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9714210241700736,
      "learning_rate": 4.691570644292464e-06,
      "loss": 0.7586,
      "step": 1626
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0240422451101112,
      "learning_rate": 4.686259827667514e-06,
      "loss": 0.7167,
      "step": 1627
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8337711508736855,
      "learning_rate": 4.680949366376858e-06,
      "loss": 0.5801,
      "step": 1628
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9751604290399793,
      "learning_rate": 4.6756392664349985e-06,
      "loss": 0.6579,
      "step": 1629
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7680481425904212,
      "learning_rate": 4.67032953385602e-06,
      "loss": 0.6212,
      "step": 1630
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9059253139514423,
      "learning_rate": 4.6650201746535926e-06,
      "loss": 0.6582,
      "step": 1631
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0273732332811156,
      "learning_rate": 4.659711194840964e-06,
      "loss": 0.7195,
      "step": 1632
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.389709831789258,
      "learning_rate": 4.654402600430955e-06,
      "loss": 0.7333,
      "step": 1633
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7893521640424397,
      "learning_rate": 4.649094397435944e-06,
      "loss": 0.687,
      "step": 1634
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9890957530518157,
      "learning_rate": 4.643786591867871e-06,
      "loss": 0.7947,
      "step": 1635
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8257704649300532,
      "learning_rate": 4.638479189738224e-06,
      "loss": 0.6606,
      "step": 1636
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8830367362347096,
      "learning_rate": 4.633172197058034e-06,
      "loss": 0.7195,
      "step": 1637
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8063609787757057,
      "learning_rate": 4.6278656198378665e-06,
      "loss": 0.6416,
      "step": 1638
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8668866853260467,
      "learning_rate": 4.622559464087824e-06,
      "loss": 0.6259,
      "step": 1639
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9540456476775097,
      "learning_rate": 4.617253735817522e-06,
      "loss": 0.687,
      "step": 1640
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0071447288881832,
      "learning_rate": 4.611948441036098e-06,
      "loss": 0.7444,
      "step": 1641
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.005137051599772,
      "learning_rate": 4.606643585752195e-06,
      "loss": 0.7348,
      "step": 1642
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9536893635320466,
      "learning_rate": 4.6013391759739615e-06,
      "loss": 0.6166,
      "step": 1643
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9454594384402495,
      "learning_rate": 4.596035217709039e-06,
      "loss": 0.7443,
      "step": 1644
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8237508944223108,
      "learning_rate": 4.590731716964559e-06,
      "loss": 0.7688,
      "step": 1645
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8858237896805813,
      "learning_rate": 4.585428679747133e-06,
      "loss": 0.6255,
      "step": 1646
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0099549720803538,
      "learning_rate": 4.580126112062847e-06,
      "loss": 0.7829,
      "step": 1647
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.94281349705388,
      "learning_rate": 4.574824019917262e-06,
      "loss": 0.7009,
      "step": 1648
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7317684747637252,
      "learning_rate": 4.569522409315392e-06,
      "loss": 0.6728,
      "step": 1649
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1218108457390423,
      "learning_rate": 4.564221286261709e-06,
      "loss": 0.7496,
      "step": 1650
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2276825718266,
      "learning_rate": 4.558920656760135e-06,
      "loss": 0.7377,
      "step": 1651
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.110603228511381,
      "learning_rate": 4.553620526814029e-06,
      "loss": 0.7494,
      "step": 1652
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9201365570581336,
      "learning_rate": 4.548320902426186e-06,
      "loss": 0.6878,
      "step": 1653
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8710186221697681,
      "learning_rate": 4.543021789598831e-06,
      "loss": 0.6846,
      "step": 1654
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8980367354331412,
      "learning_rate": 4.537723194333603e-06,
      "loss": 0.7385,
      "step": 1655
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2084545721665505,
      "learning_rate": 4.532425122631559e-06,
      "loss": 0.7439,
      "step": 1656
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.929234568845444,
      "learning_rate": 4.527127580493167e-06,
      "loss": 0.7183,
      "step": 1657
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0474899035301513,
      "learning_rate": 4.521830573918289e-06,
      "loss": 0.7482,
      "step": 1658
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9089865099241281,
      "learning_rate": 4.5165341089061825e-06,
      "loss": 0.6999,
      "step": 1659
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2520674267687744,
      "learning_rate": 4.511238191455491e-06,
      "loss": 0.7427,
      "step": 1660
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.99324206735905,
      "learning_rate": 4.505942827564242e-06,
      "loss": 0.7115,
      "step": 1661
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.806348077904816,
      "learning_rate": 4.500648023229828e-06,
      "loss": 0.6236,
      "step": 1662
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0758916208788376,
      "learning_rate": 4.495353784449015e-06,
      "loss": 0.7416,
      "step": 1663
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9808840966836067,
      "learning_rate": 4.490060117217925e-06,
      "loss": 0.7674,
      "step": 1664
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9377046606625282,
      "learning_rate": 4.484767027532032e-06,
      "loss": 0.7428,
      "step": 1665
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7027295489512783,
      "learning_rate": 4.479474521386161e-06,
      "loss": 0.5624,
      "step": 1666
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9361109025845047,
      "learning_rate": 4.474182604774471e-06,
      "loss": 0.7026,
      "step": 1667
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7887332512135418,
      "learning_rate": 4.468891283690454e-06,
      "loss": 0.6413,
      "step": 1668
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9616403969496337,
      "learning_rate": 4.4636005641269294e-06,
      "loss": 0.6671,
      "step": 1669
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8385886392657428,
      "learning_rate": 4.458310452076034e-06,
      "loss": 0.6536,
      "step": 1670
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7973957230261938,
      "learning_rate": 4.453020953529217e-06,
      "loss": 0.642,
      "step": 1671
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9631408862175744,
      "learning_rate": 4.447732074477233e-06,
      "loss": 0.7703,
      "step": 1672
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7532232789077855,
      "learning_rate": 4.442443820910133e-06,
      "loss": 0.6264,
      "step": 1673
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9592302147868798,
      "learning_rate": 4.437156198817262e-06,
      "loss": 0.7354,
      "step": 1674
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.871305729681645,
      "learning_rate": 4.431869214187246e-06,
      "loss": 0.7128,
      "step": 1675
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1783714194433466,
      "learning_rate": 4.426582873007999e-06,
      "loss": 0.7221,
      "step": 1676
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8147849048363328,
      "learning_rate": 4.421297181266694e-06,
      "loss": 0.5829,
      "step": 1677
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8428464573488104,
      "learning_rate": 4.4160121449497735e-06,
      "loss": 0.6973,
      "step": 1678
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.704400749620233,
      "learning_rate": 4.410727770042941e-06,
      "loss": 0.6474,
      "step": 1679
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9302091323804872,
      "learning_rate": 4.405444062531145e-06,
      "loss": 0.7157,
      "step": 1680
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9002618230969773,
      "learning_rate": 4.400161028398583e-06,
      "loss": 0.6737,
      "step": 1681
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7602537122493578,
      "learning_rate": 4.3948786736286866e-06,
      "loss": 0.6747,
      "step": 1682
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8592386637285632,
      "learning_rate": 4.389597004204119e-06,
      "loss": 0.6297,
      "step": 1683
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0239826924155333,
      "learning_rate": 4.384316026106766e-06,
      "loss": 0.7074,
      "step": 1684
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8654586197019709,
      "learning_rate": 4.379035745317734e-06,
      "loss": 0.6006,
      "step": 1685
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1642084161021322,
      "learning_rate": 4.373756167817338e-06,
      "loss": 0.7021,
      "step": 1686
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6423441506297939,
      "learning_rate": 4.368477299585094e-06,
      "loss": 0.6559,
      "step": 1687
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1164946125596131,
      "learning_rate": 4.363199146599717e-06,
      "loss": 0.7046,
      "step": 1688
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8154959203561577,
      "learning_rate": 4.3579217148391115e-06,
      "loss": 0.6423,
      "step": 1689
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7077177172401027,
      "learning_rate": 4.3526450102803654e-06,
      "loss": 0.5916,
      "step": 1690
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2308266150300633,
      "learning_rate": 4.347369038899744e-06,
      "loss": 0.7267,
      "step": 1691
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9103028364141098,
      "learning_rate": 4.342093806672678e-06,
      "loss": 0.7065,
      "step": 1692
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9123613457957195,
      "learning_rate": 4.336819319573764e-06,
      "loss": 0.6354,
      "step": 1693
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.016312190661776,
      "learning_rate": 4.331545583576758e-06,
      "loss": 0.7433,
      "step": 1694
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9368793204374951,
      "learning_rate": 4.32627260465456e-06,
      "loss": 0.6946,
      "step": 1695
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9000892422795183,
      "learning_rate": 4.321000388779214e-06,
      "loss": 0.6503,
      "step": 1696
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7553030991943763,
      "learning_rate": 4.3157289419219e-06,
      "loss": 0.6875,
      "step": 1697
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7326878455043849,
      "learning_rate": 4.3104582700529295e-06,
      "loss": 0.599,
      "step": 1698
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9007447904940746,
      "learning_rate": 4.3051883791417325e-06,
      "loss": 0.73,
      "step": 1699
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9723783524058272,
      "learning_rate": 4.299919275156857e-06,
      "loss": 0.7282,
      "step": 1700
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8434663117098484,
      "learning_rate": 4.294650964065956e-06,
      "loss": 0.6385,
      "step": 1701
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9110123716529093,
      "learning_rate": 4.289383451835789e-06,
      "loss": 0.7086,
      "step": 1702
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9220188803251878,
      "learning_rate": 4.28411674443221e-06,
      "loss": 0.7461,
      "step": 1703
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0246158233855633,
      "learning_rate": 4.278850847820161e-06,
      "loss": 0.6839,
      "step": 1704
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1290393091805886,
      "learning_rate": 4.273585767963662e-06,
      "loss": 0.7304,
      "step": 1705
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9351777615874655,
      "learning_rate": 4.2683215108258145e-06,
      "loss": 0.7654,
      "step": 1706
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7727236823046502,
      "learning_rate": 4.263058082368785e-06,
      "loss": 0.7315,
      "step": 1707
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8861986292159522,
      "learning_rate": 4.2577954885537985e-06,
      "loss": 0.7661,
      "step": 1708
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8904175510218323,
      "learning_rate": 4.25253373534114e-06,
      "loss": 0.7255,
      "step": 1709
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0134611233541306,
      "learning_rate": 4.247272828690138e-06,
      "loss": 0.779,
      "step": 1710
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8615525251289257,
      "learning_rate": 4.242012774559164e-06,
      "loss": 0.773,
      "step": 1711
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7637588667861871,
      "learning_rate": 4.236753578905627e-06,
      "loss": 0.6397,
      "step": 1712
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9060445199553349,
      "learning_rate": 4.231495247685961e-06,
      "loss": 0.6319,
      "step": 1713
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.94664598702041,
      "learning_rate": 4.2262377868556176e-06,
      "loss": 0.7014,
      "step": 1714
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7697824719759733,
      "learning_rate": 4.220981202369067e-06,
      "loss": 0.6479,
      "step": 1715
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8962108299286158,
      "learning_rate": 4.215725500179788e-06,
      "loss": 0.7584,
      "step": 1716
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2251976409699132,
      "learning_rate": 4.210470686240255e-06,
      "loss": 0.7553,
      "step": 1717
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7686998713964163,
      "learning_rate": 4.205216766501941e-06,
      "loss": 0.6809,
      "step": 1718
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.875731267520163,
      "learning_rate": 4.199963746915304e-06,
      "loss": 0.6057,
      "step": 1719
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8904620315813452,
      "learning_rate": 4.194711633429782e-06,
      "loss": 0.6886,
      "step": 1720
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9479368363361041,
      "learning_rate": 4.189460431993788e-06,
      "loss": 0.7043,
      "step": 1721
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6920108065349828,
      "learning_rate": 4.184210148554704e-06,
      "loss": 0.6627,
      "step": 1722
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.128257793436258,
      "learning_rate": 4.178960789058869e-06,
      "loss": 0.641,
      "step": 1723
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0832651707833016,
      "learning_rate": 4.173712359451576e-06,
      "loss": 0.8023,
      "step": 1724
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7547883400978679,
      "learning_rate": 4.1684648656770655e-06,
      "loss": 0.535,
      "step": 1725
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9505169077234845,
      "learning_rate": 4.16321831367852e-06,
      "loss": 0.6827,
      "step": 1726
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8194717216396138,
      "learning_rate": 4.157972709398051e-06,
      "loss": 0.6797,
      "step": 1727
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.919320116221283,
      "learning_rate": 4.152728058776701e-06,
      "loss": 0.6642,
      "step": 1728
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9135226104512608,
      "learning_rate": 4.14748436775443e-06,
      "loss": 0.6789,
      "step": 1729
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9486579188337444,
      "learning_rate": 4.142241642270109e-06,
      "loss": 0.6249,
      "step": 1730
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8585035491273633,
      "learning_rate": 4.136999888261522e-06,
      "loss": 0.7132,
      "step": 1731
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9592807588251279,
      "learning_rate": 4.131759111665349e-06,
      "loss": 0.7063,
      "step": 1732
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9152758722347518,
      "learning_rate": 4.1265193184171605e-06,
      "loss": 0.7561,
      "step": 1733
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0934607531466423,
      "learning_rate": 4.121280514451417e-06,
      "loss": 0.6838,
      "step": 1734
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8426918699720236,
      "learning_rate": 4.116042705701457e-06,
      "loss": 0.609,
      "step": 1735
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1218860821113485,
      "learning_rate": 4.110805898099492e-06,
      "loss": 0.7578,
      "step": 1736
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.077140089351753,
      "learning_rate": 4.105570097576601e-06,
      "loss": 0.7387,
      "step": 1737
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9335148210576102,
      "learning_rate": 4.100335310062719e-06,
      "loss": 0.7622,
      "step": 1738
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0611568523950694,
      "learning_rate": 4.095101541486636e-06,
      "loss": 0.6924,
      "step": 1739
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7274726258883524,
      "learning_rate": 4.0898687977759895e-06,
      "loss": 0.617,
      "step": 1740
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2096938654624447,
      "learning_rate": 4.084637084857254e-06,
      "loss": 0.7331,
      "step": 1741
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.808258668438024,
      "learning_rate": 4.079406408655737e-06,
      "loss": 0.6494,
      "step": 1742
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9676287400354652,
      "learning_rate": 4.0741767750955724e-06,
      "loss": 0.6921,
      "step": 1743
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7145048206079769,
      "learning_rate": 4.068948190099711e-06,
      "loss": 0.595,
      "step": 1744
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9003792196227214,
      "learning_rate": 4.0637206595899206e-06,
      "loss": 0.6614,
      "step": 1745
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8824947163198791,
      "learning_rate": 4.058494189486769e-06,
      "loss": 0.6995,
      "step": 1746
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9289359987080178,
      "learning_rate": 4.0532687857096285e-06,
      "loss": 0.6916,
      "step": 1747
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1348567020307958,
      "learning_rate": 4.048044454176658e-06,
      "loss": 0.7116,
      "step": 1748
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3999150146825035,
      "learning_rate": 4.042821200804809e-06,
      "loss": 0.6754,
      "step": 1749
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9471379165249364,
      "learning_rate": 4.037599031509806e-06,
      "loss": 0.6179,
      "step": 1750
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8912395834427773,
      "learning_rate": 4.032377952206148e-06,
      "loss": 0.6925,
      "step": 1751
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.796096872864003,
      "learning_rate": 4.0271579688071e-06,
      "loss": 0.7652,
      "step": 1752
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.7743110017295979,
      "learning_rate": 4.021939087224682e-06,
      "loss": 0.6168,
      "step": 1753
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0711150108741607,
      "learning_rate": 4.016721313369674e-06,
      "loss": 0.7603,
      "step": 1754
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8412850726624176,
      "learning_rate": 4.011504653151593e-06,
      "loss": 0.6352,
      "step": 1755
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8278031877076271,
      "learning_rate": 4.0062891124787e-06,
      "loss": 0.7046,
      "step": 1756
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8117561626151016,
      "learning_rate": 4.0010746972579865e-06,
      "loss": 0.6531,
      "step": 1757
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.7812189507491103,
      "learning_rate": 3.995861413395164e-06,
      "loss": 0.6353,
      "step": 1758
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8871586153651031,
      "learning_rate": 3.990649266794676e-06,
      "loss": 0.7066,
      "step": 1759
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9877003809585843,
      "learning_rate": 3.985438263359667e-06,
      "loss": 0.7839,
      "step": 1760
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.066728957749003,
      "learning_rate": 3.9802284089919876e-06,
      "loss": 0.6579,
      "step": 1761
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.914158014517468,
      "learning_rate": 3.975019709592189e-06,
      "loss": 0.7065,
      "step": 1762
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8623238953437692,
      "learning_rate": 3.969812171059516e-06,
      "loss": 0.6761,
      "step": 1763
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9128969573750919,
      "learning_rate": 3.964605799291897e-06,
      "loss": 0.7016,
      "step": 1764
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8431764749438779,
      "learning_rate": 3.959400600185938e-06,
      "loss": 0.675,
      "step": 1765
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9619746206567328,
      "learning_rate": 3.954196579636918e-06,
      "loss": 0.7481,
      "step": 1766
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0499171298388017,
      "learning_rate": 3.948993743538778e-06,
      "loss": 0.6603,
      "step": 1767
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.065260973162993,
      "learning_rate": 3.943792097784126e-06,
      "loss": 0.6243,
      "step": 1768
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9953774558668874,
      "learning_rate": 3.938591648264214e-06,
      "loss": 0.7188,
      "step": 1769
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9925032324312594,
      "learning_rate": 3.9333924008689405e-06,
      "loss": 0.6778,
      "step": 1770
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.158634794317766,
      "learning_rate": 3.928194361486844e-06,
      "loss": 0.7557,
      "step": 1771
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8226661841376427,
      "learning_rate": 3.922997536005094e-06,
      "loss": 0.5939,
      "step": 1772
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2445539560389351,
      "learning_rate": 3.917801930309486e-06,
      "loss": 0.7068,
      "step": 1773
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.7827606100816394,
      "learning_rate": 3.912607550284434e-06,
      "loss": 0.7094,
      "step": 1774
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9773392971452822,
      "learning_rate": 3.907414401812963e-06,
      "loss": 0.7421,
      "step": 1775
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8380443973524438,
      "learning_rate": 3.9022224907767e-06,
      "loss": 0.6661,
      "step": 1776
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0206693080574722,
      "learning_rate": 3.8970318230558805e-06,
      "loss": 0.6803,
      "step": 1777
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9405350611216952,
      "learning_rate": 3.891842404529321e-06,
      "loss": 0.6815,
      "step": 1778
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9365691562202257,
      "learning_rate": 3.88665424107443e-06,
      "loss": 0.7289,
      "step": 1779
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8996456812905408,
      "learning_rate": 3.88146733856719e-06,
      "loss": 0.6795,
      "step": 1780
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0508813065388334,
      "learning_rate": 3.876281702882156e-06,
      "loss": 0.7922,
      "step": 1781
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9305717803074521,
      "learning_rate": 3.871097339892454e-06,
      "loss": 0.7551,
      "step": 1782
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8652586419846195,
      "learning_rate": 3.865914255469763e-06,
      "loss": 0.6553,
      "step": 1783
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7487994081438771,
      "learning_rate": 3.860732455484314e-06,
      "loss": 0.6078,
      "step": 1784
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7945653967835228,
      "learning_rate": 3.855551945804882e-06,
      "loss": 0.6771,
      "step": 1785
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8178843918838311,
      "learning_rate": 3.8503727322987885e-06,
      "loss": 0.6214,
      "step": 1786
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.916810559426686,
      "learning_rate": 3.845194820831878e-06,
      "loss": 0.6588,
      "step": 1787
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1157890366018248,
      "learning_rate": 3.840018217268527e-06,
      "loss": 0.7673,
      "step": 1788
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9263427629489078,
      "learning_rate": 3.834842927471624e-06,
      "loss": 0.7367,
      "step": 1789
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9352324566255876,
      "learning_rate": 3.829668957302576e-06,
      "loss": 0.7132,
      "step": 1790
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7878898382562708,
      "learning_rate": 3.82449631262129e-06,
      "loss": 0.6389,
      "step": 1791
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.001861160261124,
      "learning_rate": 3.819324999286177e-06,
      "loss": 0.7162,
      "step": 1792
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9108012976901965,
      "learning_rate": 3.814155023154136e-06,
      "loss": 0.7095,
      "step": 1793
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.658446162577274,
      "learning_rate": 3.808986390080555e-06,
      "loss": 0.5686,
      "step": 1794
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.048950568202912,
      "learning_rate": 3.8038191059192942e-06,
      "loss": 0.78,
      "step": 1795
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1073158506129661,
      "learning_rate": 3.7986531765226965e-06,
      "loss": 0.7827,
      "step": 1796
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7061049009165328,
      "learning_rate": 3.793488607741563e-06,
      "loss": 0.5568,
      "step": 1797
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9353744410940006,
      "learning_rate": 3.7883254054251537e-06,
      "loss": 0.7597,
      "step": 1798
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8286679030137398,
      "learning_rate": 3.7831635754211856e-06,
      "loss": 0.6358,
      "step": 1799
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8568370283891331,
      "learning_rate": 3.778003123575815e-06,
      "loss": 0.6869,
      "step": 1800
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8020511297106641,
      "learning_rate": 3.7728440557336452e-06,
      "loss": 0.7185,
      "step": 1801
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8379240530808147,
      "learning_rate": 3.7676863777377055e-06,
      "loss": 0.7036,
      "step": 1802
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.110461703383332,
      "learning_rate": 3.7625300954294537e-06,
      "loss": 0.7468,
      "step": 1803
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8729909792297951,
      "learning_rate": 3.757375214648764e-06,
      "loss": 0.6731,
      "step": 1804
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9662450000122258,
      "learning_rate": 3.7522217412339313e-06,
      "loss": 0.7073,
      "step": 1805
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.951046121615455,
      "learning_rate": 3.747069681021648e-06,
      "loss": 0.7281,
      "step": 1806
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1202443288374233,
      "learning_rate": 3.7419190398470095e-06,
      "loss": 0.7185,
      "step": 1807
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9193103666403868,
      "learning_rate": 3.7367698235435036e-06,
      "loss": 0.6343,
      "step": 1808
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9711436119091045,
      "learning_rate": 3.7316220379430037e-06,
      "loss": 0.7794,
      "step": 1809
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0085677336548093,
      "learning_rate": 3.726475688875764e-06,
      "loss": 0.7078,
      "step": 1810
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.256584692368127,
      "learning_rate": 3.7213307821704115e-06,
      "loss": 0.701,
      "step": 1811
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1146476756159067,
      "learning_rate": 3.716187323653939e-06,
      "loss": 0.6901,
      "step": 1812
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8216396616416227,
      "learning_rate": 3.711045319151697e-06,
      "loss": 0.6379,
      "step": 1813
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8271079706939651,
      "learning_rate": 3.705904774487396e-06,
      "loss": 0.7136,
      "step": 1814
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.7876529540985152,
      "learning_rate": 3.7007656954830866e-06,
      "loss": 0.6428,
      "step": 1815
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0466513396356902,
      "learning_rate": 3.695628087959162e-06,
      "loss": 0.7453,
      "step": 1816
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8103640916530325,
      "learning_rate": 3.690491957734348e-06,
      "loss": 0.6163,
      "step": 1817
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8800510638614355,
      "learning_rate": 3.6853573106256967e-06,
      "loss": 0.6496,
      "step": 1818
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8999927331766387,
      "learning_rate": 3.680224152448582e-06,
      "loss": 0.7123,
      "step": 1819
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0060585846133039,
      "learning_rate": 3.675092489016693e-06,
      "loss": 0.737,
      "step": 1820
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8330779021137077,
      "learning_rate": 3.6699623261420207e-06,
      "loss": 0.6616,
      "step": 1821
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9624807108107852,
      "learning_rate": 3.6648336696348598e-06,
      "loss": 0.6757,
      "step": 1822
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.898949100397293,
      "learning_rate": 3.6597065253038016e-06,
      "loss": 0.7541,
      "step": 1823
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8756828338782103,
      "learning_rate": 3.654580898955721e-06,
      "loss": 0.7036,
      "step": 1824
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0182371851996164,
      "learning_rate": 3.6494567963957735e-06,
      "loss": 0.7072,
      "step": 1825
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9615351615199579,
      "learning_rate": 3.6443342234273905e-06,
      "loss": 0.6671,
      "step": 1826
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9589032522216183,
      "learning_rate": 3.63921318585227e-06,
      "loss": 0.7038,
      "step": 1827
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.988235245898985,
      "learning_rate": 3.6340936894703717e-06,
      "loss": 0.6962,
      "step": 1828
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8731763415006332,
      "learning_rate": 3.62897574007991e-06,
      "loss": 0.6723,
      "step": 1829
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8703115349853452,
      "learning_rate": 3.623859343477346e-06,
      "loss": 0.6759,
      "step": 1830
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0602517085994052,
      "learning_rate": 3.6187445054573823e-06,
      "loss": 0.7423,
      "step": 1831
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0209984328615165,
      "learning_rate": 3.61363123181296e-06,
      "loss": 0.7127,
      "step": 1832
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9892849249542077,
      "learning_rate": 3.6085195283352437e-06,
      "loss": 0.712,
      "step": 1833
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0245474165662922,
      "learning_rate": 3.603409400813621e-06,
      "loss": 0.7087,
      "step": 1834
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.909635720828453,
      "learning_rate": 3.5983008550356946e-06,
      "loss": 0.6964,
      "step": 1835
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9637257285930464,
      "learning_rate": 3.593193896787277e-06,
      "loss": 0.7327,
      "step": 1836
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.939442881805737,
      "learning_rate": 3.5880885318523807e-06,
      "loss": 0.736,
      "step": 1837
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.7487271657870029,
      "learning_rate": 3.582984766013215e-06,
      "loss": 0.5779,
      "step": 1838
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9157829325393765,
      "learning_rate": 3.577882605050179e-06,
      "loss": 0.6665,
      "step": 1839
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8783036837773925,
      "learning_rate": 3.5727820547418525e-06,
      "loss": 0.6629,
      "step": 1840
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9496037583047816,
      "learning_rate": 3.5676831208649887e-06,
      "loss": 0.6799,
      "step": 1841
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.926119584497545,
      "learning_rate": 3.5625858091945174e-06,
      "loss": 0.6963,
      "step": 1842
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9669710850400337,
      "learning_rate": 3.557490125503526e-06,
      "loss": 0.736,
      "step": 1843
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8646762602512429,
      "learning_rate": 3.5523960755632573e-06,
      "loss": 0.642,
      "step": 1844
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7331757902439837,
      "learning_rate": 3.5473036651431058e-06,
      "loss": 0.5959,
      "step": 1845
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9352391454935649,
      "learning_rate": 3.5422129000106086e-06,
      "loss": 0.7102,
      "step": 1846
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9704735728419543,
      "learning_rate": 3.5371237859314387e-06,
      "loss": 0.7084,
      "step": 1847
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1273338678983955,
      "learning_rate": 3.5320363286694015e-06,
      "loss": 0.6922,
      "step": 1848
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.973191515150699,
      "learning_rate": 3.526950533986423e-06,
      "loss": 0.7432,
      "step": 1849
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.917144857688987,
      "learning_rate": 3.5218664076425455e-06,
      "loss": 0.7444,
      "step": 1850
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.838853730319045,
      "learning_rate": 3.516783955395928e-06,
      "loss": 0.7224,
      "step": 1851
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9049369998391507,
      "learning_rate": 3.5117031830028274e-06,
      "loss": 0.6627,
      "step": 1852
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8848603224194561,
      "learning_rate": 3.5066240962176e-06,
      "loss": 0.6641,
      "step": 1853
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9392515534388018,
      "learning_rate": 3.501546700792692e-06,
      "loss": 0.7106,
      "step": 1854
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0343094106677233,
      "learning_rate": 3.4964710024786354e-06,
      "loss": 0.7343,
      "step": 1855
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8040911467736763,
      "learning_rate": 3.4913970070240388e-06,
      "loss": 0.7115,
      "step": 1856
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7717798602662092,
      "learning_rate": 3.4863247201755847e-06,
      "loss": 0.6501,
      "step": 1857
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9678226811297823,
      "learning_rate": 3.4812541476780184e-06,
      "loss": 0.7007,
      "step": 1858
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0138668069525765,
      "learning_rate": 3.4761852952741405e-06,
      "loss": 0.7669,
      "step": 1859
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9665072851213647,
      "learning_rate": 3.4711181687048114e-06,
      "loss": 0.6833,
      "step": 1860
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8907918213243786,
      "learning_rate": 3.4660527737089313e-06,
      "loss": 0.6837,
      "step": 1861
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6583321058957748,
      "learning_rate": 3.460989116023439e-06,
      "loss": 0.6048,
      "step": 1862
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8222483025393614,
      "learning_rate": 3.455927201383308e-06,
      "loss": 0.6682,
      "step": 1863
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9072742530755886,
      "learning_rate": 3.450867035521536e-06,
      "loss": 0.7154,
      "step": 1864
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8773649232000515,
      "learning_rate": 3.445808624169141e-06,
      "loss": 0.7018,
      "step": 1865
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5060148630184558,
      "learning_rate": 3.440751973055152e-06,
      "loss": 0.7389,
      "step": 1866
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6964274676073393,
      "learning_rate": 3.435697087906609e-06,
      "loss": 0.6277,
      "step": 1867
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8604254371438621,
      "learning_rate": 3.4306439744485453e-06,
      "loss": 0.6851,
      "step": 1868
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0047766949613013,
      "learning_rate": 3.425592638403995e-06,
      "loss": 0.7155,
      "step": 1869
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7635767663420241,
      "learning_rate": 3.420543085493975e-06,
      "loss": 0.6601,
      "step": 1870
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8790319548675595,
      "learning_rate": 3.41549532143748e-06,
      "loss": 0.7269,
      "step": 1871
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9525503989380527,
      "learning_rate": 3.4104493519514844e-06,
      "loss": 0.7733,
      "step": 1872
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8925071020560925,
      "learning_rate": 3.405405182750926e-06,
      "loss": 0.7289,
      "step": 1873
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9472119317247492,
      "learning_rate": 3.400362819548706e-06,
      "loss": 0.773,
      "step": 1874
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.963190531992721,
      "learning_rate": 3.395322268055678e-06,
      "loss": 0.6578,
      "step": 1875
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1178270094150544,
      "learning_rate": 3.3902835339806463e-06,
      "loss": 0.7189,
      "step": 1876
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.966555155587451,
      "learning_rate": 3.385246623030356e-06,
      "loss": 0.7312,
      "step": 1877
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9231577648502215,
      "learning_rate": 3.3802115409094828e-06,
      "loss": 0.7135,
      "step": 1878
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6811803759614569,
      "learning_rate": 3.375178293320641e-06,
      "loss": 0.6013,
      "step": 1879
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7832972684624027,
      "learning_rate": 3.3701468859643583e-06,
      "loss": 0.6093,
      "step": 1880
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.942860125808857,
      "learning_rate": 3.3651173245390818e-06,
      "loss": 0.6573,
      "step": 1881
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0201978166611558,
      "learning_rate": 3.3600896147411666e-06,
      "loss": 0.7177,
      "step": 1882
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9681220273416414,
      "learning_rate": 3.355063762264873e-06,
      "loss": 0.7506,
      "step": 1883
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9792883558329163,
      "learning_rate": 3.3500397728023536e-06,
      "loss": 0.7443,
      "step": 1884
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9374764879763546,
      "learning_rate": 3.3450176520436563e-06,
      "loss": 0.736,
      "step": 1885
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3130884780548353,
      "learning_rate": 3.3399974056767095e-06,
      "loss": 0.6652,
      "step": 1886
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9658486729304108,
      "learning_rate": 3.334979039387316e-06,
      "loss": 0.6893,
      "step": 1887
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.6664445705595617,
      "learning_rate": 3.3299625588591568e-06,
      "loss": 0.6023,
      "step": 1888
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8303620927007946,
      "learning_rate": 3.324947969773771e-06,
      "loss": 0.6361,
      "step": 1889
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0191878938012857,
      "learning_rate": 3.3199352778105565e-06,
      "loss": 0.766,
      "step": 1890
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0851980680796278,
      "learning_rate": 3.3149244886467636e-06,
      "loss": 0.7463,
      "step": 1891
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8819985638842285,
      "learning_rate": 3.309915607957487e-06,
      "loss": 0.7833,
      "step": 1892
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.908701864805138,
      "learning_rate": 3.3049086414156613e-06,
      "loss": 0.7109,
      "step": 1893
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7877603602941304,
      "learning_rate": 3.2999035946920493e-06,
      "loss": 0.7007,
      "step": 1894
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7750430048254805,
      "learning_rate": 3.294900473455245e-06,
      "loss": 0.6411,
      "step": 1895
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9795075430057941,
      "learning_rate": 3.289899283371657e-06,
      "loss": 0.7478,
      "step": 1896
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.685185149024232,
      "learning_rate": 3.284900030105509e-06,
      "loss": 0.7227,
      "step": 1897
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8692297115069899,
      "learning_rate": 3.2799027193188316e-06,
      "loss": 0.6842,
      "step": 1898
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9555673181990669,
      "learning_rate": 3.2749073566714534e-06,
      "loss": 0.7533,
      "step": 1899
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9635188354434376,
      "learning_rate": 3.2699139478209987e-06,
      "loss": 0.7079,
      "step": 1900
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9309804491011072,
      "learning_rate": 3.2649224984228756e-06,
      "loss": 0.667,
      "step": 1901
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.834365911515663,
      "learning_rate": 3.2599330141302775e-06,
      "loss": 0.6528,
      "step": 1902
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.870786305454205,
      "learning_rate": 3.2549455005941685e-06,
      "loss": 0.6989,
      "step": 1903
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7731781893713143,
      "learning_rate": 3.249959963463283e-06,
      "loss": 0.6412,
      "step": 1904
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6528084277389713,
      "learning_rate": 3.2449764083841153e-06,
      "loss": 0.6223,
      "step": 1905
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.827944833296386,
      "learning_rate": 3.2399948410009154e-06,
      "loss": 0.6404,
      "step": 1906
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9011921344693669,
      "learning_rate": 3.2350152669556845e-06,
      "loss": 0.6798,
      "step": 1907
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7863600487007715,
      "learning_rate": 3.2300376918881628e-06,
      "loss": 0.582,
      "step": 1908
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9609844927642552,
      "learning_rate": 3.225062121435827e-06,
      "loss": 0.7134,
      "step": 1909
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.970086867018201,
      "learning_rate": 3.2200885612338846e-06,
      "loss": 0.7746,
      "step": 1910
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1549351193173807,
      "learning_rate": 3.2151170169152655e-06,
      "loss": 0.7273,
      "step": 1911
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9459143766911214,
      "learning_rate": 3.210147494110618e-06,
      "loss": 0.7239,
      "step": 1912
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.960744580047474,
      "learning_rate": 3.205179998448298e-06,
      "loss": 0.7805,
      "step": 1913
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9852665401294178,
      "learning_rate": 3.2002145355543684e-06,
      "loss": 0.7341,
      "step": 1914
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.99081763271383,
      "learning_rate": 3.1952511110525884e-06,
      "loss": 0.6038,
      "step": 1915
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9870829271858428,
      "learning_rate": 3.19028973056441e-06,
      "loss": 0.7823,
      "step": 1916
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6271395206013125,
      "learning_rate": 3.185330399708968e-06,
      "loss": 0.5899,
      "step": 1917
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8530334573818449,
      "learning_rate": 3.1803731241030775e-06,
      "loss": 0.692,
      "step": 1918
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9630058543773745,
      "learning_rate": 3.1754179093612246e-06,
      "loss": 0.7021,
      "step": 1919
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9987213378682703,
      "learning_rate": 3.1704647610955618e-06,
      "loss": 0.6647,
      "step": 1920
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7209482212185268,
      "learning_rate": 3.165513684915902e-06,
      "loss": 0.6221,
      "step": 1921
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.731247738141564,
      "learning_rate": 3.160564686429709e-06,
      "loss": 0.5633,
      "step": 1922
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8933920625592928,
      "learning_rate": 3.155617771242098e-06,
      "loss": 0.7216,
      "step": 1923
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9643901799990826,
      "learning_rate": 3.150672944955818e-06,
      "loss": 0.7228,
      "step": 1924
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7222263050242044,
      "learning_rate": 3.1457302131712595e-06,
      "loss": 0.7489,
      "step": 1925
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.776886994687939,
      "learning_rate": 3.1407895814864365e-06,
      "loss": 0.6267,
      "step": 1926
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9791376064827347,
      "learning_rate": 3.1358510554969855e-06,
      "loss": 0.6734,
      "step": 1927
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9829527859440829,
      "learning_rate": 3.1309146407961565e-06,
      "loss": 0.7375,
      "step": 1928
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0452274869227791,
      "learning_rate": 3.1259803429748115e-06,
      "loss": 0.6155,
      "step": 1929
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1240478773297014,
      "learning_rate": 3.121048167621411e-06,
      "loss": 0.7838,
      "step": 1930
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8302843512210043,
      "learning_rate": 3.1161181203220146e-06,
      "loss": 0.5517,
      "step": 1931
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8992742866390523,
      "learning_rate": 3.111190206660273e-06,
      "loss": 0.6616,
      "step": 1932
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8855347743122514,
      "learning_rate": 3.1062644322174147e-06,
      "loss": 0.7007,
      "step": 1933
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.798253135326948,
      "learning_rate": 3.1013408025722515e-06,
      "loss": 0.5988,
      "step": 1934
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.871708789125583,
      "learning_rate": 3.0964193233011643e-06,
      "loss": 0.6532,
      "step": 1935
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6346322026866689,
      "learning_rate": 3.091499999978097e-06,
      "loss": 0.5706,
      "step": 1936
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1805591876299553,
      "learning_rate": 3.0865828381745515e-06,
      "loss": 0.6832,
      "step": 1937
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1501172382217804,
      "learning_rate": 3.0816678434595844e-06,
      "loss": 0.7354,
      "step": 1938
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2584094509185824,
      "learning_rate": 3.076755021399795e-06,
      "loss": 0.7419,
      "step": 1939
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0772188911459322,
      "learning_rate": 3.0718443775593233e-06,
      "loss": 0.7202,
      "step": 1940
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1522373915819981,
      "learning_rate": 3.066935917499841e-06,
      "loss": 0.719,
      "step": 1941
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1035096140654306,
      "learning_rate": 3.0620296467805487e-06,
      "loss": 0.7657,
      "step": 1942
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7410774827247839,
      "learning_rate": 3.0571255709581676e-06,
      "loss": 0.6224,
      "step": 1943
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0768550129379468,
      "learning_rate": 3.0522236955869293e-06,
      "loss": 0.6745,
      "step": 1944
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8076309093826588,
      "learning_rate": 3.047324026218578e-06,
      "loss": 0.6158,
      "step": 1945
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.885103875993227,
      "learning_rate": 3.0424265684023556e-06,
      "loss": 0.7001,
      "step": 1946
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.390176401883864,
      "learning_rate": 3.0375313276850014e-06,
      "loss": 0.6782,
      "step": 1947
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9113862754208302,
      "learning_rate": 3.0326383096107424e-06,
      "loss": 0.7466,
      "step": 1948
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.709545543946271,
      "learning_rate": 3.0277475197212896e-06,
      "loss": 0.6287,
      "step": 1949
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8863571309619043,
      "learning_rate": 3.022858963555828e-06,
      "loss": 0.7163,
      "step": 1950
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.921810054318625,
      "learning_rate": 3.017972646651016e-06,
      "loss": 0.689,
      "step": 1951
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0373247741143032,
      "learning_rate": 3.0130885745409744e-06,
      "loss": 0.7231,
      "step": 1952
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.175536884812043,
      "learning_rate": 3.00820675275728e-06,
      "loss": 0.7275,
      "step": 1953
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8145511027808875,
      "learning_rate": 3.0033271868289647e-06,
      "loss": 0.5982,
      "step": 1954
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.948397055574477,
      "learning_rate": 2.9984498822825027e-06,
      "loss": 0.7433,
      "step": 1955
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.07165251380842,
      "learning_rate": 2.993574844641807e-06,
      "loss": 0.7379,
      "step": 1956
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.812150534060536,
      "learning_rate": 2.988702079428223e-06,
      "loss": 0.6892,
      "step": 1957
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5197598138630903,
      "learning_rate": 2.9838315921605237e-06,
      "loss": 0.7923,
      "step": 1958
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9549253513014004,
      "learning_rate": 2.9789633883549017e-06,
      "loss": 0.6886,
      "step": 1959
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0727487929939712,
      "learning_rate": 2.9740974735249627e-06,
      "loss": 0.7093,
      "step": 1960
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.740612331902952,
      "learning_rate": 2.9692338531817205e-06,
      "loss": 0.6041,
      "step": 1961
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9050364749449553,
      "learning_rate": 2.9643725328335908e-06,
      "loss": 0.6674,
      "step": 1962
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8779274209946476,
      "learning_rate": 2.9595135179863847e-06,
      "loss": 0.7297,
      "step": 1963
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8516235722851321,
      "learning_rate": 2.9546568141433007e-06,
      "loss": 0.6264,
      "step": 1964
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7477913772684961,
      "learning_rate": 2.9498024268049204e-06,
      "loss": 0.6191,
      "step": 1965
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8744448275072313,
      "learning_rate": 2.944950361469201e-06,
      "loss": 0.6586,
      "step": 1966
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9120401382687259,
      "learning_rate": 2.9401006236314722e-06,
      "loss": 0.7109,
      "step": 1967
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7687377220929822,
      "learning_rate": 2.9352532187844254e-06,
      "loss": 0.665,
      "step": 1968
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8473206320780012,
      "learning_rate": 2.9304081524181084e-06,
      "loss": 0.6253,
      "step": 1969
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8995605597845397,
      "learning_rate": 2.9255654300199253e-06,
      "loss": 0.6393,
      "step": 1970
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7294091191049588,
      "learning_rate": 2.920725057074623e-06,
      "loss": 0.7878,
      "step": 1971
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8374748362783845,
      "learning_rate": 2.915887039064287e-06,
      "loss": 0.7204,
      "step": 1972
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7363604417655537,
      "learning_rate": 2.9110513814683335e-06,
      "loss": 0.5813,
      "step": 1973
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7791962367809983,
      "learning_rate": 2.9062180897635118e-06,
      "loss": 0.6116,
      "step": 1974
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0614216996603811,
      "learning_rate": 2.9013871694238826e-06,
      "loss": 0.7383,
      "step": 1975
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8991898335235684,
      "learning_rate": 2.8965586259208295e-06,
      "loss": 0.6148,
      "step": 1976
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0193463245006935,
      "learning_rate": 2.891732464723041e-06,
      "loss": 0.7105,
      "step": 1977
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.6756708046241864,
      "learning_rate": 2.886908691296504e-06,
      "loss": 0.6068,
      "step": 1978
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4098594653038108,
      "learning_rate": 2.8820873111045045e-06,
      "loss": 0.7865,
      "step": 1979
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0098249714127747,
      "learning_rate": 2.8772683296076197e-06,
      "loss": 0.7255,
      "step": 1980
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0522440389564731,
      "learning_rate": 2.872451752263708e-06,
      "loss": 0.7431,
      "step": 1981
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9946856621746201,
      "learning_rate": 2.8676375845279013e-06,
      "loss": 0.6737,
      "step": 1982
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.059632648617319,
      "learning_rate": 2.8628258318526112e-06,
      "loss": 0.7661,
      "step": 1983
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.063024638466605,
      "learning_rate": 2.858016499687503e-06,
      "loss": 0.7856,
      "step": 1984
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9468682034993908,
      "learning_rate": 2.85320959347951e-06,
      "loss": 0.727,
      "step": 1985
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9615339498100798,
      "learning_rate": 2.848405118672815e-06,
      "loss": 0.7497,
      "step": 1986
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9515512026439488,
      "learning_rate": 2.8436030807088433e-06,
      "loss": 0.7297,
      "step": 1987
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.829131666267271,
      "learning_rate": 2.838803485026265e-06,
      "loss": 0.6059,
      "step": 1988
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7087185618475595,
      "learning_rate": 2.834006337060983e-06,
      "loss": 0.5486,
      "step": 1989
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9359273288635911,
      "learning_rate": 2.8292116422461283e-06,
      "loss": 0.6766,
      "step": 1990
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0758133612287009,
      "learning_rate": 2.82441940601205e-06,
      "loss": 0.7458,
      "step": 1991
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8371882023553302,
      "learning_rate": 2.819629633786319e-06,
      "loss": 0.6118,
      "step": 1992
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0227152950044127,
      "learning_rate": 2.814842330993708e-06,
      "loss": 0.7329,
      "step": 1993
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9837203798299266,
      "learning_rate": 2.810057503056198e-06,
      "loss": 0.7516,
      "step": 1994
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2468350685876322,
      "learning_rate": 2.8052751553929693e-06,
      "loss": 0.7777,
      "step": 1995
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.147633303106274,
      "learning_rate": 2.800495293420384e-06,
      "loss": 0.6985,
      "step": 1996
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9614586644591524,
      "learning_rate": 2.795717922551998e-06,
      "loss": 0.6942,
      "step": 1997
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7701101432830724,
      "learning_rate": 2.7909430481985413e-06,
      "loss": 0.5776,
      "step": 1998
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7917517360605211,
      "learning_rate": 2.7861706757679206e-06,
      "loss": 0.6573,
      "step": 1999
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7059480078254303,
      "learning_rate": 2.781400810665201e-06,
      "loss": 0.6348,
      "step": 2000
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8926791900032993,
      "learning_rate": 2.776633458292618e-06,
      "loss": 0.62,
      "step": 2001
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8089893434588384,
      "learning_rate": 2.771868624049551e-06,
      "loss": 0.618,
      "step": 2002
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8013566264071036,
      "learning_rate": 2.767106313332535e-06,
      "loss": 0.6644,
      "step": 2003
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9511404824376906,
      "learning_rate": 2.762346531535246e-06,
      "loss": 0.6995,
      "step": 2004
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9134528167595738,
      "learning_rate": 2.7575892840484907e-06,
      "loss": 0.67,
      "step": 2005
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7632296368150138,
      "learning_rate": 2.7528345762602125e-06,
      "loss": 0.605,
      "step": 2006
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7985685410969816,
      "learning_rate": 2.748082413555469e-06,
      "loss": 0.6574,
      "step": 2007
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.152898090709707,
      "learning_rate": 2.7433328013164493e-06,
      "loss": 0.7358,
      "step": 2008
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1270265588692512,
      "learning_rate": 2.7385857449224408e-06,
      "loss": 0.7057,
      "step": 2009
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.025793022698914,
      "learning_rate": 2.7338412497498435e-06,
      "loss": 0.7354,
      "step": 2010
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8546783356727344,
      "learning_rate": 2.729099321172151e-06,
      "loss": 0.6914,
      "step": 2011
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7914606403965692,
      "learning_rate": 2.724359964559958e-06,
      "loss": 0.6163,
      "step": 2012
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.784359468078925,
      "learning_rate": 2.719623185280937e-06,
      "loss": 0.5681,
      "step": 2013
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7624471056195732,
      "learning_rate": 2.714888988699848e-06,
      "loss": 0.6485,
      "step": 2014
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8583761243283972,
      "learning_rate": 2.710157380178527e-06,
      "loss": 0.6234,
      "step": 2015
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9261980817282136,
      "learning_rate": 2.705428365075868e-06,
      "loss": 0.6545,
      "step": 2016
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0762176777611616,
      "learning_rate": 2.7007019487478464e-06,
      "loss": 0.7739,
      "step": 2017
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7622884381237486,
      "learning_rate": 2.695978136547476e-06,
      "loss": 0.5518,
      "step": 2018
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0779983897736103,
      "learning_rate": 2.6912569338248317e-06,
      "loss": 0.7559,
      "step": 2019
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9207924872899833,
      "learning_rate": 2.686538345927027e-06,
      "loss": 0.7437,
      "step": 2020
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7532480142351556,
      "learning_rate": 2.681822378198221e-06,
      "loss": 0.5351,
      "step": 2021
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7431925084195286,
      "learning_rate": 2.677109035979597e-06,
      "loss": 0.5662,
      "step": 2022
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9500629544949974,
      "learning_rate": 2.6723983246093715e-06,
      "loss": 0.7408,
      "step": 2023
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9371609846364208,
      "learning_rate": 2.6676902494227795e-06,
      "loss": 0.659,
      "step": 2024
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9770211933971432,
      "learning_rate": 2.6629848157520656e-06,
      "loss": 0.6758,
      "step": 2025
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0926298565663675,
      "learning_rate": 2.6582820289264923e-06,
      "loss": 0.7014,
      "step": 2026
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.025779288052888,
      "learning_rate": 2.653581894272315e-06,
      "loss": 0.7713,
      "step": 2027
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.047762884005097,
      "learning_rate": 2.6488844171127903e-06,
      "loss": 0.7427,
      "step": 2028
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8774687210005119,
      "learning_rate": 2.6441896027681617e-06,
      "loss": 0.5775,
      "step": 2029
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8540237818012243,
      "learning_rate": 2.639497456555663e-06,
      "loss": 0.6909,
      "step": 2030
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9909470764944478,
      "learning_rate": 2.6348079837894974e-06,
      "loss": 0.7452,
      "step": 2031
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0336846274008862,
      "learning_rate": 2.6301211897808463e-06,
      "loss": 0.7408,
      "step": 2032
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9076741530898912,
      "learning_rate": 2.6254370798378594e-06,
      "loss": 0.6803,
      "step": 2033
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.7325350894144348,
      "learning_rate": 2.6207556592656356e-06,
      "loss": 0.5917,
      "step": 2034
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9899668717081586,
      "learning_rate": 2.6160769333662434e-06,
      "loss": 0.6256,
      "step": 2035
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0983831007647333,
      "learning_rate": 2.611400907438685e-06,
      "loss": 0.7353,
      "step": 2036
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0512831147736599,
      "learning_rate": 2.606727586778915e-06,
      "loss": 0.736,
      "step": 2037
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8261966672737239,
      "learning_rate": 2.6020569766798153e-06,
      "loss": 0.654,
      "step": 2038
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0939937973916856,
      "learning_rate": 2.5973890824312074e-06,
      "loss": 0.7275,
      "step": 2039
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8407557109921022,
      "learning_rate": 2.5927239093198273e-06,
      "loss": 0.6377,
      "step": 2040
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0776994787825174,
      "learning_rate": 2.5880614626293366e-06,
      "loss": 0.7698,
      "step": 2041
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0077833158765266,
      "learning_rate": 2.583401747640307e-06,
      "loss": 0.6848,
      "step": 2042
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8634663091325322,
      "learning_rate": 2.5787447696302125e-06,
      "loss": 0.645,
      "step": 2043
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1402340531653448,
      "learning_rate": 2.574090533873431e-06,
      "loss": 0.7468,
      "step": 2044
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.7943103717679028,
      "learning_rate": 2.569439045641236e-06,
      "loss": 0.6295,
      "step": 2045
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.063416858158866,
      "learning_rate": 2.564790310201787e-06,
      "loss": 0.7649,
      "step": 2046
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0668392773906477,
      "learning_rate": 2.5601443328201237e-06,
      "loss": 0.6689,
      "step": 2047
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.860398682846464,
      "learning_rate": 2.555501118758167e-06,
      "loss": 0.6241,
      "step": 2048
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.327070045740471,
      "learning_rate": 2.550860673274701e-06,
      "loss": 0.7177,
      "step": 2049
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0563337127042012,
      "learning_rate": 2.546223001625382e-06,
      "loss": 0.7356,
      "step": 2050
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9295422241664236,
      "learning_rate": 2.5415881090627227e-06,
      "loss": 0.6326,
      "step": 2051
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.2659865554437264,
      "learning_rate": 2.5369560008360826e-06,
      "loss": 0.7061,
      "step": 2052
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9378406417016409,
      "learning_rate": 2.5323266821916737e-06,
      "loss": 0.6742,
      "step": 2053
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.80786667529241,
      "learning_rate": 2.527700158372548e-06,
      "loss": 0.6906,
      "step": 2054
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.7725549994956369,
      "learning_rate": 2.5230764346185923e-06,
      "loss": 0.6163,
      "step": 2055
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8783153502944295,
      "learning_rate": 2.518455516166517e-06,
      "loss": 0.6611,
      "step": 2056
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9116030610729056,
      "learning_rate": 2.513837408249863e-06,
      "loss": 0.6285,
      "step": 2057
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6614461469856336,
      "learning_rate": 2.5092221160989803e-06,
      "loss": 0.6061,
      "step": 2058
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0061129928916446,
      "learning_rate": 2.5046096449410375e-06,
      "loss": 0.6595,
      "step": 2059
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0189835213765739,
      "learning_rate": 2.5000000000000015e-06,
      "loss": 0.6888,
      "step": 2060
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1310814961396534,
      "learning_rate": 2.495393186496642e-06,
      "loss": 0.7537,
      "step": 2061
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9762110139415332,
      "learning_rate": 2.4907892096485215e-06,
      "loss": 0.6797,
      "step": 2062
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8917313205757014,
      "learning_rate": 2.486188074669989e-06,
      "loss": 0.6303,
      "step": 2063
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0094983648335916,
      "learning_rate": 2.481589786772178e-06,
      "loss": 0.7676,
      "step": 2064
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.867264051859126,
      "learning_rate": 2.4769943511629913e-06,
      "loss": 0.6661,
      "step": 2065
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1150620474017132,
      "learning_rate": 2.472401773047107e-06,
      "loss": 0.7185,
      "step": 2066
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0108338355818332,
      "learning_rate": 2.467812057625962e-06,
      "loss": 0.7847,
      "step": 2067
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8637345161872358,
      "learning_rate": 2.4632252100977567e-06,
      "loss": 0.5945,
      "step": 2068
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7611386796290676,
      "learning_rate": 2.4586412356574367e-06,
      "loss": 0.6046,
      "step": 2069
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.265298299955931,
      "learning_rate": 2.4540601394966996e-06,
      "loss": 0.7572,
      "step": 2070
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8486197590452692,
      "learning_rate": 2.44948192680398e-06,
      "loss": 0.6045,
      "step": 2071
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9631604145491895,
      "learning_rate": 2.4449066027644473e-06,
      "loss": 0.7449,
      "step": 2072
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9850962810475538,
      "learning_rate": 2.4403341725600023e-06,
      "loss": 0.6781,
      "step": 2073
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7826883847301823,
      "learning_rate": 2.43576464136926e-06,
      "loss": 0.587,
      "step": 2074
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4600829157296935,
      "learning_rate": 2.4311980143675635e-06,
      "loss": 0.6586,
      "step": 2075
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8796772352303198,
      "learning_rate": 2.426634296726955e-06,
      "loss": 0.7357,
      "step": 2076
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9983346774851927,
      "learning_rate": 2.4220734936161927e-06,
      "loss": 0.6954,
      "step": 2077
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.515663197147992,
      "learning_rate": 2.4175156102007237e-06,
      "loss": 0.7467,
      "step": 2078
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8897080693610713,
      "learning_rate": 2.4129606516426953e-06,
      "loss": 0.6047,
      "step": 2079
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8087462639935759,
      "learning_rate": 2.40840862310094e-06,
      "loss": 0.6932,
      "step": 2080
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9019714323944577,
      "learning_rate": 2.4038595297309712e-06,
      "loss": 0.6557,
      "step": 2081
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8017606356486331,
      "learning_rate": 2.3993133766849814e-06,
      "loss": 0.6504,
      "step": 2082
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7390144337084237,
      "learning_rate": 2.394770169111826e-06,
      "loss": 0.5489,
      "step": 2083
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1073669200068719,
      "learning_rate": 2.3902299121570332e-06,
      "loss": 0.6987,
      "step": 2084
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7557800051919714,
      "learning_rate": 2.3856926109627804e-06,
      "loss": 0.6885,
      "step": 2085
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8550787102297353,
      "learning_rate": 2.3811582706679056e-06,
      "loss": 0.6186,
      "step": 2086
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9428467339599826,
      "learning_rate": 2.3766268964078857e-06,
      "loss": 0.7467,
      "step": 2087
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8436826943118754,
      "learning_rate": 2.3720984933148443e-06,
      "loss": 0.6195,
      "step": 2088
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9470815052281697,
      "learning_rate": 2.36757306651754e-06,
      "loss": 0.7141,
      "step": 2089
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0225893994166266,
      "learning_rate": 2.363050621141354e-06,
      "loss": 0.7431,
      "step": 2090
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9109447096142114,
      "learning_rate": 2.3585311623082972e-06,
      "loss": 0.679,
      "step": 2091
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8973588898208569,
      "learning_rate": 2.354014695136997e-06,
      "loss": 0.6826,
      "step": 2092
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6532058627464972,
      "learning_rate": 2.349501224742692e-06,
      "loss": 0.6116,
      "step": 2093
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9676703054486496,
      "learning_rate": 2.3449907562372234e-06,
      "loss": 0.7007,
      "step": 2094
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.85621986235735,
      "learning_rate": 2.3404832947290383e-06,
      "loss": 0.6895,
      "step": 2095
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.626749111568187,
      "learning_rate": 2.3359788453231723e-06,
      "loss": 0.593,
      "step": 2096
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2479840117196659,
      "learning_rate": 2.331477413121254e-06,
      "loss": 0.7534,
      "step": 2097
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8770723096360901,
      "learning_rate": 2.326979003221496e-06,
      "loss": 0.7286,
      "step": 2098
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9383872734593304,
      "learning_rate": 2.32248362071868e-06,
      "loss": 0.7205,
      "step": 2099
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9151111974316978,
      "learning_rate": 2.317991270704167e-06,
      "loss": 0.6928,
      "step": 2100
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7555415472217282,
      "learning_rate": 2.3135019582658803e-06,
      "loss": 0.6513,
      "step": 2101
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9606491983550283,
      "learning_rate": 2.309015688488305e-06,
      "loss": 0.5794,
      "step": 2102
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9221812457001108,
      "learning_rate": 2.304532466452475e-06,
      "loss": 0.6175,
      "step": 2103
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9202447138689699,
      "learning_rate": 2.3000522972359803e-06,
      "loss": 0.7489,
      "step": 2104
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8901753644822977,
      "learning_rate": 2.2955751859129437e-06,
      "loss": 0.587,
      "step": 2105
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9715338014178571,
      "learning_rate": 2.2911011375540343e-06,
      "loss": 0.7412,
      "step": 2106
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.002355251283815,
      "learning_rate": 2.286630157226444e-06,
      "loss": 0.7066,
      "step": 2107
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8664037350660766,
      "learning_rate": 2.282162249993895e-06,
      "loss": 0.7094,
      "step": 2108
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.733857300800554,
      "learning_rate": 2.277697420916628e-06,
      "loss": 0.5772,
      "step": 2109
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9471629540989608,
      "learning_rate": 2.273235675051398e-06,
      "loss": 0.6834,
      "step": 2110
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0260097717072798,
      "learning_rate": 2.2687770174514674e-06,
      "loss": 0.7318,
      "step": 2111
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8155703814686266,
      "learning_rate": 2.264321453166598e-06,
      "loss": 0.5962,
      "step": 2112
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9050166384412313,
      "learning_rate": 2.259868987243054e-06,
      "loss": 0.674,
      "step": 2113
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.087278273147221,
      "learning_rate": 2.2554196247235843e-06,
      "loss": 0.7253,
      "step": 2114
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0591040874614057,
      "learning_rate": 2.250973370647429e-06,
      "loss": 0.7213,
      "step": 2115
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9361316940671799,
      "learning_rate": 2.2465302300503012e-06,
      "loss": 0.7052,
      "step": 2116
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7118694264036951,
      "learning_rate": 2.242090207964393e-06,
      "loss": 0.6042,
      "step": 2117
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8173917356760783,
      "learning_rate": 2.237653309418363e-06,
      "loss": 0.7387,
      "step": 2118
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.723170499375433,
      "learning_rate": 2.2332195394373306e-06,
      "loss": 0.5727,
      "step": 2119
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9715135888982307,
      "learning_rate": 2.228788903042877e-06,
      "loss": 0.7393,
      "step": 2120
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5935619645220389,
      "learning_rate": 2.2243614052530256e-06,
      "loss": 0.6379,
      "step": 2121
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9511706166035729,
      "learning_rate": 2.2199370510822536e-06,
      "loss": 0.759,
      "step": 2122
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8080327696622427,
      "learning_rate": 2.2155158455414717e-06,
      "loss": 0.6405,
      "step": 2123
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.880837805998467,
      "learning_rate": 2.211097793638029e-06,
      "loss": 0.7259,
      "step": 2124
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9041430175555744,
      "learning_rate": 2.206682900375699e-06,
      "loss": 0.6832,
      "step": 2125
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9463908062440712,
      "learning_rate": 2.20227117075468e-06,
      "loss": 0.7022,
      "step": 2126
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6709353974144044,
      "learning_rate": 2.197862609771588e-06,
      "loss": 0.5961,
      "step": 2127
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8290351452402509,
      "learning_rate": 2.19345722241945e-06,
      "loss": 0.6675,
      "step": 2128
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.117012038098709,
      "learning_rate": 2.189055013687698e-06,
      "loss": 0.7148,
      "step": 2129
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9602651508269325,
      "learning_rate": 2.184655988562161e-06,
      "loss": 0.7122,
      "step": 2130
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7636183085285054,
      "learning_rate": 2.180260152025069e-06,
      "loss": 0.6369,
      "step": 2131
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8722805920193527,
      "learning_rate": 2.175867509055033e-06,
      "loss": 0.7236,
      "step": 2132
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7952139250410909,
      "learning_rate": 2.171478064627055e-06,
      "loss": 0.6356,
      "step": 2133
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7269998395637126,
      "learning_rate": 2.167091823712506e-06,
      "loss": 0.6565,
      "step": 2134
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4384176530479187,
      "learning_rate": 2.162708791279135e-06,
      "loss": 0.7072,
      "step": 2135
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0681386607709715,
      "learning_rate": 2.158328972291056e-06,
      "loss": 0.694,
      "step": 2136
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.375938001877676,
      "learning_rate": 2.153952371708742e-06,
      "loss": 0.7154,
      "step": 2137
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8987039446354242,
      "learning_rate": 2.149578994489024e-06,
      "loss": 0.7006,
      "step": 2138
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8743757897933216,
      "learning_rate": 2.145208845585076e-06,
      "loss": 0.6671,
      "step": 2139
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8801607929643862,
      "learning_rate": 2.1408419299464245e-06,
      "loss": 0.7099,
      "step": 2140
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7140775297859552,
      "learning_rate": 2.136478252518924e-06,
      "loss": 0.6265,
      "step": 2141
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9327094830900421,
      "learning_rate": 2.132117818244771e-06,
      "loss": 0.7004,
      "step": 2142
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8527473508962089,
      "learning_rate": 2.1277606320624815e-06,
      "loss": 0.6837,
      "step": 2143
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0824426506801685,
      "learning_rate": 2.1234066989068972e-06,
      "loss": 0.7446,
      "step": 2144
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0382830711437556,
      "learning_rate": 2.1190560237091745e-06,
      "loss": 0.6901,
      "step": 2145
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.996974903638561,
      "learning_rate": 2.114708611396782e-06,
      "loss": 0.7725,
      "step": 2146
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.7033032334131748,
      "learning_rate": 2.1103644668934857e-06,
      "loss": 0.7028,
      "step": 2147
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9061865534754155,
      "learning_rate": 2.106023595119358e-06,
      "loss": 0.6667,
      "step": 2148
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.578913465080487,
      "learning_rate": 2.101686000990764e-06,
      "loss": 0.7521,
      "step": 2149
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1051153463484717,
      "learning_rate": 2.0973516894203507e-06,
      "loss": 0.7256,
      "step": 2150
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.96893121483155,
      "learning_rate": 2.093020665317055e-06,
      "loss": 0.6689,
      "step": 2151
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0878513693296987,
      "learning_rate": 2.088692933586083e-06,
      "loss": 0.7793,
      "step": 2152
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0384117141216973,
      "learning_rate": 2.0843684991289177e-06,
      "loss": 0.7491,
      "step": 2153
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0457070924439362,
      "learning_rate": 2.0800473668433057e-06,
      "loss": 0.6789,
      "step": 2154
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.170479337407435,
      "learning_rate": 2.075729541623256e-06,
      "loss": 0.7428,
      "step": 2155
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.941057017957947,
      "learning_rate": 2.071415028359026e-06,
      "loss": 0.7217,
      "step": 2156
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.893792839171435,
      "learning_rate": 2.0671038319371273e-06,
      "loss": 0.6611,
      "step": 2157
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6607608603009492,
      "learning_rate": 2.0627959572403155e-06,
      "loss": 0.6902,
      "step": 2158
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0913475415755676,
      "learning_rate": 2.058491409147579e-06,
      "loss": 0.7742,
      "step": 2159
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9257871849722641,
      "learning_rate": 2.0541901925341446e-06,
      "loss": 0.6141,
      "step": 2160
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.992666898473016,
      "learning_rate": 2.0498923122714594e-06,
      "loss": 0.7204,
      "step": 2161
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0864846997707491,
      "learning_rate": 2.045597773227199e-06,
      "loss": 0.691,
      "step": 2162
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8461784174941392,
      "learning_rate": 2.0413065802652484e-06,
      "loss": 0.6649,
      "step": 2163
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8808081866240309,
      "learning_rate": 2.037018738245707e-06,
      "loss": 0.6846,
      "step": 2164
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.967868881340015,
      "learning_rate": 2.032734252024877e-06,
      "loss": 0.7463,
      "step": 2165
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.792847840371129,
      "learning_rate": 2.0284531264552626e-06,
      "loss": 0.5986,
      "step": 2166
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.7376106361649352,
      "learning_rate": 2.02417536638556e-06,
      "loss": 0.5882,
      "step": 2167
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9062098739265633,
      "learning_rate": 2.019900976660651e-06,
      "loss": 0.6841,
      "step": 2168
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.959470309326995,
      "learning_rate": 2.015629962121606e-06,
      "loss": 0.7475,
      "step": 2169
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1235708329617362,
      "learning_rate": 2.011362327605666e-06,
      "loss": 0.7558,
      "step": 2170
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0214152776383376,
      "learning_rate": 2.0070980779462513e-06,
      "loss": 0.7485,
      "step": 2171
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8807699106700084,
      "learning_rate": 2.0028372179729405e-06,
      "loss": 0.7124,
      "step": 2172
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.082916770473809,
      "learning_rate": 1.9985797525114805e-06,
      "loss": 0.6983,
      "step": 2173
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.159096209057569,
      "learning_rate": 1.994325686383769e-06,
      "loss": 0.6298,
      "step": 2174
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.879344616249036,
      "learning_rate": 1.9900750244078564e-06,
      "loss": 0.7366,
      "step": 2175
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9804568427413919,
      "learning_rate": 1.985827771397938e-06,
      "loss": 0.7107,
      "step": 2176
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9241568892030251,
      "learning_rate": 1.981583932164342e-06,
      "loss": 0.705,
      "step": 2177
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.813399469945951,
      "learning_rate": 1.9773435115135405e-06,
      "loss": 0.6058,
      "step": 2178
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.015659661977859,
      "learning_rate": 1.973106514248123e-06,
      "loss": 0.6116,
      "step": 2179
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9499200570076511,
      "learning_rate": 1.9688729451668116e-06,
      "loss": 0.6788,
      "step": 2180
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9534437678264098,
      "learning_rate": 1.964642809064437e-06,
      "loss": 0.6748,
      "step": 2181
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9197918012052071,
      "learning_rate": 1.9604161107319475e-06,
      "loss": 0.6801,
      "step": 2182
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9682069175406788,
      "learning_rate": 1.956192854956397e-06,
      "loss": 0.7311,
      "step": 2183
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8769431834402756,
      "learning_rate": 1.9519730465209384e-06,
      "loss": 0.7269,
      "step": 2184
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8918871456084254,
      "learning_rate": 1.947756690204825e-06,
      "loss": 0.6188,
      "step": 2185
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2692398795206097,
      "learning_rate": 1.943543790783392e-06,
      "loss": 0.7264,
      "step": 2186
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9339035331575236,
      "learning_rate": 1.9393343530280683e-06,
      "loss": 0.6822,
      "step": 2187
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9091797060594193,
      "learning_rate": 1.935128381706355e-06,
      "loss": 0.8044,
      "step": 2188
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0734636595028195,
      "learning_rate": 1.9309258815818326e-06,
      "loss": 0.6636,
      "step": 2189
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.759124594334479,
      "learning_rate": 1.926726857414146e-06,
      "loss": 0.5694,
      "step": 2190
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8585531473837005,
      "learning_rate": 1.9225313139590063e-06,
      "loss": 0.7224,
      "step": 2191
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3077012495557623,
      "learning_rate": 1.9183392559681812e-06,
      "loss": 0.7485,
      "step": 2192
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0707210332056263,
      "learning_rate": 1.9141506881894932e-06,
      "loss": 0.6359,
      "step": 2193
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7657055350197501,
      "learning_rate": 1.9099656153668066e-06,
      "loss": 0.6781,
      "step": 2194
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.379787199098572,
      "learning_rate": 1.905784042240032e-06,
      "loss": 0.7076,
      "step": 2195
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.868338948246096,
      "learning_rate": 1.901605973545116e-06,
      "loss": 0.5941,
      "step": 2196
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8277827861013984,
      "learning_rate": 1.897431414014032e-06,
      "loss": 0.6583,
      "step": 2197
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9352633218689732,
      "learning_rate": 1.8932603683747858e-06,
      "loss": 0.6137,
      "step": 2198
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7600038305243594,
      "learning_rate": 1.8890928413513959e-06,
      "loss": 0.6183,
      "step": 2199
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0498290117136189,
      "learning_rate": 1.884928837663902e-06,
      "loss": 0.7651,
      "step": 2200
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.059479192312,
      "learning_rate": 1.8807683620283496e-06,
      "loss": 0.7141,
      "step": 2201
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.034973064068419,
      "learning_rate": 1.8766114191567926e-06,
      "loss": 0.7562,
      "step": 2202
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9775821763715381,
      "learning_rate": 1.8724580137572762e-06,
      "loss": 0.7075,
      "step": 2203
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0187896881208511,
      "learning_rate": 1.8683081505338468e-06,
      "loss": 0.7814,
      "step": 2204
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8861074474902945,
      "learning_rate": 1.864161834186537e-06,
      "loss": 0.6438,
      "step": 2205
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7293480275456045,
      "learning_rate": 1.860019069411358e-06,
      "loss": 0.5603,
      "step": 2206
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8625956627175843,
      "learning_rate": 1.8558798609003053e-06,
      "loss": 0.7177,
      "step": 2207
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7501073328817178,
      "learning_rate": 1.8517442133413405e-06,
      "loss": 0.7038,
      "step": 2208
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7143771957589166,
      "learning_rate": 1.8476121314183976e-06,
      "loss": 0.6202,
      "step": 2209
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8579071729183767,
      "learning_rate": 1.8434836198113642e-06,
      "loss": 0.7245,
      "step": 2210
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8187720035806608,
      "learning_rate": 1.8393586831960975e-06,
      "loss": 0.6421,
      "step": 2211
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.776716138409568,
      "learning_rate": 1.8352373262443918e-06,
      "loss": 0.5869,
      "step": 2212
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9930383240061612,
      "learning_rate": 1.8311195536239956e-06,
      "loss": 0.7317,
      "step": 2213
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0007070713891881,
      "learning_rate": 1.8270053699985967e-06,
      "loss": 0.7135,
      "step": 2214
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7079162053223499,
      "learning_rate": 1.822894780027814e-06,
      "loss": 0.6142,
      "step": 2215
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8557853266641988,
      "learning_rate": 1.8187877883672024e-06,
      "loss": 0.6993,
      "step": 2216
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8271619031457423,
      "learning_rate": 1.8146843996682345e-06,
      "loss": 0.6021,
      "step": 2217
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.240238905587141,
      "learning_rate": 1.8105846185783098e-06,
      "loss": 0.7191,
      "step": 2218
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8991137730407334,
      "learning_rate": 1.8064884497407332e-06,
      "loss": 0.7631,
      "step": 2219
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9373229006969007,
      "learning_rate": 1.8023958977947303e-06,
      "loss": 0.7126,
      "step": 2220
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9352359531510666,
      "learning_rate": 1.7983069673754177e-06,
      "loss": 0.6905,
      "step": 2221
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0638648841886977,
      "learning_rate": 1.7942216631138188e-06,
      "loss": 0.6805,
      "step": 2222
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7703629234040467,
      "learning_rate": 1.7901399896368476e-06,
      "loss": 0.6152,
      "step": 2223
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7035943082090786,
      "learning_rate": 1.7860619515673034e-06,
      "loss": 0.6257,
      "step": 2224
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8306267761048095,
      "learning_rate": 1.7819875535238739e-06,
      "loss": 0.7144,
      "step": 2225
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8563729763508859,
      "learning_rate": 1.7779168001211167e-06,
      "loss": 0.716,
      "step": 2226
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7362490234802721,
      "learning_rate": 1.7738496959694695e-06,
      "loss": 0.5701,
      "step": 2227
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8104986160259706,
      "learning_rate": 1.7697862456752273e-06,
      "loss": 0.6322,
      "step": 2228
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9496699960718955,
      "learning_rate": 1.7657264538405606e-06,
      "loss": 0.6466,
      "step": 2229
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8199295378487962,
      "learning_rate": 1.7616703250634826e-06,
      "loss": 0.6544,
      "step": 2230
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9838028882791889,
      "learning_rate": 1.757617863937865e-06,
      "loss": 0.736,
      "step": 2231
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.954831970584681,
      "learning_rate": 1.7535690750534268e-06,
      "loss": 0.7121,
      "step": 2232
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.886935336515458,
      "learning_rate": 1.7495239629957211e-06,
      "loss": 0.7008,
      "step": 2233
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.856558741774976,
      "learning_rate": 1.745482532346145e-06,
      "loss": 0.5792,
      "step": 2234
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9234587093703415,
      "learning_rate": 1.7414447876819184e-06,
      "loss": 0.6396,
      "step": 2235
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8200625867172286,
      "learning_rate": 1.7374107335760937e-06,
      "loss": 0.6883,
      "step": 2236
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9307965057487891,
      "learning_rate": 1.7333803745975353e-06,
      "loss": 0.5965,
      "step": 2237
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9657747561840918,
      "learning_rate": 1.729353715310933e-06,
      "loss": 0.7105,
      "step": 2238
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8896189240497884,
      "learning_rate": 1.7253307602767771e-06,
      "loss": 0.7196,
      "step": 2239
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8018309297013578,
      "learning_rate": 1.7213115140513687e-06,
      "loss": 0.6989,
      "step": 2240
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1257710057668444,
      "learning_rate": 1.7172959811868023e-06,
      "loss": 0.8016,
      "step": 2241
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0751816635016413,
      "learning_rate": 1.7132841662309725e-06,
      "loss": 0.7045,
      "step": 2242
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6625424983974788,
      "learning_rate": 1.7092760737275626e-06,
      "loss": 0.6047,
      "step": 2243
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9497054258100329,
      "learning_rate": 1.7052717082160348e-06,
      "loss": 0.6694,
      "step": 2244
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.7752209133355917,
      "learning_rate": 1.7012710742316362e-06,
      "loss": 0.5839,
      "step": 2245
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9628898787086543,
      "learning_rate": 1.6972741763053835e-06,
      "loss": 0.6097,
      "step": 2246
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3574264638615148,
      "learning_rate": 1.6932810189640636e-06,
      "loss": 0.6841,
      "step": 2247
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9599700601878787,
      "learning_rate": 1.6892916067302279e-06,
      "loss": 0.7711,
      "step": 2248
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.927396596336055,
      "learning_rate": 1.685305944122187e-06,
      "loss": 0.6578,
      "step": 2249
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9855175799368353,
      "learning_rate": 1.681324035653999e-06,
      "loss": 0.6696,
      "step": 2250
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9680569016587347,
      "learning_rate": 1.6773458858354764e-06,
      "loss": 0.7659,
      "step": 2251
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0806703049057447,
      "learning_rate": 1.6733714991721738e-06,
      "loss": 0.69,
      "step": 2252
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9362279942021343,
      "learning_rate": 1.6694008801653799e-06,
      "loss": 0.5779,
      "step": 2253
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2544596075842462,
      "learning_rate": 1.6654340333121211e-06,
      "loss": 0.6764,
      "step": 2254
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9520004654653001,
      "learning_rate": 1.6614709631051461e-06,
      "loss": 0.6048,
      "step": 2255
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9977192562480366,
      "learning_rate": 1.6575116740329316e-06,
      "loss": 0.6899,
      "step": 2256
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0455484953521317,
      "learning_rate": 1.65355617057967e-06,
      "loss": 0.7459,
      "step": 2257
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.6867312457721512,
      "learning_rate": 1.649604457225266e-06,
      "loss": 0.6287,
      "step": 2258
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9150682612056384,
      "learning_rate": 1.6456565384453304e-06,
      "loss": 0.6748,
      "step": 2259
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9694230296455044,
      "learning_rate": 1.6417124187111778e-06,
      "loss": 0.7444,
      "step": 2260
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0246113885320909,
      "learning_rate": 1.6377721024898214e-06,
      "loss": 0.6715,
      "step": 2261
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8107315544020898,
      "learning_rate": 1.6338355942439627e-06,
      "loss": 0.6901,
      "step": 2262
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.7627760055590862,
      "learning_rate": 1.6299028984319959e-06,
      "loss": 0.6191,
      "step": 2263
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9345107729870828,
      "learning_rate": 1.6259740195079903e-06,
      "loss": 0.7261,
      "step": 2264
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8296635451080673,
      "learning_rate": 1.6220489619216988e-06,
      "loss": 0.6133,
      "step": 2265
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.950122374955946,
      "learning_rate": 1.6181277301185433e-06,
      "loss": 0.6989,
      "step": 2266
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0123084353771723,
      "learning_rate": 1.614210328539615e-06,
      "loss": 0.68,
      "step": 2267
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0905218020000498,
      "learning_rate": 1.610296761621662e-06,
      "loss": 0.7888,
      "step": 2268
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9625924543220925,
      "learning_rate": 1.6063870337970939e-06,
      "loss": 0.6796,
      "step": 2269
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1147784719953537,
      "learning_rate": 1.6024811494939723e-06,
      "loss": 0.7758,
      "step": 2270
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.276400839702054,
      "learning_rate": 1.5985791131360023e-06,
      "loss": 0.7256,
      "step": 2271
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.82537321066666,
      "learning_rate": 1.5946809291425352e-06,
      "loss": 0.6532,
      "step": 2272
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1619479325156832,
      "learning_rate": 1.5907866019285544e-06,
      "loss": 0.7007,
      "step": 2273
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9032222600118218,
      "learning_rate": 1.5868961359046791e-06,
      "loss": 0.7224,
      "step": 2274
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8814112135146105,
      "learning_rate": 1.5830095354771547e-06,
      "loss": 0.7832,
      "step": 2275
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8535898002576666,
      "learning_rate": 1.5791268050478487e-06,
      "loss": 0.6948,
      "step": 2276
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6602149771215289,
      "learning_rate": 1.575247949014242e-06,
      "loss": 0.6342,
      "step": 2277
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0476524175037971,
      "learning_rate": 1.571372971769432e-06,
      "loss": 0.7462,
      "step": 2278
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0798914573601566,
      "learning_rate": 1.5675018777021223e-06,
      "loss": 0.7892,
      "step": 2279
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6715191713452764,
      "learning_rate": 1.5636346711966154e-06,
      "loss": 0.6318,
      "step": 2280
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8731846102011561,
      "learning_rate": 1.5597713566328155e-06,
      "loss": 0.6034,
      "step": 2281
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9771259952034478,
      "learning_rate": 1.555911938386213e-06,
      "loss": 0.7391,
      "step": 2282
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0742878541039196,
      "learning_rate": 1.552056420827891e-06,
      "loss": 0.714,
      "step": 2283
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8249563919109208,
      "learning_rate": 1.5482048083245116e-06,
      "loss": 0.5653,
      "step": 2284
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9189412489491939,
      "learning_rate": 1.5443571052383177e-06,
      "loss": 0.7025,
      "step": 2285
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0655754934671813,
      "learning_rate": 1.5405133159271185e-06,
      "loss": 0.7324,
      "step": 2286
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4236010687009384,
      "learning_rate": 1.5366734447442966e-06,
      "loss": 0.7304,
      "step": 2287
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.99098862927033,
      "learning_rate": 1.532837496038792e-06,
      "loss": 0.6829,
      "step": 2288
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8260423833596899,
      "learning_rate": 1.5290054741551053e-06,
      "loss": 0.6287,
      "step": 2289
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9787730954929447,
      "learning_rate": 1.525177383433291e-06,
      "loss": 0.7575,
      "step": 2290
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8798663852811839,
      "learning_rate": 1.5213532282089466e-06,
      "loss": 0.6599,
      "step": 2291
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.969265235201983,
      "learning_rate": 1.517533012813217e-06,
      "loss": 0.7017,
      "step": 2292
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8981838699639176,
      "learning_rate": 1.5137167415727788e-06,
      "loss": 0.6768,
      "step": 2293
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0393484041086665,
      "learning_rate": 1.509904418809852e-06,
      "loss": 0.7473,
      "step": 2294
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0101386399578525,
      "learning_rate": 1.5060960488421732e-06,
      "loss": 0.7109,
      "step": 2295
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9025384698138308,
      "learning_rate": 1.5022916359830114e-06,
      "loss": 0.6554,
      "step": 2296
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.766317158098151,
      "learning_rate": 1.4984911845411453e-06,
      "loss": 0.6226,
      "step": 2297
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9766447399522403,
      "learning_rate": 1.4946946988208743e-06,
      "loss": 0.7211,
      "step": 2298
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.933553926581182,
      "learning_rate": 1.4909021831220038e-06,
      "loss": 0.597,
      "step": 2299
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8697386010365047,
      "learning_rate": 1.4871136417398407e-06,
      "loss": 0.6142,
      "step": 2300
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0278921455122936,
      "learning_rate": 1.483329078965195e-06,
      "loss": 0.7655,
      "step": 2301
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7665616140376137,
      "learning_rate": 1.4795484990843628e-06,
      "loss": 0.6185,
      "step": 2302
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.872712926475198,
      "learning_rate": 1.475771906379142e-06,
      "loss": 0.6141,
      "step": 2303
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1939052073042167,
      "learning_rate": 1.4719993051268023e-06,
      "loss": 0.7234,
      "step": 2304
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8372613493437797,
      "learning_rate": 1.4682306996001005e-06,
      "loss": 0.6082,
      "step": 2305
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9489580526426686,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.7614,
      "step": 2306
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7457575316505939,
      "learning_rate": 1.460705492791989e-06,
      "loss": 0.5758,
      "step": 2307
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0292132362562278,
      "learning_rate": 1.4569489000334435e-06,
      "loss": 0.7581,
      "step": 2308
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9572622022289624,
      "learning_rate": 1.4531963200462468e-06,
      "loss": 0.6689,
      "step": 2309
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0554587791066596,
      "learning_rate": 1.4494477570804804e-06,
      "loss": 0.7524,
      "step": 2310
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9364609098319481,
      "learning_rate": 1.4457032153816685e-06,
      "loss": 0.753,
      "step": 2311
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0226862622032427,
      "learning_rate": 1.4419626991907925e-06,
      "loss": 0.7034,
      "step": 2312
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.042116811626767,
      "learning_rate": 1.4382262127442631e-06,
      "loss": 0.7209,
      "step": 2313
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.799201429097123,
      "learning_rate": 1.4344937602739339e-06,
      "loss": 0.5557,
      "step": 2314
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.059056434139413,
      "learning_rate": 1.4307653460070848e-06,
      "loss": 0.7132,
      "step": 2315
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1203837242475234,
      "learning_rate": 1.427040974166427e-06,
      "loss": 0.7053,
      "step": 2316
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8630246003563936,
      "learning_rate": 1.4233206489700924e-06,
      "loss": 0.6888,
      "step": 2317
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1209329223887043,
      "learning_rate": 1.4196043746316252e-06,
      "loss": 0.7447,
      "step": 2318
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.759031486675271,
      "learning_rate": 1.415892155359988e-06,
      "loss": 0.5598,
      "step": 2319
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8001923524836853,
      "learning_rate": 1.412183995359544e-06,
      "loss": 0.632,
      "step": 2320
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.957637432099812,
      "learning_rate": 1.4084798988300684e-06,
      "loss": 0.7328,
      "step": 2321
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7572046734275358,
      "learning_rate": 1.4047798699667242e-06,
      "loss": 0.6298,
      "step": 2322
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9925036551599975,
      "learning_rate": 1.4010839129600745e-06,
      "loss": 0.6811,
      "step": 2323
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8035499735802705,
      "learning_rate": 1.3973920319960654e-06,
      "loss": 0.6071,
      "step": 2324
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8695006591503208,
      "learning_rate": 1.3937042312560306e-06,
      "loss": 0.6474,
      "step": 2325
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9256047488816992,
      "learning_rate": 1.3900205149166829e-06,
      "loss": 0.7166,
      "step": 2326
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8028049898495258,
      "learning_rate": 1.3863408871501043e-06,
      "loss": 0.594,
      "step": 2327
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0010378910151072,
      "learning_rate": 1.3826653521237526e-06,
      "loss": 0.7344,
      "step": 2328
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.964910420005908,
      "learning_rate": 1.378993914000445e-06,
      "loss": 0.5614,
      "step": 2329
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.965660785960382,
      "learning_rate": 1.3753265769383605e-06,
      "loss": 0.7112,
      "step": 2330
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9905456054252102,
      "learning_rate": 1.3716633450910356e-06,
      "loss": 0.7863,
      "step": 2331
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8788903703517027,
      "learning_rate": 1.3680042226073554e-06,
      "loss": 0.6289,
      "step": 2332
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9773333237645289,
      "learning_rate": 1.3643492136315483e-06,
      "loss": 0.7602,
      "step": 2333
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.784253379200809,
      "learning_rate": 1.36069832230319e-06,
      "loss": 0.6283,
      "step": 2334
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8240414655900364,
      "learning_rate": 1.3570515527571849e-06,
      "loss": 0.6477,
      "step": 2335
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8341261327217895,
      "learning_rate": 1.3534089091237757e-06,
      "loss": 0.7206,
      "step": 2336
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0968410607237575,
      "learning_rate": 1.3497703955285302e-06,
      "loss": 0.7633,
      "step": 2337
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6434173913199392,
      "learning_rate": 1.3461360160923364e-06,
      "loss": 0.5406,
      "step": 2338
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2325673211036028,
      "learning_rate": 1.3425057749314023e-06,
      "loss": 0.667,
      "step": 2339
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8093830491155822,
      "learning_rate": 1.3388796761572493e-06,
      "loss": 0.6587,
      "step": 2340
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8542688967026558,
      "learning_rate": 1.335257723876708e-06,
      "loss": 0.6229,
      "step": 2341
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8978789636785226,
      "learning_rate": 1.3316399221919075e-06,
      "loss": 0.6349,
      "step": 2342
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9507149652346719,
      "learning_rate": 1.3280262752002832e-06,
      "loss": 0.7443,
      "step": 2343
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7353243756716362,
      "learning_rate": 1.324416786994559e-06,
      "loss": 0.5487,
      "step": 2344
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9048026829041279,
      "learning_rate": 1.3208114616627526e-06,
      "loss": 0.7263,
      "step": 2345
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9602512266366188,
      "learning_rate": 1.3172103032881666e-06,
      "loss": 0.724,
      "step": 2346
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0034333210638684,
      "learning_rate": 1.3136133159493803e-06,
      "loss": 0.6601,
      "step": 2347
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7845987046521762,
      "learning_rate": 1.310020503720254e-06,
      "loss": 0.6196,
      "step": 2348
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7441463075195672,
      "learning_rate": 1.3064318706699163e-06,
      "loss": 0.6283,
      "step": 2349
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7890316246766113,
      "learning_rate": 1.302847420862766e-06,
      "loss": 0.5754,
      "step": 2350
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7828118340962072,
      "learning_rate": 1.2992671583584587e-06,
      "loss": 0.617,
      "step": 2351
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8006996791453317,
      "learning_rate": 1.295691087211912e-06,
      "loss": 0.6803,
      "step": 2352
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.819968711511745,
      "learning_rate": 1.2921192114732938e-06,
      "loss": 0.6211,
      "step": 2353
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7463902041380432,
      "learning_rate": 1.2885515351880217e-06,
      "loss": 0.6281,
      "step": 2354
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8517293797540987,
      "learning_rate": 1.2849880623967586e-06,
      "loss": 0.6318,
      "step": 2355
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.137508226006581,
      "learning_rate": 1.2814287971354023e-06,
      "loss": 0.77,
      "step": 2356
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.018393423742066,
      "learning_rate": 1.2778737434350897e-06,
      "loss": 0.679,
      "step": 2357
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0863550300375027,
      "learning_rate": 1.274322905322185e-06,
      "loss": 0.6867,
      "step": 2358
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9091675200064396,
      "learning_rate": 1.270776286818281e-06,
      "loss": 0.73,
      "step": 2359
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8960460533134466,
      "learning_rate": 1.2672338919401866e-06,
      "loss": 0.6293,
      "step": 2360
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8634699992238954,
      "learning_rate": 1.2636957246999326e-06,
      "loss": 0.6672,
      "step": 2361
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8636971844730751,
      "learning_rate": 1.2601617891047568e-06,
      "loss": 0.5928,
      "step": 2362
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8267876987849394,
      "learning_rate": 1.2566320891571066e-06,
      "loss": 0.6695,
      "step": 2363
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.011611125014081,
      "learning_rate": 1.253106628854635e-06,
      "loss": 0.7013,
      "step": 2364
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9461848563124687,
      "learning_rate": 1.2495854121901863e-06,
      "loss": 0.6579,
      "step": 2365
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7752753633673465,
      "learning_rate": 1.2460684431518055e-06,
      "loss": 0.6145,
      "step": 2366
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8739721348954856,
      "learning_rate": 1.2425557257227232e-06,
      "loss": 0.7363,
      "step": 2367
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7482582207196056,
      "learning_rate": 1.2390472638813572e-06,
      "loss": 0.5946,
      "step": 2368
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.886831280523675,
      "learning_rate": 1.235543061601301e-06,
      "loss": 0.736,
      "step": 2369
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9116274465687515,
      "learning_rate": 1.2320431228513297e-06,
      "loss": 0.7598,
      "step": 2370
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8900194244583056,
      "learning_rate": 1.2285474515953837e-06,
      "loss": 0.6258,
      "step": 2371
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9636059701583297,
      "learning_rate": 1.2250560517925747e-06,
      "loss": 0.7038,
      "step": 2372
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7467403419005793,
      "learning_rate": 1.2215689273971764e-06,
      "loss": 0.5597,
      "step": 2373
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7841733768800013,
      "learning_rate": 1.2180860823586165e-06,
      "loss": 0.5994,
      "step": 2374
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0350803136888302,
      "learning_rate": 1.2146075206214807e-06,
      "loss": 0.7242,
      "step": 2375
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.79690144023781,
      "learning_rate": 1.211133246125497e-06,
      "loss": 0.5878,
      "step": 2376
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.005356276281512,
      "learning_rate": 1.2076632628055491e-06,
      "loss": 0.643,
      "step": 2377
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7704369267431176,
      "learning_rate": 1.2041975745916474e-06,
      "loss": 0.5775,
      "step": 2378
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.208519856644937,
      "learning_rate": 1.2007361854089478e-06,
      "loss": 0.6704,
      "step": 2379
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0029757343026267,
      "learning_rate": 1.197279099177731e-06,
      "loss": 0.6769,
      "step": 2380
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0338041698551765,
      "learning_rate": 1.1938263198134087e-06,
      "loss": 0.7134,
      "step": 2381
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0522233959765104,
      "learning_rate": 1.1903778512265103e-06,
      "loss": 0.7865,
      "step": 2382
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9058932293519132,
      "learning_rate": 1.1869336973226863e-06,
      "loss": 0.6757,
      "step": 2383
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7196916459328432,
      "learning_rate": 1.183493862002702e-06,
      "loss": 0.5955,
      "step": 2384
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9718299723778923,
      "learning_rate": 1.1800583491624234e-06,
      "loss": 0.6237,
      "step": 2385
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6901581555166676,
      "learning_rate": 1.176627162692834e-06,
      "loss": 0.6466,
      "step": 2386
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0612398453435101,
      "learning_rate": 1.1732003064800046e-06,
      "loss": 0.7021,
      "step": 2387
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.785189126215825,
      "learning_rate": 1.1697777844051105e-06,
      "loss": 0.6742,
      "step": 2388
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1525156633568305,
      "learning_rate": 1.1663596003444116e-06,
      "loss": 0.7014,
      "step": 2389
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0926158340523946,
      "learning_rate": 1.1629457581692616e-06,
      "loss": 0.7806,
      "step": 2390
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.065517574045719,
      "learning_rate": 1.1595362617460897e-06,
      "loss": 0.7108,
      "step": 2391
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7572195735318087,
      "learning_rate": 1.1561311149364075e-06,
      "loss": 0.6283,
      "step": 2392
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7096018898892085,
      "learning_rate": 1.1527303215968016e-06,
      "loss": 0.615,
      "step": 2393
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8937348885939645,
      "learning_rate": 1.149333885578921e-06,
      "loss": 0.6979,
      "step": 2394
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0446390797179004,
      "learning_rate": 1.1459418107294906e-06,
      "loss": 0.75,
      "step": 2395
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7518887905776493,
      "learning_rate": 1.1425541008902852e-06,
      "loss": 0.7005,
      "step": 2396
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8058447324091955,
      "learning_rate": 1.1391707598981433e-06,
      "loss": 0.6711,
      "step": 2397
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8473097717784774,
      "learning_rate": 1.1357917915849497e-06,
      "loss": 0.6096,
      "step": 2398
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8851366943806365,
      "learning_rate": 1.132417199777643e-06,
      "loss": 0.6289,
      "step": 2399
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9690501119677498,
      "learning_rate": 1.1290469882981987e-06,
      "loss": 0.7343,
      "step": 2400
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7077112631081784,
      "learning_rate": 1.1256811609636354e-06,
      "loss": 0.6362,
      "step": 2401
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.17180945784802,
      "learning_rate": 1.1223197215860065e-06,
      "loss": 0.748,
      "step": 2402
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8876939834235894,
      "learning_rate": 1.1189626739723909e-06,
      "loss": 0.6429,
      "step": 2403
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9799637380802393,
      "learning_rate": 1.1156100219249022e-06,
      "loss": 0.7178,
      "step": 2404
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7773588772712111,
      "learning_rate": 1.1122617692406667e-06,
      "loss": 0.5937,
      "step": 2405
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9876454806180112,
      "learning_rate": 1.1089179197118344e-06,
      "loss": 0.6873,
      "step": 2406
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9962492809791043,
      "learning_rate": 1.105578477125563e-06,
      "loss": 0.6851,
      "step": 2407
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.827138158013193,
      "learning_rate": 1.1022434452640252e-06,
      "loss": 0.6688,
      "step": 2408
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9932538528784463,
      "learning_rate": 1.0989128279043915e-06,
      "loss": 0.6757,
      "step": 2409
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9091971027872761,
      "learning_rate": 1.0955866288188377e-06,
      "loss": 0.7205,
      "step": 2410
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.071573524280787,
      "learning_rate": 1.092264851774536e-06,
      "loss": 0.6808,
      "step": 2411
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8553419724530006,
      "learning_rate": 1.0889475005336447e-06,
      "loss": 0.733,
      "step": 2412
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.841770611336692,
      "learning_rate": 1.085634578853315e-06,
      "loss": 0.6209,
      "step": 2413
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0393115893127494,
      "learning_rate": 1.0823260904856791e-06,
      "loss": 0.6543,
      "step": 2414
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9863848187017595,
      "learning_rate": 1.07902203917785e-06,
      "loss": 0.7314,
      "step": 2415
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9415669045279813,
      "learning_rate": 1.075722428671911e-06,
      "loss": 0.7118,
      "step": 2416
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8331365133857548,
      "learning_rate": 1.0724272627049215e-06,
      "loss": 0.595,
      "step": 2417
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9826925765969732,
      "learning_rate": 1.0691365450089014e-06,
      "loss": 0.5892,
      "step": 2418
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8976136393988536,
      "learning_rate": 1.0658502793108371e-06,
      "loss": 0.6749,
      "step": 2419
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0573799610512453,
      "learning_rate": 1.0625684693326727e-06,
      "loss": 0.7153,
      "step": 2420
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8789570924011799,
      "learning_rate": 1.0592911187913013e-06,
      "loss": 0.6479,
      "step": 2421
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.21306659590567,
      "learning_rate": 1.05601823139857e-06,
      "loss": 0.6663,
      "step": 2422
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.024373370583458,
      "learning_rate": 1.0527498108612694e-06,
      "loss": 0.6829,
      "step": 2423
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9215408984931068,
      "learning_rate": 1.0494858608811326e-06,
      "loss": 0.7476,
      "step": 2424
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7800426415912137,
      "learning_rate": 1.0462263851548255e-06,
      "loss": 0.6469,
      "step": 2425
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8620784846758218,
      "learning_rate": 1.0429713873739505e-06,
      "loss": 0.6633,
      "step": 2426
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7395916002583762,
      "learning_rate": 1.039720871225036e-06,
      "loss": 0.5479,
      "step": 2427
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9977380818994993,
      "learning_rate": 1.0364748403895368e-06,
      "loss": 0.6177,
      "step": 2428
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8599187608030524,
      "learning_rate": 1.0332332985438248e-06,
      "loss": 0.6919,
      "step": 2429
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8321046076687052,
      "learning_rate": 1.0299962493591908e-06,
      "loss": 0.6982,
      "step": 2430
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2840342369852646,
      "learning_rate": 1.0267636965018351e-06,
      "loss": 0.6522,
      "step": 2431
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9502510682236027,
      "learning_rate": 1.0235356436328675e-06,
      "loss": 0.7196,
      "step": 2432
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7104135819969155,
      "learning_rate": 1.0203120944083006e-06,
      "loss": 0.6098,
      "step": 2433
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7728742688478791,
      "learning_rate": 1.017093052479044e-06,
      "loss": 0.6577,
      "step": 2434
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7631163602524722,
      "learning_rate": 1.0138785214909065e-06,
      "loss": 0.6617,
      "step": 2435
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8251047156160197,
      "learning_rate": 1.0106685050845838e-06,
      "loss": 0.6187,
      "step": 2436
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9424311769647759,
      "learning_rate": 1.0074630068956621e-06,
      "loss": 0.7275,
      "step": 2437
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.09445299238197,
      "learning_rate": 1.0042620305546069e-06,
      "loss": 0.6935,
      "step": 2438
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9610404476174225,
      "learning_rate": 1.0010655796867652e-06,
      "loss": 0.732,
      "step": 2439
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7203881022890727,
      "learning_rate": 9.978736579123577e-07,
      "loss": 0.6462,
      "step": 2440
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.974100947861008,
      "learning_rate": 9.946862688464753e-07,
      "loss": 0.7183,
      "step": 2441
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9894663245676906,
      "learning_rate": 9.915034160990767e-07,
      "loss": 0.7024,
      "step": 2442
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.793024328808066,
      "learning_rate": 9.883251032749791e-07,
      "loss": 0.5858,
      "step": 2443
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0317881238628388,
      "learning_rate": 9.851513339738627e-07,
      "loss": 0.7063,
      "step": 2444
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9560381460681573,
      "learning_rate": 9.819821117902573e-07,
      "loss": 0.5976,
      "step": 2445
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.002600077872816,
      "learning_rate": 9.788174403135475e-07,
      "loss": 0.7184,
      "step": 2446
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9439315221478801,
      "learning_rate": 9.756573231279582e-07,
      "loss": 0.6732,
      "step": 2447
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.976646062680985,
      "learning_rate": 9.725017638125612e-07,
      "loss": 0.6747,
      "step": 2448
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9177786300719653,
      "learning_rate": 9.693507659412643e-07,
      "loss": 0.6787,
      "step": 2449
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7435471293147032,
      "learning_rate": 9.662043330828086e-07,
      "loss": 0.61,
      "step": 2450
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1107408078504404,
      "learning_rate": 9.630624688007673e-07,
      "loss": 0.7352,
      "step": 2451
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9692969867259786,
      "learning_rate": 9.599251766535344e-07,
      "loss": 0.703,
      "step": 2452
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9287349898472261,
      "learning_rate": 9.567924601943323e-07,
      "loss": 0.7324,
      "step": 2453
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9481256662317074,
      "learning_rate": 9.536643229711945e-07,
      "loss": 0.7119,
      "step": 2454
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7211233818803983,
      "learning_rate": 9.505407685269735e-07,
      "loss": 0.5808,
      "step": 2455
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9857205302042573,
      "learning_rate": 9.474218003993275e-07,
      "loss": 0.7087,
      "step": 2456
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8768156975008136,
      "learning_rate": 9.443074221207221e-07,
      "loss": 0.6411,
      "step": 2457
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7328846578894471,
      "learning_rate": 9.411976372184267e-07,
      "loss": 0.6472,
      "step": 2458
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8832593348900313,
      "learning_rate": 9.380924492145033e-07,
      "loss": 0.6542,
      "step": 2459
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7955276409510804,
      "learning_rate": 9.349918616258113e-07,
      "loss": 0.6414,
      "step": 2460
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3610417923609153,
      "learning_rate": 9.318958779640003e-07,
      "loss": 0.7073,
      "step": 2461
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8211523768710707,
      "learning_rate": 9.288045017355035e-07,
      "loss": 0.6178,
      "step": 2462
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8749402815773426,
      "learning_rate": 9.257177364415354e-07,
      "loss": 0.6347,
      "step": 2463
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8620922500009192,
      "learning_rate": 9.226355855780922e-07,
      "loss": 0.6726,
      "step": 2464
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9794710361528038,
      "learning_rate": 9.195580526359371e-07,
      "loss": 0.6427,
      "step": 2465
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9730217832106602,
      "learning_rate": 9.164851411006099e-07,
      "loss": 0.7321,
      "step": 2466
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.036910946797548,
      "learning_rate": 9.134168544524141e-07,
      "loss": 0.7491,
      "step": 2467
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8978886748813927,
      "learning_rate": 9.10353196166412e-07,
      "loss": 0.7139,
      "step": 2468
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0434019892092001,
      "learning_rate": 9.072941697124288e-07,
      "loss": 0.7285,
      "step": 2469
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.955681456821889,
      "learning_rate": 9.042397785550405e-07,
      "loss": 0.6895,
      "step": 2470
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.83690774028168,
      "learning_rate": 9.011900261535767e-07,
      "loss": 0.6592,
      "step": 2471
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.061562750442477,
      "learning_rate": 8.981449159621075e-07,
      "loss": 0.7385,
      "step": 2472
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.802020798563397,
      "learning_rate": 8.951044514294516e-07,
      "loss": 0.6005,
      "step": 2473
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.93790663037495,
      "learning_rate": 8.920686359991615e-07,
      "loss": 0.6217,
      "step": 2474
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9660032535380647,
      "learning_rate": 8.890374731095275e-07,
      "loss": 0.7144,
      "step": 2475
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9117826928835676,
      "learning_rate": 8.860109661935673e-07,
      "loss": 0.7991,
      "step": 2476
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8560173339339098,
      "learning_rate": 8.82989118679028e-07,
      "loss": 0.5905,
      "step": 2477
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.718474232675986,
      "learning_rate": 8.799719339883789e-07,
      "loss": 0.6195,
      "step": 2478
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7146457251852004,
      "learning_rate": 8.769594155388083e-07,
      "loss": 0.632,
      "step": 2479
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7130715027664204,
      "learning_rate": 8.739515667422211e-07,
      "loss": 0.5968,
      "step": 2480
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7418142779585586,
      "learning_rate": 8.709483910052291e-07,
      "loss": 0.5909,
      "step": 2481
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7680225479907599,
      "learning_rate": 8.679498917291563e-07,
      "loss": 0.5832,
      "step": 2482
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0936757870157054,
      "learning_rate": 8.649560723100259e-07,
      "loss": 0.7172,
      "step": 2483
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9560008907970465,
      "learning_rate": 8.619669361385663e-07,
      "loss": 0.6748,
      "step": 2484
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8900628476940076,
      "learning_rate": 8.589824866001955e-07,
      "loss": 0.7023,
      "step": 2485
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0255678753750082,
      "learning_rate": 8.560027270750276e-07,
      "loss": 0.7469,
      "step": 2486
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9210468660566509,
      "learning_rate": 8.530276609378652e-07,
      "loss": 0.6819,
      "step": 2487
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9755416313999656,
      "learning_rate": 8.500572915581923e-07,
      "loss": 0.7346,
      "step": 2488
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8781344277208482,
      "learning_rate": 8.470916223001779e-07,
      "loss": 0.6777,
      "step": 2489
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8473399608616229,
      "learning_rate": 8.44130656522662e-07,
      "loss": 0.7257,
      "step": 2490
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7387281624591996,
      "learning_rate": 8.411743975791631e-07,
      "loss": 0.6244,
      "step": 2491
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7784757637865689,
      "learning_rate": 8.382228488178639e-07,
      "loss": 0.6373,
      "step": 2492
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8527236959541084,
      "learning_rate": 8.352760135816179e-07,
      "loss": 0.6764,
      "step": 2493
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9839422157958482,
      "learning_rate": 8.323338952079341e-07,
      "loss": 0.7672,
      "step": 2494
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8520680121307785,
      "learning_rate": 8.293964970289841e-07,
      "loss": 0.6574,
      "step": 2495
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1004911333192096,
      "learning_rate": 8.264638223715916e-07,
      "loss": 0.7315,
      "step": 2496
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0342259971968795,
      "learning_rate": 8.235358745572308e-07,
      "loss": 0.6827,
      "step": 2497
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6756343528799043,
      "learning_rate": 8.206126569020234e-07,
      "loss": 0.5195,
      "step": 2498
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9789231582226311,
      "learning_rate": 8.176941727167309e-07,
      "loss": 0.7521,
      "step": 2499
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9416035024719123,
      "learning_rate": 8.147804253067581e-07,
      "loss": 0.6554,
      "step": 2500
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.469816401836709,
      "learning_rate": 8.118714179721404e-07,
      "loss": 0.7224,
      "step": 2501
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8062480817688003,
      "learning_rate": 8.089671540075483e-07,
      "loss": 0.5759,
      "step": 2502
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0051032056460012,
      "learning_rate": 8.060676367022779e-07,
      "loss": 0.7277,
      "step": 2503
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9420153578883639,
      "learning_rate": 8.031728693402502e-07,
      "loss": 0.691,
      "step": 2504
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3117086252654424,
      "learning_rate": 8.002828552000075e-07,
      "loss": 0.6704,
      "step": 2505
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8048305499755536,
      "learning_rate": 7.973975975547071e-07,
      "loss": 0.6396,
      "step": 2506
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.787730383795927,
      "learning_rate": 7.945170996721213e-07,
      "loss": 0.5383,
      "step": 2507
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7984991254688492,
      "learning_rate": 7.916413648146282e-07,
      "loss": 0.5541,
      "step": 2508
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8080455056024356,
      "learning_rate": 7.887703962392145e-07,
      "loss": 0.6213,
      "step": 2509
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8494887129275266,
      "learning_rate": 7.859041971974668e-07,
      "loss": 0.5949,
      "step": 2510
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7483757465801382,
      "learning_rate": 7.830427709355726e-07,
      "loss": 0.6225,
      "step": 2511
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7763020129425698,
      "learning_rate": 7.80186120694309e-07,
      "loss": 0.6032,
      "step": 2512
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0511946310247058,
      "learning_rate": 7.773342497090486e-07,
      "loss": 0.6964,
      "step": 2513
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8165036874858399,
      "learning_rate": 7.744871612097487e-07,
      "loss": 0.5816,
      "step": 2514
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.886508735251589,
      "learning_rate": 7.71644858420953e-07,
      "loss": 0.6708,
      "step": 2515
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6961561153915404,
      "learning_rate": 7.6880734456178e-07,
      "loss": 0.5862,
      "step": 2516
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.981173833656438,
      "learning_rate": 7.65974622845928e-07,
      "loss": 0.5902,
      "step": 2517
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8029513516995392,
      "learning_rate": 7.631466964816681e-07,
      "loss": 0.631,
      "step": 2518
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9228059334225711,
      "learning_rate": 7.603235686718374e-07,
      "loss": 0.8126,
      "step": 2519
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9142184548918454,
      "learning_rate": 7.575052426138424e-07,
      "loss": 0.6952,
      "step": 2520
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8654047862452128,
      "learning_rate": 7.546917214996458e-07,
      "loss": 0.6056,
      "step": 2521
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9229701064187085,
      "learning_rate": 7.518830085157735e-07,
      "loss": 0.712,
      "step": 2522
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9227220683213202,
      "learning_rate": 7.490791068433034e-07,
      "loss": 0.7244,
      "step": 2523
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8186595801136032,
      "learning_rate": 7.462800196578662e-07,
      "loss": 0.5923,
      "step": 2524
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9349927755191135,
      "learning_rate": 7.434857501296356e-07,
      "loss": 0.7012,
      "step": 2525
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.870262867971497,
      "learning_rate": 7.406963014233325e-07,
      "loss": 0.6933,
      "step": 2526
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7535687950767662,
      "learning_rate": 7.379116766982186e-07,
      "loss": 0.632,
      "step": 2527
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7783746399445486,
      "learning_rate": 7.351318791080881e-07,
      "loss": 0.6293,
      "step": 2528
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.083886571585063,
      "learning_rate": 7.323569118012725e-07,
      "loss": 0.6779,
      "step": 2529
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1134145073017079,
      "learning_rate": 7.295867779206283e-07,
      "loss": 0.7481,
      "step": 2530
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.060310213122285,
      "learning_rate": 7.268214806035423e-07,
      "loss": 0.7215,
      "step": 2531
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9042830748934831,
      "learning_rate": 7.240610229819195e-07,
      "loss": 0.6299,
      "step": 2532
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9216646102781212,
      "learning_rate": 7.213054081821863e-07,
      "loss": 0.6181,
      "step": 2533
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8159723060362977,
      "learning_rate": 7.185546393252835e-07,
      "loss": 0.6402,
      "step": 2534
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2108096340156953,
      "learning_rate": 7.158087195266627e-07,
      "loss": 0.7297,
      "step": 2535
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9145984425219505,
      "learning_rate": 7.130676518962859e-07,
      "loss": 0.6471,
      "step": 2536
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7981820122501027,
      "learning_rate": 7.103314395386158e-07,
      "loss": 0.6575,
      "step": 2537
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9799923000556233,
      "learning_rate": 7.0760008555262e-07,
      "loss": 0.6648,
      "step": 2538
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9828057765893099,
      "learning_rate": 7.048735930317597e-07,
      "loss": 0.7094,
      "step": 2539
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8199771343693165,
      "learning_rate": 7.021519650639952e-07,
      "loss": 0.6178,
      "step": 2540
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7962121572967931,
      "learning_rate": 6.99435204731772e-07,
      "loss": 0.6507,
      "step": 2541
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7841889264329323,
      "learning_rate": 6.967233151120262e-07,
      "loss": 0.6655,
      "step": 2542
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1544039227082612,
      "learning_rate": 6.940162992761762e-07,
      "loss": 0.7155,
      "step": 2543
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0837013650843546,
      "learning_rate": 6.913141602901213e-07,
      "loss": 0.7283,
      "step": 2544
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9320947922684626,
      "learning_rate": 6.886169012142368e-07,
      "loss": 0.7235,
      "step": 2545
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0527791309150298,
      "learning_rate": 6.859245251033697e-07,
      "loss": 0.7161,
      "step": 2546
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9190905338037569,
      "learning_rate": 6.832370350068402e-07,
      "loss": 0.7132,
      "step": 2547
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9133804072791434,
      "learning_rate": 6.805544339684295e-07,
      "loss": 0.7645,
      "step": 2548
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7423522280135267,
      "learning_rate": 6.778767250263884e-07,
      "loss": 0.6313,
      "step": 2549
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8167797056637927,
      "learning_rate": 6.752039112134196e-07,
      "loss": 0.6403,
      "step": 2550
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7686563627180436,
      "learning_rate": 6.725359955566879e-07,
      "loss": 0.6565,
      "step": 2551
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8074173605314426,
      "learning_rate": 6.698729810778065e-07,
      "loss": 0.5677,
      "step": 2552
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8870277269842503,
      "learning_rate": 6.672148707928405e-07,
      "loss": 0.695,
      "step": 2553
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9777709788640679,
      "learning_rate": 6.645616677123001e-07,
      "loss": 0.7051,
      "step": 2554
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.184949799606822,
      "learning_rate": 6.619133748411344e-07,
      "loss": 0.7035,
      "step": 2555
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8873630515689982,
      "learning_rate": 6.592699951787362e-07,
      "loss": 0.6808,
      "step": 2556
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.899928893668311,
      "learning_rate": 6.566315317189298e-07,
      "loss": 0.6743,
      "step": 2557
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9656765534417405,
      "learning_rate": 6.539979874499747e-07,
      "loss": 0.6943,
      "step": 2558
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1437259255380676,
      "learning_rate": 6.513693653545556e-07,
      "loss": 0.726,
      "step": 2559
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0984569717746884,
      "learning_rate": 6.487456684097848e-07,
      "loss": 0.703,
      "step": 2560
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8552550187513243,
      "learning_rate": 6.461268995871967e-07,
      "loss": 0.6199,
      "step": 2561
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0254107358150981,
      "learning_rate": 6.435130618527452e-07,
      "loss": 0.7368,
      "step": 2562
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0824882992431046,
      "learning_rate": 6.40904158166794e-07,
      "loss": 0.7671,
      "step": 2563
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0354430350512902,
      "learning_rate": 6.383001914841252e-07,
      "loss": 0.7499,
      "step": 2564
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.077357679960058,
      "learning_rate": 6.357011647539263e-07,
      "loss": 0.7231,
      "step": 2565
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.715177899190322,
      "learning_rate": 6.331070809197887e-07,
      "loss": 0.6104,
      "step": 2566
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8303288669276843,
      "learning_rate": 6.305179429197094e-07,
      "loss": 0.6,
      "step": 2567
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9591497910018513,
      "learning_rate": 6.279337536860786e-07,
      "loss": 0.702,
      "step": 2568
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7903142376523192,
      "learning_rate": 6.253545161456864e-07,
      "loss": 0.5937,
      "step": 2569
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9217825565942908,
      "learning_rate": 6.227802332197125e-07,
      "loss": 0.7087,
      "step": 2570
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.872613331142964,
      "learning_rate": 6.202109078237272e-07,
      "loss": 0.7477,
      "step": 2571
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0769017368339724,
      "learning_rate": 6.17646542867682e-07,
      "loss": 0.7088,
      "step": 2572
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6834316828083897,
      "learning_rate": 6.150871412559134e-07,
      "loss": 0.62,
      "step": 2573
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.332180029372022,
      "learning_rate": 6.125327058871372e-07,
      "loss": 0.7429,
      "step": 2574
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0220397224311055,
      "learning_rate": 6.099832396544408e-07,
      "loss": 0.7317,
      "step": 2575
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0728542041763034,
      "learning_rate": 6.074387454452891e-07,
      "loss": 0.7211,
      "step": 2576
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4670122981952392,
      "learning_rate": 6.048992261415098e-07,
      "loss": 0.6926,
      "step": 2577
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.737720542170886,
      "learning_rate": 6.023646846193015e-07,
      "loss": 0.6455,
      "step": 2578
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9381554165517159,
      "learning_rate": 5.9983512374922e-07,
      "loss": 0.6963,
      "step": 2579
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.935439066687909,
      "learning_rate": 5.973105463961864e-07,
      "loss": 0.7528,
      "step": 2580
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0595636067146381,
      "learning_rate": 5.947909554194714e-07,
      "loss": 0.6484,
      "step": 2581
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2786655001041414,
      "learning_rate": 5.922763536727023e-07,
      "loss": 0.7471,
      "step": 2582
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1476176775039535,
      "learning_rate": 5.897667440038545e-07,
      "loss": 0.7442,
      "step": 2583
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0733051562959157,
      "learning_rate": 5.872621292552477e-07,
      "loss": 0.6647,
      "step": 2584
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9195945051473206,
      "learning_rate": 5.847625122635481e-07,
      "loss": 0.7482,
      "step": 2585
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8543539824871182,
      "learning_rate": 5.822678958597583e-07,
      "loss": 0.6215,
      "step": 2586
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.996156411174345,
      "learning_rate": 5.797782828692194e-07,
      "loss": 0.6534,
      "step": 2587
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8479373705349131,
      "learning_rate": 5.772936761116027e-07,
      "loss": 0.5462,
      "step": 2588
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7703629411276408,
      "learning_rate": 5.74814078400916e-07,
      "loss": 0.6273,
      "step": 2589
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9766953961681281,
      "learning_rate": 5.723394925454867e-07,
      "loss": 0.7006,
      "step": 2590
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.721286161831559,
      "learning_rate": 5.698699213479697e-07,
      "loss": 0.6112,
      "step": 2591
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8812037392920067,
      "learning_rate": 5.674053676053415e-07,
      "loss": 0.6891,
      "step": 2592
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7713684690138607,
      "learning_rate": 5.649458341088915e-07,
      "loss": 0.6836,
      "step": 2593
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.003367053898786,
      "learning_rate": 5.624913236442287e-07,
      "loss": 0.7408,
      "step": 2594
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9220458796724104,
      "learning_rate": 5.600418389912676e-07,
      "loss": 0.6993,
      "step": 2595
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0754875610797099,
      "learning_rate": 5.575973829242365e-07,
      "loss": 0.7428,
      "step": 2596
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3064539314632637,
      "learning_rate": 5.551579582116612e-07,
      "loss": 0.7275,
      "step": 2597
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1563464895891256,
      "learning_rate": 5.527235676163783e-07,
      "loss": 0.7146,
      "step": 2598
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.987393922785601,
      "learning_rate": 5.502942138955147e-07,
      "loss": 0.689,
      "step": 2599
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6626756509997722,
      "learning_rate": 5.478698998004967e-07,
      "loss": 0.627,
      "step": 2600
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8289607261906325,
      "learning_rate": 5.454506280770433e-07,
      "loss": 0.7006,
      "step": 2601
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8650077854659245,
      "learning_rate": 5.430364014651585e-07,
      "loss": 0.6289,
      "step": 2602
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2424958259483136,
      "learning_rate": 5.406272226991383e-07,
      "loss": 0.749,
      "step": 2603
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8897330446997115,
      "learning_rate": 5.382230945075556e-07,
      "loss": 0.6725,
      "step": 2604
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9971040949647286,
      "learning_rate": 5.358240196132686e-07,
      "loss": 0.7258,
      "step": 2605
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0524046400354876,
      "learning_rate": 5.334300007334065e-07,
      "loss": 0.7302,
      "step": 2606
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7701769553503935,
      "learning_rate": 5.310410405793797e-07,
      "loss": 0.6601,
      "step": 2607
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.943052918630268,
      "learning_rate": 5.286571418568615e-07,
      "loss": 0.5993,
      "step": 2608
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0763008766052653,
      "learning_rate": 5.262783072657984e-07,
      "loss": 0.6997,
      "step": 2609
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.178798979132428,
      "learning_rate": 5.239045395003967e-07,
      "loss": 0.7061,
      "step": 2610
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.929456443012072,
      "learning_rate": 5.215358412491284e-07,
      "loss": 0.716,
      "step": 2611
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9100816466756779,
      "learning_rate": 5.191722151947227e-07,
      "loss": 0.6124,
      "step": 2612
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.966568809868615,
      "learning_rate": 5.168136640141613e-07,
      "loss": 0.7607,
      "step": 2613
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9069773713657536,
      "learning_rate": 5.144601903786828e-07,
      "loss": 0.6174,
      "step": 2614
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9475980586128713,
      "learning_rate": 5.121117969537704e-07,
      "loss": 0.7505,
      "step": 2615
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1645184112374634,
      "learning_rate": 5.097684863991575e-07,
      "loss": 0.6917,
      "step": 2616
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7350011998829487,
      "learning_rate": 5.074302613688192e-07,
      "loss": 0.628,
      "step": 2617
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.919615103733126,
      "learning_rate": 5.050971245109709e-07,
      "loss": 0.6721,
      "step": 2618
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9684980491391095,
      "learning_rate": 5.027690784680644e-07,
      "loss": 0.6268,
      "step": 2619
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8124840141723798,
      "learning_rate": 5.004461258767873e-07,
      "loss": 0.6069,
      "step": 2620
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9014712649702132,
      "learning_rate": 4.981282693680584e-07,
      "loss": 0.7013,
      "step": 2621
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1021660710864405,
      "learning_rate": 4.958155115670221e-07,
      "loss": 0.7338,
      "step": 2622
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1212376306907266,
      "learning_rate": 4.935078550930533e-07,
      "loss": 0.7471,
      "step": 2623
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8903048168321281,
      "learning_rate": 4.91205302559743e-07,
      "loss": 0.6262,
      "step": 2624
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0153732200310719,
      "learning_rate": 4.889078565749067e-07,
      "loss": 0.7236,
      "step": 2625
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8382134548985829,
      "learning_rate": 4.866155197405736e-07,
      "loss": 0.5983,
      "step": 2626
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9996771875843417,
      "learning_rate": 4.843282946529887e-07,
      "loss": 0.7281,
      "step": 2627
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0518583989828685,
      "learning_rate": 4.820461839026047e-07,
      "loss": 0.7022,
      "step": 2628
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7992951293088569,
      "learning_rate": 4.797691900740831e-07,
      "loss": 0.5762,
      "step": 2629
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9578780265109145,
      "learning_rate": 4.77497315746292e-07,
      "loss": 0.6233,
      "step": 2630
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.766235333705125,
      "learning_rate": 4.752305634922977e-07,
      "loss": 0.5954,
      "step": 2631
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3342890463085402,
      "learning_rate": 4.729689358793693e-07,
      "loss": 0.7208,
      "step": 2632
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9017814843321873,
      "learning_rate": 4.7071243546896795e-07,
      "loss": 0.7086,
      "step": 2633
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9109825466011148,
      "learning_rate": 4.6846106481675035e-07,
      "loss": 0.7569,
      "step": 2634
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6748755833325456,
      "learning_rate": 4.66214826472563e-07,
      "loss": 0.5322,
      "step": 2635
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8868868431212796,
      "learning_rate": 4.639737229804403e-07,
      "loss": 0.6226,
      "step": 2636
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9238408652390189,
      "learning_rate": 4.6173775687859855e-07,
      "loss": 0.5964,
      "step": 2637
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3821174495507118,
      "learning_rate": 4.595069306994382e-07,
      "loss": 0.6927,
      "step": 2638
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7255950024240787,
      "learning_rate": 4.5728124696953815e-07,
      "loss": 0.587,
      "step": 2639
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0136048481746112,
      "learning_rate": 4.5506070820964973e-07,
      "loss": 0.7086,
      "step": 2640
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.843420078884735,
      "learning_rate": 4.52845316934703e-07,
      "loss": 0.649,
      "step": 2641
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9035673506781554,
      "learning_rate": 4.5063507565379195e-07,
      "loss": 0.6065,
      "step": 2642
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9188649513819634,
      "learning_rate": 4.4842998687018247e-07,
      "loss": 0.6897,
      "step": 2643
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8163793320543336,
      "learning_rate": 4.4623005308130243e-07,
      "loss": 0.5934,
      "step": 2644
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.974751382404113,
      "learning_rate": 4.440352767787437e-07,
      "loss": 0.7472,
      "step": 2645
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.6814918557619332,
      "learning_rate": 4.418456604482524e-07,
      "loss": 0.5681,
      "step": 2646
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1693440700422983,
      "learning_rate": 4.396612065697348e-07,
      "loss": 0.7338,
      "step": 2647
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7661722684235063,
      "learning_rate": 4.374819176172501e-07,
      "loss": 0.5664,
      "step": 2648
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8047884788736124,
      "learning_rate": 4.3530779605900463e-07,
      "loss": 0.6924,
      "step": 2649
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9747765515582344,
      "learning_rate": 4.3313884435735586e-07,
      "loss": 0.6806,
      "step": 2650
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9090774764819094,
      "learning_rate": 4.3097506496880325e-07,
      "loss": 0.6635,
      "step": 2651
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8399625347696317,
      "learning_rate": 4.2881646034398926e-07,
      "loss": 0.6385,
      "step": 2652
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9470581827376308,
      "learning_rate": 4.266630329276966e-07,
      "loss": 0.7083,
      "step": 2653
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8235737110380044,
      "learning_rate": 4.245147851588438e-07,
      "loss": 0.7114,
      "step": 2654
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9463728285776022,
      "learning_rate": 4.2237171947048125e-07,
      "loss": 0.7451,
      "step": 2655
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9770431198157735,
      "learning_rate": 4.2023383828979305e-07,
      "loss": 0.6595,
      "step": 2656
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8458129930768373,
      "learning_rate": 4.181011440380889e-07,
      "loss": 0.7117,
      "step": 2657
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8857805204912953,
      "learning_rate": 4.1597363913080614e-07,
      "loss": 0.6829,
      "step": 2658
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3006585190210507,
      "learning_rate": 4.13851325977504e-07,
      "loss": 0.743,
      "step": 2659
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1069294801597276,
      "learning_rate": 4.1173420698186027e-07,
      "loss": 0.7067,
      "step": 2660
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9784638189663554,
      "learning_rate": 4.096222845416725e-07,
      "loss": 0.5876,
      "step": 2661
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9759817206710393,
      "learning_rate": 4.075155610488496e-07,
      "loss": 0.7384,
      "step": 2662
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9167644456609155,
      "learning_rate": 4.054140388894162e-07,
      "loss": 0.6316,
      "step": 2663
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9534983475499574,
      "learning_rate": 4.0331772044350235e-07,
      "loss": 0.6799,
      "step": 2664
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9084192281491315,
      "learning_rate": 4.012266080853472e-07,
      "loss": 0.7699,
      "step": 2665
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0175838875782304,
      "learning_rate": 3.9914070418329123e-07,
      "loss": 0.7113,
      "step": 2666
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0769809581570124,
      "learning_rate": 3.9706001109977796e-07,
      "loss": 0.7023,
      "step": 2667
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8147558608402538,
      "learning_rate": 3.9498453119134917e-07,
      "loss": 0.6298,
      "step": 2668
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9993895632114301,
      "learning_rate": 3.9291426680863997e-07,
      "loss": 0.6495,
      "step": 2669
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.276550323486389,
      "learning_rate": 3.908492202963826e-07,
      "loss": 0.7372,
      "step": 2670
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8108591972192094,
      "learning_rate": 3.8878939399339346e-07,
      "loss": 0.6823,
      "step": 2671
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9257103064710649,
      "learning_rate": 3.8673479023258464e-07,
      "loss": 0.697,
      "step": 2672
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9879210158405861,
      "learning_rate": 3.8468541134094597e-07,
      "loss": 0.6698,
      "step": 2673
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8524007796875507,
      "learning_rate": 3.8264125963955567e-07,
      "loss": 0.6778,
      "step": 2674
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9083398192811412,
      "learning_rate": 3.8060233744356634e-07,
      "loss": 0.7586,
      "step": 2675
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9777754110733289,
      "learning_rate": 3.7856864706221187e-07,
      "loss": 0.743,
      "step": 2676
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9887712356462715,
      "learning_rate": 3.765401907987998e-07,
      "loss": 0.7706,
      "step": 2677
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0759584649602654,
      "learning_rate": 3.7451697095070736e-07,
      "loss": 0.7092,
      "step": 2678
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8616495197659239,
      "learning_rate": 3.7249898980938505e-07,
      "loss": 0.6767,
      "step": 2679
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9636111180386371,
      "learning_rate": 3.7048624966034506e-07,
      "loss": 0.7011,
      "step": 2680
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8451252006082872,
      "learning_rate": 3.684787527831707e-07,
      "loss": 0.6326,
      "step": 2681
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7222491619977034,
      "learning_rate": 3.6647650145149926e-07,
      "loss": 0.6375,
      "step": 2682
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.634026894461859,
      "learning_rate": 3.6447949793303296e-07,
      "loss": 0.5515,
      "step": 2683
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8027510845446932,
      "learning_rate": 3.6248774448952695e-07,
      "loss": 0.6348,
      "step": 2684
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.0271498075326475,
      "learning_rate": 3.605012433767918e-07,
      "loss": 0.73,
      "step": 2685
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8559311014097526,
      "learning_rate": 3.585199968446901e-07,
      "loss": 0.6655,
      "step": 2686
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9623984464060872,
      "learning_rate": 3.565440071371307e-07,
      "loss": 0.7298,
      "step": 2687
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.864270078821389,
      "learning_rate": 3.545732764920717e-07,
      "loss": 0.6488,
      "step": 2688
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5087917034873266,
      "learning_rate": 3.526078071415112e-07,
      "loss": 0.6614,
      "step": 2689
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.938311186628582,
      "learning_rate": 3.506476013114946e-07,
      "loss": 0.7073,
      "step": 2690
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9383688267295839,
      "learning_rate": 3.4869266122209866e-07,
      "loss": 0.7215,
      "step": 2691
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9370578804494616,
      "learning_rate": 3.467429890874424e-07,
      "loss": 0.7238,
      "step": 2692
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9503500845835501,
      "learning_rate": 3.447985871156734e-07,
      "loss": 0.7257,
      "step": 2693
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8593816371642361,
      "learning_rate": 3.428594575089744e-07,
      "loss": 0.6806,
      "step": 2694
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9067981984124529,
      "learning_rate": 3.4092560246355546e-07,
      "loss": 0.5863,
      "step": 2695
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1524084990365284,
      "learning_rate": 3.3899702416965166e-07,
      "loss": 0.7103,
      "step": 2696
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8950206917213244,
      "learning_rate": 3.370737248115236e-07,
      "loss": 0.7095,
      "step": 2697
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0177163876605293,
      "learning_rate": 3.35155706567451e-07,
      "loss": 0.6867,
      "step": 2698
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7191559402714497,
      "learning_rate": 3.332429716097341e-07,
      "loss": 0.6102,
      "step": 2699
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.034621962230872,
      "learning_rate": 3.313355221046888e-07,
      "loss": 0.7172,
      "step": 2700
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9476798332181611,
      "learning_rate": 3.2943336021264595e-07,
      "loss": 0.6536,
      "step": 2701
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0705869488307351,
      "learning_rate": 3.2753648808794505e-07,
      "loss": 0.7183,
      "step": 2702
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7915666320682038,
      "learning_rate": 3.2564490787893756e-07,
      "loss": 0.6075,
      "step": 2703
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9697958991305756,
      "learning_rate": 3.2375862172797866e-07,
      "loss": 0.7281,
      "step": 2704
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.953878087305068,
      "learning_rate": 3.2187763177143007e-07,
      "loss": 0.7289,
      "step": 2705
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1298498441164704,
      "learning_rate": 3.2000194013965424e-07,
      "loss": 0.7183,
      "step": 2706
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7616196235589028,
      "learning_rate": 3.181315489570114e-07,
      "loss": 0.6015,
      "step": 2707
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0618517035851258,
      "learning_rate": 3.1626646034186084e-07,
      "loss": 0.722,
      "step": 2708
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0780674924801292,
      "learning_rate": 3.144066764065556e-07,
      "loss": 0.7584,
      "step": 2709
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9119578485123784,
      "learning_rate": 3.1255219925744096e-07,
      "loss": 0.7191,
      "step": 2710
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8042748985779073,
      "learning_rate": 3.1070303099485055e-07,
      "loss": 0.5849,
      "step": 2711
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7680295276565459,
      "learning_rate": 3.0885917371310745e-07,
      "loss": 0.6613,
      "step": 2712
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1942323358592009,
      "learning_rate": 3.070206295005168e-07,
      "loss": 0.7333,
      "step": 2713
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6973374336983525,
      "learning_rate": 3.05187400439369e-07,
      "loss": 0.6212,
      "step": 2714
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8071377129580883,
      "learning_rate": 3.033594886059343e-07,
      "loss": 0.6315,
      "step": 2715
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5395054596098303,
      "learning_rate": 3.015368960704584e-07,
      "loss": 0.6795,
      "step": 2716
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7624992183550087,
      "learning_rate": 2.997196248971651e-07,
      "loss": 0.6006,
      "step": 2717
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8047643714759948,
      "learning_rate": 2.979076771442502e-07,
      "loss": 0.6179,
      "step": 2718
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8956408722739884,
      "learning_rate": 2.96101054863881e-07,
      "loss": 0.6093,
      "step": 2719
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.809153297152035,
      "learning_rate": 2.942997601021924e-07,
      "loss": 0.6123,
      "step": 2720
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8734359117385946,
      "learning_rate": 2.9250379489928647e-07,
      "loss": 0.7208,
      "step": 2721
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9562753143345961,
      "learning_rate": 2.907131612892272e-07,
      "loss": 0.6731,
      "step": 2722
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9061486329829584,
      "learning_rate": 2.889278613000429e-07,
      "loss": 0.7509,
      "step": 2723
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5107162042069011,
      "learning_rate": 2.871478969537206e-07,
      "loss": 0.7273,
      "step": 2724
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7299038195774724,
      "learning_rate": 2.853732702662015e-07,
      "loss": 0.583,
      "step": 2725
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.899500033778363,
      "learning_rate": 2.8360398324738415e-07,
      "loss": 0.6309,
      "step": 2726
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9716462688791528,
      "learning_rate": 2.8184003790111993e-07,
      "loss": 0.6862,
      "step": 2727
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.941119403227372,
      "learning_rate": 2.800814362252091e-07,
      "loss": 0.5982,
      "step": 2728
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9120715153223288,
      "learning_rate": 2.783281802113985e-07,
      "loss": 0.7159,
      "step": 2729
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8303548394643079,
      "learning_rate": 2.765802718453847e-07,
      "loss": 0.67,
      "step": 2730
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1454067248817301,
      "learning_rate": 2.748377131068031e-07,
      "loss": 0.7281,
      "step": 2731
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1784815042796755,
      "learning_rate": 2.7310050596923323e-07,
      "loss": 0.787,
      "step": 2732
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8972302897996678,
      "learning_rate": 2.7136865240019237e-07,
      "loss": 0.6226,
      "step": 2733
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.895882006282634,
      "learning_rate": 2.696421543611344e-07,
      "loss": 0.6743,
      "step": 2734
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8727059818763955,
      "learning_rate": 2.679210138074484e-07,
      "loss": 0.717,
      "step": 2735
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8136829157046683,
      "learning_rate": 2.662052326884551e-07,
      "loss": 0.6545,
      "step": 2736
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0970126087227325,
      "learning_rate": 2.644948129474062e-07,
      "loss": 0.6725,
      "step": 2737
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7327122877639192,
      "learning_rate": 2.6278975652147875e-07,
      "loss": 0.6003,
      "step": 2738
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7525978182812777,
      "learning_rate": 2.6109006534177863e-07,
      "loss": 0.5595,
      "step": 2739
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8462821781503297,
      "learning_rate": 2.593957413333331e-07,
      "loss": 0.604,
      "step": 2740
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0570325890902768,
      "learning_rate": 2.577067864150906e-07,
      "loss": 0.7301,
      "step": 2741
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4619303878737056,
      "learning_rate": 2.560232024999215e-07,
      "loss": 0.7704,
      "step": 2742
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0313835399461937,
      "learning_rate": 2.5434499149460836e-07,
      "loss": 0.7097,
      "step": 2743
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8244316876018936,
      "learning_rate": 2.5267215529985346e-07,
      "loss": 0.6294,
      "step": 2744
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9957757291277285,
      "learning_rate": 2.510046958102669e-07,
      "loss": 0.7284,
      "step": 2745
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9763019825187944,
      "learning_rate": 2.4934261491437407e-07,
      "loss": 0.735,
      "step": 2746
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0948531048116221,
      "learning_rate": 2.476859144946053e-07,
      "loss": 0.7514,
      "step": 2747
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8310104114256214,
      "learning_rate": 2.4603459642729867e-07,
      "loss": 0.667,
      "step": 2748
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.056058354633255,
      "learning_rate": 2.4438866258269466e-07,
      "loss": 0.7682,
      "step": 2749
    },
    {
      "epoch": 0.9,
      "grad_norm": 5.601884143832062,
      "learning_rate": 2.427481148249383e-07,
      "loss": 0.7528,
      "step": 2750
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9716519288781238,
      "learning_rate": 2.411129550120722e-07,
      "loss": 0.692,
      "step": 2751
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9178149382667075,
      "learning_rate": 2.394831849960377e-07,
      "loss": 0.6582,
      "step": 2752
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0066816127354719,
      "learning_rate": 2.3785880662267223e-07,
      "loss": 0.6989,
      "step": 2753
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9678618680547396,
      "learning_rate": 2.3623982173170524e-07,
      "loss": 0.684,
      "step": 2754
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9966676742791004,
      "learning_rate": 2.3462623215676051e-07,
      "loss": 0.7289,
      "step": 2755
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9020781985153077,
      "learning_rate": 2.330180397253473e-07,
      "loss": 0.7131,
      "step": 2756
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6782807486794183,
      "learning_rate": 2.314152462588659e-07,
      "loss": 0.5998,
      "step": 2757
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8953255161358574,
      "learning_rate": 2.2981785357259866e-07,
      "loss": 0.7489,
      "step": 2758
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7719383570853887,
      "learning_rate": 2.282258634757145e-07,
      "loss": 0.5768,
      "step": 2759
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0834598141388965,
      "learning_rate": 2.266392777712595e-07,
      "loss": 0.7146,
      "step": 2760
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7574479927637607,
      "learning_rate": 2.2505809825616287e-07,
      "loss": 0.6421,
      "step": 2761
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7697745000807684,
      "learning_rate": 2.2348232672122937e-07,
      "loss": 0.6383,
      "step": 2762
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8000421262664572,
      "learning_rate": 2.2191196495113587e-07,
      "loss": 0.5998,
      "step": 2763
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6041163867276627,
      "learning_rate": 2.2034701472443854e-07,
      "loss": 0.5577,
      "step": 2764
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8634976271879086,
      "learning_rate": 2.1878747781355847e-07,
      "loss": 0.6966,
      "step": 2765
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8299034495162864,
      "learning_rate": 2.1723335598479e-07,
      "loss": 0.5962,
      "step": 2766
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9637448757948103,
      "learning_rate": 2.156846509982913e-07,
      "loss": 0.7181,
      "step": 2767
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9949289578932692,
      "learning_rate": 2.141413646080881e-07,
      "loss": 0.75,
      "step": 2768
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0707990281804804,
      "learning_rate": 2.1260349856206673e-07,
      "loss": 0.724,
      "step": 2769
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9117105469460077,
      "learning_rate": 2.110710546019773e-07,
      "loss": 0.6744,
      "step": 2770
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8253469855601916,
      "learning_rate": 2.0954403446342753e-07,
      "loss": 0.6844,
      "step": 2771
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8285193080619593,
      "learning_rate": 2.0802243987588068e-07,
      "loss": 0.6462,
      "step": 2772
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9379345023295905,
      "learning_rate": 2.065062725626593e-07,
      "loss": 0.6567,
      "step": 2773
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0805074081410244,
      "learning_rate": 2.049955342409349e-07,
      "loss": 0.738,
      "step": 2774
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.013828347389834,
      "learning_rate": 2.0349022662173367e-07,
      "loss": 0.6588,
      "step": 2775
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8915160796385838,
      "learning_rate": 2.019903514099275e-07,
      "loss": 0.5881,
      "step": 2776
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9113476386849634,
      "learning_rate": 2.0049591030423977e-07,
      "loss": 0.7347,
      "step": 2777
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7721755279891883,
      "learning_rate": 1.990069049972354e-07,
      "loss": 0.6448,
      "step": 2778
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.370850326888337,
      "learning_rate": 1.975233371753249e-07,
      "loss": 0.7032,
      "step": 2779
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7130201568478076,
      "learning_rate": 1.9604520851876196e-07,
      "loss": 0.6177,
      "step": 2780
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7982820173874211,
      "learning_rate": 1.9457252070163578e-07,
      "loss": 0.6598,
      "step": 2781
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8228867857862739,
      "learning_rate": 1.9310527539187773e-07,
      "loss": 0.5686,
      "step": 2782
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9106226916909044,
      "learning_rate": 1.916434742512524e-07,
      "loss": 0.7157,
      "step": 2783
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8329072608086933,
      "learning_rate": 1.9018711893535991e-07,
      "loss": 0.6371,
      "step": 2784
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5066900935870386,
      "learning_rate": 1.887362110936314e-07,
      "loss": 0.7583,
      "step": 2785
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0141243104777329,
      "learning_rate": 1.8729075236932903e-07,
      "loss": 0.7304,
      "step": 2786
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.792135772339363,
      "learning_rate": 1.858507443995433e-07,
      "loss": 0.6214,
      "step": 2787
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7852947860261107,
      "learning_rate": 1.8441618881519186e-07,
      "loss": 0.5652,
      "step": 2788
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.789971655061753,
      "learning_rate": 1.829870872410161e-07,
      "loss": 0.6393,
      "step": 2789
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9796190850561562,
      "learning_rate": 1.8156344129558078e-07,
      "loss": 0.7408,
      "step": 2790
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8360611909255862,
      "learning_rate": 1.8014525259127224e-07,
      "loss": 0.6814,
      "step": 2791
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8450322348084444,
      "learning_rate": 1.787325227342951e-07,
      "loss": 0.6458,
      "step": 2792
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9149637575674503,
      "learning_rate": 1.7732525332467276e-07,
      "loss": 0.703,
      "step": 2793
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8851095686473712,
      "learning_rate": 1.75923445956242e-07,
      "loss": 0.614,
      "step": 2794
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0899669423716052,
      "learning_rate": 1.7452710221665725e-07,
      "loss": 0.727,
      "step": 2795
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9188268464081214,
      "learning_rate": 1.7313622368738014e-07,
      "loss": 0.6059,
      "step": 2796
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8415364805590747,
      "learning_rate": 1.717508119436867e-07,
      "loss": 0.6164,
      "step": 2797
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8703863912681691,
      "learning_rate": 1.7037086855465902e-07,
      "loss": 0.6695,
      "step": 2798
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9571986715550482,
      "learning_rate": 1.6899639508318633e-07,
      "loss": 0.6877,
      "step": 2799
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9303516191703698,
      "learning_rate": 1.6762739308596343e-07,
      "loss": 0.7337,
      "step": 2800
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7813855674521815,
      "learning_rate": 1.6626386411348783e-07,
      "loss": 0.5922,
      "step": 2801
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9393380563009709,
      "learning_rate": 1.649058097100592e-07,
      "loss": 0.7483,
      "step": 2802
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8630718720647256,
      "learning_rate": 1.6355323141377499e-07,
      "loss": 0.6394,
      "step": 2803
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8291848208415054,
      "learning_rate": 1.6220613075653201e-07,
      "loss": 0.6451,
      "step": 2804
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6492307001473715,
      "learning_rate": 1.6086450926402263e-07,
      "loss": 0.6019,
      "step": 2805
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.749304242661896,
      "learning_rate": 1.595283684557347e-07,
      "loss": 0.6717,
      "step": 2806
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9795415649097926,
      "learning_rate": 1.581977098449472e-07,
      "loss": 0.716,
      "step": 2807
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8012563857297597,
      "learning_rate": 1.5687253493873068e-07,
      "loss": 0.607,
      "step": 2808
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7828239146100971,
      "learning_rate": 1.5555284523794623e-07,
      "loss": 0.5635,
      "step": 2809
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.75326374391399,
      "learning_rate": 1.542386422372405e-07,
      "loss": 0.5546,
      "step": 2810
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0479835125689505,
      "learning_rate": 1.5292992742504842e-07,
      "loss": 0.7332,
      "step": 2811
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.502683566075118,
      "learning_rate": 1.51626702283586e-07,
      "loss": 0.7745,
      "step": 2812
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8097065424795812,
      "learning_rate": 1.503289682888548e-07,
      "loss": 0.5715,
      "step": 2813
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9700675154573735,
      "learning_rate": 1.4903672691063575e-07,
      "loss": 0.6433,
      "step": 2814
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8331796398966187,
      "learning_rate": 1.4774997961248872e-07,
      "loss": 0.642,
      "step": 2815
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9421405563187669,
      "learning_rate": 1.4646872785175182e-07,
      "loss": 0.7301,
      "step": 2816
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7753612566402227,
      "learning_rate": 1.4519297307953928e-07,
      "loss": 0.6384,
      "step": 2817
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0332667606439685,
      "learning_rate": 1.4392271674073866e-07,
      "loss": 0.6473,
      "step": 2818
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0105173059400108,
      "learning_rate": 1.426579602740108e-07,
      "loss": 0.7028,
      "step": 2819
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8437765737947603,
      "learning_rate": 1.4139870511178767e-07,
      "loss": 0.6234,
      "step": 2820
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9635066029540353,
      "learning_rate": 1.4014495268027005e-07,
      "loss": 0.6868,
      "step": 2821
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0214594632951357,
      "learning_rate": 1.388967043994266e-07,
      "loss": 0.744,
      "step": 2822
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6911141491268744,
      "learning_rate": 1.3765396168299195e-07,
      "loss": 0.6253,
      "step": 2823
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7779113779031195,
      "learning_rate": 1.3641672593846632e-07,
      "loss": 0.59,
      "step": 2824
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9626870532008583,
      "learning_rate": 1.3518499856711108e-07,
      "loss": 0.7705,
      "step": 2825
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9877420678963041,
      "learning_rate": 1.3395878096395032e-07,
      "loss": 0.7145,
      "step": 2826
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6513491303136927,
      "learning_rate": 1.327380745177681e-07,
      "loss": 0.6503,
      "step": 2827
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9517837746721589,
      "learning_rate": 1.3152288061110518e-07,
      "loss": 0.7631,
      "step": 2828
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8508916050380277,
      "learning_rate": 1.303132006202601e-07,
      "loss": 0.6563,
      "step": 2829
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0920121610500602,
      "learning_rate": 1.291090359152869e-07,
      "loss": 0.7449,
      "step": 2830
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0266968792273061,
      "learning_rate": 1.2791038785999243e-07,
      "loss": 0.7136,
      "step": 2831
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7553622854875764,
      "learning_rate": 1.2671725781193467e-07,
      "loss": 0.6073,
      "step": 2832
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1411162981789342,
      "learning_rate": 1.2552964712242377e-07,
      "loss": 0.7169,
      "step": 2833
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6175455972555214,
      "learning_rate": 1.243475571365177e-07,
      "loss": 0.5785,
      "step": 2834
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8792526604827371,
      "learning_rate": 1.2317098919302218e-07,
      "loss": 0.6768,
      "step": 2835
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8934419920531693,
      "learning_rate": 1.2199994462448906e-07,
      "loss": 0.5843,
      "step": 2836
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8627621453016281,
      "learning_rate": 1.2083442475721353e-07,
      "loss": 0.6161,
      "step": 2837
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.821663096683245,
      "learning_rate": 1.196744309112352e-07,
      "loss": 0.6133,
      "step": 2838
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2131259444512177,
      "learning_rate": 1.185199644003332e-07,
      "loss": 0.7115,
      "step": 2839
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8757301851707975,
      "learning_rate": 1.1737102653202825e-07,
      "loss": 0.6544,
      "step": 2840
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8484155635897849,
      "learning_rate": 1.1622761860757837e-07,
      "loss": 0.6492,
      "step": 2841
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6119282736050662,
      "learning_rate": 1.150897419219793e-07,
      "loss": 0.7188,
      "step": 2842
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.025834492241072,
      "learning_rate": 1.139573977639613e-07,
      "loss": 0.7221,
      "step": 2843
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9091136605169161,
      "learning_rate": 1.1283058741598962e-07,
      "loss": 0.6276,
      "step": 2844
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.889160031981131,
      "learning_rate": 1.1170931215426117e-07,
      "loss": 0.7296,
      "step": 2845
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8231770549029255,
      "learning_rate": 1.1059357324870456e-07,
      "loss": 0.6575,
      "step": 2846
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9610968473655365,
      "learning_rate": 1.0948337196297732e-07,
      "loss": 0.726,
      "step": 2847
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0173039483545794,
      "learning_rate": 1.0837870955446639e-07,
      "loss": 0.7419,
      "step": 2848
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7457975727765309,
      "learning_rate": 1.0727958727428489e-07,
      "loss": 0.6274,
      "step": 2849
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9709144898242039,
      "learning_rate": 1.0618600636727095e-07,
      "loss": 0.6981,
      "step": 2850
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9857495017021772,
      "learning_rate": 1.0509796807198768e-07,
      "loss": 0.687,
      "step": 2851
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.025569282135505,
      "learning_rate": 1.0401547362071939e-07,
      "loss": 0.8096,
      "step": 2852
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6278313723899385,
      "learning_rate": 1.0293852423947314e-07,
      "loss": 0.7523,
      "step": 2853
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.855821976004097,
      "learning_rate": 1.0186712114797325e-07,
      "loss": 0.6076,
      "step": 2854
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9371437519497064,
      "learning_rate": 1.0080126555966574e-07,
      "loss": 0.7367,
      "step": 2855
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7667701708061917,
      "learning_rate": 9.974095868171164e-08,
      "loss": 0.6525,
      "step": 2856
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0486669158221877,
      "learning_rate": 9.868620171498811e-08,
      "loss": 0.6818,
      "step": 2857
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0880941797567714,
      "learning_rate": 9.763699585408737e-08,
      "loss": 0.7082,
      "step": 2858
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8029221373175711,
      "learning_rate": 9.65933422873122e-08,
      "loss": 0.6218,
      "step": 2859
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.458282232159263,
      "learning_rate": 9.555524219667989e-08,
      "loss": 0.6945,
      "step": 2860
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3068806533000732,
      "learning_rate": 9.452269675791603e-08,
      "loss": 0.7741,
      "step": 2861
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7707277182024427,
      "learning_rate": 9.34957071404563e-08,
      "loss": 0.683,
      "step": 2862
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7893684567878357,
      "learning_rate": 9.247427450744307e-08,
      "loss": 0.6602,
      "step": 2863
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7395572574011575,
      "learning_rate": 9.145840001572537e-08,
      "loss": 0.6177,
      "step": 2864
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8121697783884514,
      "learning_rate": 9.044808481585788e-08,
      "loss": 0.6034,
      "step": 2865
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9803912140960128,
      "learning_rate": 8.94433300520986e-08,
      "loss": 0.7675,
      "step": 2866
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.067561046985079,
      "learning_rate": 8.844413686240727e-08,
      "loss": 0.7189,
      "step": 2867
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1028627501814479,
      "learning_rate": 8.745050637844532e-08,
      "loss": 0.7538,
      "step": 2868
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9820411392281778,
      "learning_rate": 8.646243972557366e-08,
      "loss": 0.7083,
      "step": 2869
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9442535893867825,
      "learning_rate": 8.547993802285215e-08,
      "loss": 0.7814,
      "step": 2870
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7532396002145161,
      "learning_rate": 8.450300238303787e-08,
      "loss": 0.5754,
      "step": 2871
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9681211490311145,
      "learning_rate": 8.353163391258302e-08,
      "loss": 0.7404,
      "step": 2872
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0145184463601131,
      "learning_rate": 8.256583371163585e-08,
      "loss": 0.7332,
      "step": 2873
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2579144620560183,
      "learning_rate": 8.160560287403807e-08,
      "loss": 0.6691,
      "step": 2874
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8348108306191996,
      "learning_rate": 8.065094248732253e-08,
      "loss": 0.6796,
      "step": 2875
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9981412620891467,
      "learning_rate": 7.970185363271432e-08,
      "loss": 0.7518,
      "step": 2876
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9583438537044946,
      "learning_rate": 7.875833738512694e-08,
      "loss": 0.7349,
      "step": 2877
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7587501046688497,
      "learning_rate": 7.78203948131645e-08,
      "loss": 0.5981,
      "step": 2878
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0957627807971941,
      "learning_rate": 7.688802697911668e-08,
      "loss": 0.7896,
      "step": 2879
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.08215020170037,
      "learning_rate": 7.59612349389599e-08,
      "loss": 0.6663,
      "step": 2880
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.026827013247541,
      "learning_rate": 7.50400197423562e-08,
      "loss": 0.7443,
      "step": 2881
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7533996791096462,
      "learning_rate": 7.41243824326504e-08,
      "loss": 0.5894,
      "step": 2882
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9771641428159733,
      "learning_rate": 7.321432404687079e-08,
      "loss": 0.7636,
      "step": 2883
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8011195885220043,
      "learning_rate": 7.230984561572729e-08,
      "loss": 0.6208,
      "step": 2884
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8667194474571224,
      "learning_rate": 7.141094816360883e-08,
      "loss": 0.7011,
      "step": 2885
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8824483930625854,
      "learning_rate": 7.051763270858436e-08,
      "loss": 0.5774,
      "step": 2886
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7357798270829916,
      "learning_rate": 6.962990026240124e-08,
      "loss": 0.6259,
      "step": 2887
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0740067105900293,
      "learning_rate": 6.8747751830483e-08,
      "loss": 0.6824,
      "step": 2888
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9319288502223527,
      "learning_rate": 6.787118841192875e-08,
      "loss": 0.7074,
      "step": 2889
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.091172193226898,
      "learning_rate": 6.700021099951215e-08,
      "loss": 0.7673,
      "step": 2890
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9408231297603384,
      "learning_rate": 6.613482057968023e-08,
      "loss": 0.7472,
      "step": 2891
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.899595918852636,
      "learning_rate": 6.527501813255344e-08,
      "loss": 0.6888,
      "step": 2892
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7648364352834749,
      "learning_rate": 6.44208046319228e-08,
      "loss": 0.5735,
      "step": 2893
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8089312728454451,
      "learning_rate": 6.357218104524832e-08,
      "loss": 0.6733,
      "step": 2894
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9507301656820883,
      "learning_rate": 6.272914833366006e-08,
      "loss": 0.7184,
      "step": 2895
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3216511227740029,
      "learning_rate": 6.18917074519565e-08,
      "loss": 0.7154,
      "step": 2896
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7557030912005192,
      "learning_rate": 6.10598593486017e-08,
      "loss": 0.5928,
      "step": 2897
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2155823113915305,
      "learning_rate": 6.02336049657265e-08,
      "loss": 0.6713,
      "step": 2898
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.928025553030219,
      "learning_rate": 5.941294523912511e-08,
      "loss": 0.6612,
      "step": 2899
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7922440538047557,
      "learning_rate": 5.8597881098257924e-08,
      "loss": 0.6434,
      "step": 2900
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7385726989855853,
      "learning_rate": 5.7788413466244307e-08,
      "loss": 0.588,
      "step": 2901
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9815870101509133,
      "learning_rate": 5.698454325986868e-08,
      "loss": 0.7124,
      "step": 2902
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9279797458360906,
      "learning_rate": 5.618627138957333e-08,
      "loss": 0.6787,
      "step": 2903
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.778947563526006,
      "learning_rate": 5.539359875946171e-08,
      "loss": 0.6471,
      "step": 2904
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6886486390546194,
      "learning_rate": 5.460652626729568e-08,
      "loss": 0.61,
      "step": 2905
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8484328586644391,
      "learning_rate": 5.382505480449274e-08,
      "loss": 0.6507,
      "step": 2906
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8894817429447769,
      "learning_rate": 5.3049185256128235e-08,
      "loss": 0.6683,
      "step": 2907
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8233504608582128,
      "learning_rate": 5.227891850093314e-08,
      "loss": 0.6307,
      "step": 2908
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.03678626036776,
      "learning_rate": 5.151425541129185e-08,
      "loss": 0.8594,
      "step": 2909
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6820148791543864,
      "learning_rate": 5.0755196853243264e-08,
      "loss": 0.5451,
      "step": 2910
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8768281912531679,
      "learning_rate": 5.0001743686477476e-08,
      "loss": 0.7083,
      "step": 2911
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0367194912037392,
      "learning_rate": 4.925389676433745e-08,
      "loss": 0.6794,
      "step": 2912
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.985912738587015,
      "learning_rate": 4.8511656933815656e-08,
      "loss": 0.6725,
      "step": 2913
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9963680903020371,
      "learning_rate": 4.7775025035554645e-08,
      "loss": 0.7089,
      "step": 2914
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9698835882657743,
      "learning_rate": 4.704400190384484e-08,
      "loss": 0.7656,
      "step": 2915
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9707151404983115,
      "learning_rate": 4.631858836662562e-08,
      "loss": 0.7247,
      "step": 2916
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.805861586082207,
      "learning_rate": 4.559878524548145e-08,
      "loss": 0.6264,
      "step": 2917
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9334538559243298,
      "learning_rate": 4.48845933556441e-08,
      "loss": 0.632,
      "step": 2918
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9869793504081329,
      "learning_rate": 4.417601350598877e-08,
      "loss": 0.7196,
      "step": 2919
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9584173329295547,
      "learning_rate": 4.347304649903572e-08,
      "loss": 0.7306,
      "step": 2920
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7845208061547583,
      "learning_rate": 4.2775693130948094e-08,
      "loss": 0.6206,
      "step": 2921
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7966031032086014,
      "learning_rate": 4.2083954191530217e-08,
      "loss": 0.6726,
      "step": 2922
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7949377157546271,
      "learning_rate": 4.1397830464229294e-08,
      "loss": 0.6371,
      "step": 2923
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0872450528215953,
      "learning_rate": 4.071732272613149e-08,
      "loss": 0.7516,
      "step": 2924
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9640354617114408,
      "learning_rate": 4.0042431747962515e-08,
      "loss": 0.7334,
      "step": 2925
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9672006447800355,
      "learning_rate": 3.937315829408761e-08,
      "loss": 0.6943,
      "step": 2926
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8853171725900209,
      "learning_rate": 3.8709503122509873e-08,
      "loss": 0.6643,
      "step": 2927
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7264011288016926,
      "learning_rate": 3.805146698486695e-08,
      "loss": 0.5662,
      "step": 2928
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7850299498318151,
      "learning_rate": 3.7399050626434895e-08,
      "loss": 0.5896,
      "step": 2929
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0664265903426497,
      "learning_rate": 3.675225478612432e-08,
      "loss": 0.7259,
      "step": 2930
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7337122414111092,
      "learning_rate": 3.6111080196480354e-08,
      "loss": 0.5922,
      "step": 2931
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9541632133971812,
      "learning_rate": 3.5475527583681005e-08,
      "loss": 0.7063,
      "step": 2932
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7440322182615938,
      "learning_rate": 3.4845597667537144e-08,
      "loss": 0.6138,
      "step": 2933
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.788428868591662,
      "learning_rate": 3.422129116149253e-08,
      "loss": 0.634,
      "step": 2934
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8313338598362822,
      "learning_rate": 3.360260877261989e-08,
      "loss": 0.6545,
      "step": 2935
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9387535983001791,
      "learning_rate": 3.2989551201624836e-08,
      "loss": 0.6834,
      "step": 2936
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8467961909422888,
      "learning_rate": 3.238211914283973e-08,
      "loss": 0.5805,
      "step": 2937
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8981098113205422,
      "learning_rate": 3.178031328422815e-08,
      "loss": 0.7118,
      "step": 2938
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0181952508688672,
      "learning_rate": 3.118413430737932e-08,
      "loss": 0.734,
      "step": 2939
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1676116447793587,
      "learning_rate": 3.059358288751202e-08,
      "loss": 0.7587,
      "step": 2940
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9387556634050177,
      "learning_rate": 3.000865969346844e-08,
      "loss": 0.7175,
      "step": 2941
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.054284785119236,
      "learning_rate": 2.9429365387719232e-08,
      "loss": 0.7293,
      "step": 2942
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0099660354585345,
      "learning_rate": 2.8855700626358452e-08,
      "loss": 0.7259,
      "step": 2943
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0047162250469015,
      "learning_rate": 2.8287666059104713e-08,
      "loss": 0.664,
      "step": 2944
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9688527541728252,
      "learning_rate": 2.7725262329298953e-08,
      "loss": 0.728,
      "step": 2945
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0106278482254267,
      "learning_rate": 2.7168490073906096e-08,
      "loss": 0.7287,
      "step": 2946
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.06453448236306,
      "learning_rate": 2.661734992351339e-08,
      "loss": 0.712,
      "step": 2947
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8182895718281146,
      "learning_rate": 2.6071842502326526e-08,
      "loss": 0.5857,
      "step": 2948
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9543359933934372,
      "learning_rate": 2.553196842817518e-08,
      "loss": 0.7521,
      "step": 2949
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7055349044078352,
      "learning_rate": 2.4997728312506353e-08,
      "loss": 0.6036,
      "step": 2950
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8174393207727981,
      "learning_rate": 2.4469122760388264e-08,
      "loss": 0.6318,
      "step": 2951
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.217935584696467,
      "learning_rate": 2.394615237050535e-08,
      "loss": 0.7097,
      "step": 2952
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9483073802123747,
      "learning_rate": 2.342881773516048e-08,
      "loss": 0.6946,
      "step": 2953
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1054844544245506,
      "learning_rate": 2.2917119440275524e-08,
      "loss": 0.6905,
      "step": 2954
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6468513916302661,
      "learning_rate": 2.2411058065385792e-08,
      "loss": 0.6763,
      "step": 2955
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7983305074536754,
      "learning_rate": 2.1910634183644475e-08,
      "loss": 0.6516,
      "step": 2956
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0199882338140893,
      "learning_rate": 2.141584836181876e-08,
      "loss": 0.7712,
      "step": 2957
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8022652600025492,
      "learning_rate": 2.092670116029094e-08,
      "loss": 0.6559,
      "step": 2958
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0736583227795096,
      "learning_rate": 2.0443193133057314e-08,
      "loss": 0.7279,
      "step": 2959
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.779219714688024,
      "learning_rate": 1.996532482772595e-08,
      "loss": 0.5931,
      "step": 2960
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9009734345159347,
      "learning_rate": 1.9493096785520027e-08,
      "loss": 0.6955,
      "step": 2961
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0429003404827952,
      "learning_rate": 1.9026509541272276e-08,
      "loss": 0.7229,
      "step": 2962
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9401072373748948,
      "learning_rate": 1.8565563623428318e-08,
      "loss": 0.6847,
      "step": 2963
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9377390775475565,
      "learning_rate": 1.811025955404333e-08,
      "loss": 0.784,
      "step": 2964
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7534301176682545,
      "learning_rate": 1.766059784878371e-08,
      "loss": 0.6454,
      "step": 2965
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9193517582859413,
      "learning_rate": 1.7216579016925415e-08,
      "loss": 0.6587,
      "step": 2966
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7154985214367743,
      "learning_rate": 1.6778203561352846e-08,
      "loss": 0.5565,
      "step": 2967
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7657023350576673,
      "learning_rate": 1.6345471978558847e-08,
      "loss": 0.5893,
      "step": 2968
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7078521378019358,
      "learning_rate": 1.5918384758644157e-08,
      "loss": 0.6247,
      "step": 2969
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7735899065193172,
      "learning_rate": 1.5496942385318515e-08,
      "loss": 0.664,
      "step": 2970
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8778283371947477,
      "learning_rate": 1.5081145335895664e-08,
      "loss": 0.6349,
      "step": 2971
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8922736786655066,
      "learning_rate": 1.4670994081297796e-08,
      "loss": 0.6611,
      "step": 2972
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9674318040170956,
      "learning_rate": 1.4266489086051661e-08,
      "loss": 0.6999,
      "step": 2973
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8652642346256024,
      "learning_rate": 1.3867630808289123e-08,
      "loss": 0.6028,
      "step": 2974
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9676084629848463,
      "learning_rate": 1.347441969974772e-08,
      "loss": 0.679,
      "step": 2975
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9367792462974914,
      "learning_rate": 1.3086856205768439e-08,
      "loss": 0.6707,
      "step": 2976
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7792474058982578,
      "learning_rate": 1.2704940765295715e-08,
      "loss": 0.5917,
      "step": 2977
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1564182366427669,
      "learning_rate": 1.2328673810877989e-08,
      "loss": 0.6927,
      "step": 2978
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9823151632111904,
      "learning_rate": 1.1958055768665488e-08,
      "loss": 0.7156,
      "step": 2979
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0547606597789438,
      "learning_rate": 1.159308705841078e-08,
      "loss": 0.6994,
      "step": 2980
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8647818690742922,
      "learning_rate": 1.1233768093468766e-08,
      "loss": 0.6514,
      "step": 2981
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9982511904814858,
      "learning_rate": 1.088009928079503e-08,
      "loss": 0.6847,
      "step": 2982
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9221430417764017,
      "learning_rate": 1.0532081020945828e-08,
      "loss": 0.597,
      "step": 2983
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0229400430921864,
      "learning_rate": 1.0189713708078086e-08,
      "loss": 0.6676,
      "step": 2984
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9094019465554904,
      "learning_rate": 9.852997729948855e-09,
      "loss": 0.6407,
      "step": 2985
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0963178353904905,
      "learning_rate": 9.521933467913635e-09,
      "loss": 0.7504,
      "step": 2986
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8670002266609821,
      "learning_rate": 9.196521296927496e-09,
      "loss": 0.6377,
      "step": 2987
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9383853385042189,
      "learning_rate": 8.87676158554507e-09,
      "loss": 0.6903,
      "step": 2988
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7792585293784451,
      "learning_rate": 8.562654695917216e-09,
      "loss": 0.6122,
      "step": 2989
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9912706331609081,
      "learning_rate": 8.254200983794369e-09,
      "loss": 0.6554,
      "step": 2990
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.273050170184182,
      "learning_rate": 7.951400798522635e-09,
      "loss": 0.715,
      "step": 2991
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8086287676168152,
      "learning_rate": 7.65425448304713e-09,
      "loss": 0.5875,
      "step": 2992
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8489728480027446,
      "learning_rate": 7.3627623739075395e-09,
      "loss": 0.6682,
      "step": 2993
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8304723532480701,
      "learning_rate": 7.076924801240337e-09,
      "loss": 0.6896,
      "step": 2994
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8322125740188598,
      "learning_rate": 6.796742088778785e-09,
      "loss": 0.659,
      "step": 2995
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9859474207390138,
      "learning_rate": 6.5222145538501595e-09,
      "loss": 0.7322,
      "step": 2996
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9509084769854171,
      "learning_rate": 6.253342507377969e-09,
      "loss": 0.7146,
      "step": 2997
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0599796637388574,
      "learning_rate": 5.990126253879736e-09,
      "loss": 0.7203,
      "step": 2998
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.984560135814689,
      "learning_rate": 5.732566091468106e-09,
      "loss": 0.7175,
      "step": 2999
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8042059496528308,
      "learning_rate": 5.480662311848628e-09,
      "loss": 0.6479,
      "step": 3000
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7048957103724212,
      "learning_rate": 5.234415200321974e-09,
      "loss": 0.6168,
      "step": 3001
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7304923128533841,
      "learning_rate": 4.9938250357806085e-09,
      "loss": 0.6552,
      "step": 3002
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8793406675199088,
      "learning_rate": 4.758892090711009e-09,
      "loss": 0.5675,
      "step": 3003
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0912905947020723,
      "learning_rate": 4.5296166311931125e-09,
      "loss": 0.7598,
      "step": 3004
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8094223726078531,
      "learning_rate": 4.305998916898646e-09,
      "loss": 0.6266,
      "step": 3005
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.869850588755126,
      "learning_rate": 4.0880392010905765e-09,
      "loss": 0.6785,
      "step": 3006
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.028371631727215,
      "learning_rate": 3.875737730625328e-09,
      "loss": 0.6463,
      "step": 3007
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9280704229865887,
      "learning_rate": 3.669094745950008e-09,
      "loss": 0.5908,
      "step": 3008
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8174535189405983,
      "learning_rate": 3.4681104811029597e-09,
      "loss": 0.5985,
      "step": 3009
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.916337909237481,
      "learning_rate": 3.2727851637148753e-09,
      "loss": 0.7369,
      "step": 3010
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0369715777993047,
      "learning_rate": 3.0831190150054646e-09,
      "loss": 0.6818,
      "step": 3011
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7293682738008932,
      "learning_rate": 2.899112249786229e-09,
      "loss": 0.595,
      "step": 3012
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7004056877970726,
      "learning_rate": 2.720765076458798e-09,
      "loss": 0.6043,
      "step": 3013
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0908825385853487,
      "learning_rate": 2.548077697014373e-09,
      "loss": 0.7128,
      "step": 3014
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9585412060900655,
      "learning_rate": 2.381050307034838e-09,
      "loss": 0.6656,
      "step": 3015
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8274794633803849,
      "learning_rate": 2.2196830956905392e-09,
      "loss": 0.6535,
      "step": 3016
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7970687024981847,
      "learning_rate": 2.06397624574306e-09,
      "loss": 0.6592,
      "step": 3017
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8687075429919555,
      "learning_rate": 1.913929933540781e-09,
      "loss": 0.6123,
      "step": 3018
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9190354508699979,
      "learning_rate": 1.7695443290233205e-09,
      "loss": 0.696,
      "step": 3019
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9628633260274295,
      "learning_rate": 1.6308195957182028e-09,
      "loss": 0.7012,
      "step": 3020
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7361606063092813,
      "learning_rate": 1.4977558907408597e-09,
      "loss": 0.6719,
      "step": 3021
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8277885989852872,
      "learning_rate": 1.3703533647968504e-09,
      "loss": 0.6029,
      "step": 3022
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9609346352835887,
      "learning_rate": 1.2486121621785307e-09,
      "loss": 0.7165,
      "step": 3023
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.068201770097,
      "learning_rate": 1.1325324207667187e-09,
      "loss": 0.741,
      "step": 3024
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.902522835162145,
      "learning_rate": 1.0221142720312494e-09,
      "loss": 0.6446,
      "step": 3025
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.782613275320813,
      "learning_rate": 9.173578410281992e-10,
      "loss": 0.6507,
      "step": 3026
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.6696469979732506,
      "learning_rate": 8.182632464026619e-10,
      "loss": 0.6649,
      "step": 3027
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9964084595472028,
      "learning_rate": 7.24830600386528e-10,
      "loss": 0.6045,
      "step": 3028
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8610654494119856,
      "learning_rate": 6.370600087990397e-10,
      "loss": 0.649,
      "step": 3029
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9430794209659237,
      "learning_rate": 5.549515710473463e-10,
      "loss": 0.7452,
      "step": 3030
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.048597731473851,
      "learning_rate": 4.785053801248385e-10,
      "loss": 0.7337,
      "step": 3031
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1601882630621287,
      "learning_rate": 4.0772152261336906e-10,
      "loss": 0.7086,
      "step": 3032
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9455035220710147,
      "learning_rate": 3.426000786804773e-10,
      "loss": 0.6856,
      "step": 3033
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9365660164837112,
      "learning_rate": 2.8314112208105427e-10,
      "loss": 0.6106,
      "step": 3034
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5839465876498564,
      "learning_rate": 2.2934472015734287e-10,
      "loss": 0.5823,
      "step": 3035
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0971693335230708,
      "learning_rate": 1.812109338367174e-10,
      "loss": 0.7139,
      "step": 3036
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9547517185962735,
      "learning_rate": 1.387398176355692e-10,
      "loss": 0.7135,
      "step": 3037
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9335615518103716,
      "learning_rate": 1.0193141965486597e-10,
      "loss": 0.7268,
      "step": 3038
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0279170666464996,
      "learning_rate": 7.078578158292715e-11,
      "loss": 0.7909,
      "step": 3039
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.044361992816243,
      "learning_rate": 4.53029386948689e-11,
      "loss": 0.7949,
      "step": 3040
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8089481904333138,
      "learning_rate": 2.548291985149387e-11,
      "loss": 0.6688,
      "step": 3041
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9598202906745114,
      "learning_rate": 1.1325747500956496e-11,
      "loss": 0.7051,
      "step": 3042
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.9950397644246098,
      "learning_rate": 2.8314376770977035e-12,
      "loss": 0.7308,
      "step": 3043
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.050351441032282,
      "learning_rate": 0.0,
      "loss": 0.6693,
      "step": 3044
    },
    {
      "epoch": 1.0,
      "step": 3044,
      "total_flos": 1679737034407936.0,
      "train_loss": 0.6965483291742837,
      "train_runtime": 14923.747,
      "train_samples_per_second": 26.113,
      "train_steps_per_second": 0.204
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 3044,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 2000,
  "total_flos": 1679737034407936.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}