{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.11865211200759374,
  "eval_steps": 500,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00023730422401518748,
      "grad_norm": 0.19874855875968933,
      "learning_rate": 9.980000000000001e-06,
      "loss": 2.3055,
      "step": 1
    },
    {
      "epoch": 0.00047460844803037496,
      "grad_norm": 0.3101324141025543,
      "learning_rate": 9.960000000000001e-06,
      "loss": 0.8548,
      "step": 2
    },
    {
      "epoch": 0.0007119126720455624,
      "grad_norm": 0.18851338326931,
      "learning_rate": 9.940000000000001e-06,
      "loss": 1.3783,
      "step": 3
    },
    {
      "epoch": 0.0009492168960607499,
      "grad_norm": 0.5474942326545715,
      "learning_rate": 9.920000000000002e-06,
      "loss": 2.5833,
      "step": 4
    },
    {
      "epoch": 0.0011865211200759373,
      "grad_norm": 0.28883224725723267,
      "learning_rate": 9.9e-06,
      "loss": 2.4045,
      "step": 5
    },
    {
      "epoch": 0.0014238253440911248,
      "grad_norm": 0.4798765778541565,
      "learning_rate": 9.88e-06,
      "loss": 1.2589,
      "step": 6
    },
    {
      "epoch": 0.0016611295681063123,
      "grad_norm": 0.48112648725509644,
      "learning_rate": 9.86e-06,
      "loss": 2.9112,
      "step": 7
    },
    {
      "epoch": 0.0018984337921214998,
      "grad_norm": 0.8760956525802612,
      "learning_rate": 9.84e-06,
      "loss": 2.3175,
      "step": 8
    },
    {
      "epoch": 0.0021357380161366873,
      "grad_norm": 0.44891074299812317,
      "learning_rate": 9.820000000000001e-06,
      "loss": 1.3196,
      "step": 9
    },
    {
      "epoch": 0.0023730422401518746,
      "grad_norm": 0.3395187556743622,
      "learning_rate": 9.800000000000001e-06,
      "loss": 1.588,
      "step": 10
    },
    {
      "epoch": 0.0026103464641670624,
      "grad_norm": 0.587505578994751,
      "learning_rate": 9.780000000000001e-06,
      "loss": 1.2509,
      "step": 11
    },
    {
      "epoch": 0.0028476506881822496,
      "grad_norm": 0.4817255437374115,
      "learning_rate": 9.760000000000001e-06,
      "loss": 1.3541,
      "step": 12
    },
    {
      "epoch": 0.003084954912197437,
      "grad_norm": 0.312285840511322,
      "learning_rate": 9.74e-06,
      "loss": 1.8525,
      "step": 13
    },
    {
      "epoch": 0.0033222591362126247,
      "grad_norm": 0.7621486783027649,
      "learning_rate": 9.72e-06,
      "loss": 1.3197,
      "step": 14
    },
    {
      "epoch": 0.003559563360227812,
      "grad_norm": 0.5916957259178162,
      "learning_rate": 9.7e-06,
      "loss": 1.0805,
      "step": 15
    },
    {
      "epoch": 0.0037968675842429997,
      "grad_norm": 0.7447299361228943,
      "learning_rate": 9.68e-06,
      "loss": 2.5366,
      "step": 16
    },
    {
      "epoch": 0.004034171808258187,
      "grad_norm": 0.38069915771484375,
      "learning_rate": 9.66e-06,
      "loss": 1.6038,
      "step": 17
    },
    {
      "epoch": 0.004271476032273375,
      "grad_norm": 0.4375569224357605,
      "learning_rate": 9.640000000000001e-06,
      "loss": 2.8857,
      "step": 18
    },
    {
      "epoch": 0.004508780256288562,
      "grad_norm": 0.2266787886619568,
      "learning_rate": 9.620000000000001e-06,
      "loss": 2.045,
      "step": 19
    },
    {
      "epoch": 0.004746084480303749,
      "grad_norm": 0.3714630901813507,
      "learning_rate": 9.600000000000001e-06,
      "loss": 1.6152,
      "step": 20
    },
    {
      "epoch": 0.0049833887043189366,
      "grad_norm": 0.45660167932510376,
      "learning_rate": 9.58e-06,
      "loss": 2.1712,
      "step": 21
    },
    {
      "epoch": 0.005220692928334125,
      "grad_norm": 0.3804182708263397,
      "learning_rate": 9.56e-06,
      "loss": 1.7326,
      "step": 22
    },
    {
      "epoch": 0.005457997152349312,
      "grad_norm": 0.5945218205451965,
      "learning_rate": 9.54e-06,
      "loss": 2.8499,
      "step": 23
    },
    {
      "epoch": 0.005695301376364499,
      "grad_norm": 0.49986812472343445,
      "learning_rate": 9.52e-06,
      "loss": 1.887,
      "step": 24
    },
    {
      "epoch": 0.005932605600379687,
      "grad_norm": 0.41545894742012024,
      "learning_rate": 9.5e-06,
      "loss": 1.0656,
      "step": 25
    },
    {
      "epoch": 0.006169909824394874,
      "grad_norm": 0.6399343609809875,
      "learning_rate": 9.48e-06,
      "loss": 1.8672,
      "step": 26
    },
    {
      "epoch": 0.006407214048410062,
      "grad_norm": 0.3765011727809906,
      "learning_rate": 9.460000000000001e-06,
      "loss": 0.9629,
      "step": 27
    },
    {
      "epoch": 0.006644518272425249,
      "grad_norm": 0.48257043957710266,
      "learning_rate": 9.440000000000001e-06,
      "loss": 1.9923,
      "step": 28
    },
    {
      "epoch": 0.006881822496440437,
      "grad_norm": 0.5844452977180481,
      "learning_rate": 9.42e-06,
      "loss": 2.0896,
      "step": 29
    },
    {
      "epoch": 0.007119126720455624,
      "grad_norm": 0.6092790961265564,
      "learning_rate": 9.4e-06,
      "loss": 2.4446,
      "step": 30
    },
    {
      "epoch": 0.007356430944470811,
      "grad_norm": 0.6862596869468689,
      "learning_rate": 9.38e-06,
      "loss": 1.9678,
      "step": 31
    },
    {
      "epoch": 0.007593735168485999,
      "grad_norm": 0.5207828879356384,
      "learning_rate": 9.360000000000002e-06,
      "loss": 1.611,
      "step": 32
    },
    {
      "epoch": 0.007831039392501186,
      "grad_norm": 0.5294057130813599,
      "learning_rate": 9.340000000000002e-06,
      "loss": 1.8447,
      "step": 33
    },
    {
      "epoch": 0.008068343616516375,
      "grad_norm": 0.4702499210834503,
      "learning_rate": 9.32e-06,
      "loss": 2.035,
      "step": 34
    },
    {
      "epoch": 0.008305647840531562,
      "grad_norm": 0.5244491696357727,
      "learning_rate": 9.3e-06,
      "loss": 1.4395,
      "step": 35
    },
    {
      "epoch": 0.00854295206454675,
      "grad_norm": 0.644615650177002,
      "learning_rate": 9.280000000000001e-06,
      "loss": 1.7666,
      "step": 36
    },
    {
      "epoch": 0.008780256288561937,
      "grad_norm": 0.5552751421928406,
      "learning_rate": 9.260000000000001e-06,
      "loss": 1.5753,
      "step": 37
    },
    {
      "epoch": 0.009017560512577124,
      "grad_norm": 0.2882249057292938,
      "learning_rate": 9.240000000000001e-06,
      "loss": 1.5176,
      "step": 38
    },
    {
      "epoch": 0.009254864736592311,
      "grad_norm": 0.38219153881073,
      "learning_rate": 9.220000000000002e-06,
      "loss": 1.7808,
      "step": 39
    },
    {
      "epoch": 0.009492168960607499,
      "grad_norm": 0.6532744765281677,
      "learning_rate": 9.200000000000002e-06,
      "loss": 1.8763,
      "step": 40
    },
    {
      "epoch": 0.009729473184622686,
      "grad_norm": 0.7350605726242065,
      "learning_rate": 9.180000000000002e-06,
      "loss": 2.5947,
      "step": 41
    },
    {
      "epoch": 0.009966777408637873,
      "grad_norm": 0.44435158371925354,
      "learning_rate": 9.16e-06,
      "loss": 2.4829,
      "step": 42
    },
    {
      "epoch": 0.01020408163265306,
      "grad_norm": 0.3937893509864807,
      "learning_rate": 9.14e-06,
      "loss": 2.106,
      "step": 43
    },
    {
      "epoch": 0.01044138585666825,
      "grad_norm": 0.8209621906280518,
      "learning_rate": 9.12e-06,
      "loss": 1.8711,
      "step": 44
    },
    {
      "epoch": 0.010678690080683437,
      "grad_norm": 1.220982313156128,
      "learning_rate": 9.100000000000001e-06,
      "loss": 2.4524,
      "step": 45
    },
    {
      "epoch": 0.010915994304698624,
      "grad_norm": 0.4203420877456665,
      "learning_rate": 9.080000000000001e-06,
      "loss": 1.775,
      "step": 46
    },
    {
      "epoch": 0.011153298528713811,
      "grad_norm": 0.28424403071403503,
      "learning_rate": 9.060000000000001e-06,
      "loss": 1.7594,
      "step": 47
    },
    {
      "epoch": 0.011390602752728999,
      "grad_norm": 0.7268348336219788,
      "learning_rate": 9.040000000000002e-06,
      "loss": 0.9244,
      "step": 48
    },
    {
      "epoch": 0.011627906976744186,
      "grad_norm": 0.4843103885650635,
      "learning_rate": 9.020000000000002e-06,
      "loss": 1.9955,
      "step": 49
    },
    {
      "epoch": 0.011865211200759373,
      "grad_norm": 0.3405970335006714,
      "learning_rate": 9e-06,
      "loss": 1.6384,
      "step": 50
    },
    {
      "epoch": 0.01210251542477456,
      "grad_norm": 1.1265524625778198,
      "learning_rate": 8.98e-06,
      "loss": 1.7042,
      "step": 51
    },
    {
      "epoch": 0.012339819648789748,
      "grad_norm": 0.13442721962928772,
      "learning_rate": 8.96e-06,
      "loss": 1.3843,
      "step": 52
    },
    {
      "epoch": 0.012577123872804937,
      "grad_norm": 0.4972473382949829,
      "learning_rate": 8.94e-06,
      "loss": 0.8437,
      "step": 53
    },
    {
      "epoch": 0.012814428096820124,
      "grad_norm": 0.28667712211608887,
      "learning_rate": 8.920000000000001e-06,
      "loss": 0.9238,
      "step": 54
    },
    {
      "epoch": 0.013051732320835311,
      "grad_norm": 0.2998306155204773,
      "learning_rate": 8.900000000000001e-06,
      "loss": 2.2332,
      "step": 55
    },
    {
      "epoch": 0.013289036544850499,
      "grad_norm": 0.6133009195327759,
      "learning_rate": 8.880000000000001e-06,
      "loss": 2.2289,
      "step": 56
    },
    {
      "epoch": 0.013526340768865686,
      "grad_norm": 0.48921748995780945,
      "learning_rate": 8.860000000000002e-06,
      "loss": 0.6597,
      "step": 57
    },
    {
      "epoch": 0.013763644992880873,
      "grad_norm": 0.8161422610282898,
      "learning_rate": 8.84e-06,
      "loss": 1.3381,
      "step": 58
    },
    {
      "epoch": 0.01400094921689606,
      "grad_norm": 0.4998335540294647,
      "learning_rate": 8.82e-06,
      "loss": 1.5505,
      "step": 59
    },
    {
      "epoch": 0.014238253440911248,
      "grad_norm": 0.8967633843421936,
      "learning_rate": 8.8e-06,
      "loss": 1.2807,
      "step": 60
    },
    {
      "epoch": 0.014475557664926435,
      "grad_norm": 0.8106015920639038,
      "learning_rate": 8.78e-06,
      "loss": 1.2792,
      "step": 61
    },
    {
      "epoch": 0.014712861888941622,
      "grad_norm": 0.6022857427597046,
      "learning_rate": 8.76e-06,
      "loss": 2.023,
      "step": 62
    },
    {
      "epoch": 0.014950166112956811,
      "grad_norm": 0.6330555081367493,
      "learning_rate": 8.740000000000001e-06,
      "loss": 0.931,
      "step": 63
    },
    {
      "epoch": 0.015187470336971999,
      "grad_norm": 0.6975427269935608,
      "learning_rate": 8.720000000000001e-06,
      "loss": 1.5096,
      "step": 64
    },
    {
      "epoch": 0.015424774560987186,
      "grad_norm": 0.9109779596328735,
      "learning_rate": 8.700000000000001e-06,
      "loss": 1.4295,
      "step": 65
    },
    {
      "epoch": 0.01566207878500237,
      "grad_norm": 0.5679107904434204,
      "learning_rate": 8.68e-06,
      "loss": 1.6368,
      "step": 66
    },
    {
      "epoch": 0.01589938300901756,
      "grad_norm": 0.4659746587276459,
      "learning_rate": 8.66e-06,
      "loss": 1.292,
      "step": 67
    },
    {
      "epoch": 0.01613668723303275,
      "grad_norm": 0.6395153403282166,
      "learning_rate": 8.64e-06,
      "loss": 2.0611,
      "step": 68
    },
    {
      "epoch": 0.016373991457047935,
      "grad_norm": 0.37920185923576355,
      "learning_rate": 8.62e-06,
      "loss": 1.1706,
      "step": 69
    },
    {
      "epoch": 0.016611295681063124,
      "grad_norm": 0.2950354218482971,
      "learning_rate": 8.6e-06,
      "loss": 1.4619,
      "step": 70
    },
    {
      "epoch": 0.01684859990507831,
      "grad_norm": 0.664068877696991,
      "learning_rate": 8.580000000000001e-06,
      "loss": 2.3014,
      "step": 71
    },
    {
      "epoch": 0.0170859041290935,
      "grad_norm": 0.4015841782093048,
      "learning_rate": 8.560000000000001e-06,
      "loss": 2.6305,
      "step": 72
    },
    {
      "epoch": 0.017323208353108684,
      "grad_norm": 0.8365151882171631,
      "learning_rate": 8.540000000000001e-06,
      "loss": 2.4402,
      "step": 73
    },
    {
      "epoch": 0.017560512577123873,
      "grad_norm": 0.4587593376636505,
      "learning_rate": 8.52e-06,
      "loss": 1.1948,
      "step": 74
    },
    {
      "epoch": 0.01779781680113906,
      "grad_norm": 0.5275629162788391,
      "learning_rate": 8.5e-06,
      "loss": 1.2889,
      "step": 75
    },
    {
      "epoch": 0.018035121025154248,
      "grad_norm": 0.5322698354721069,
      "learning_rate": 8.48e-06,
      "loss": 2.5775,
      "step": 76
    },
    {
      "epoch": 0.018272425249169437,
      "grad_norm": 0.7846812009811401,
      "learning_rate": 8.46e-06,
      "loss": 1.2905,
      "step": 77
    },
    {
      "epoch": 0.018509729473184623,
      "grad_norm": 0.4759507179260254,
      "learning_rate": 8.44e-06,
      "loss": 1.1162,
      "step": 78
    },
    {
      "epoch": 0.01874703369719981,
      "grad_norm": 0.596358597278595,
      "learning_rate": 8.42e-06,
      "loss": 1.6618,
      "step": 79
    },
    {
      "epoch": 0.018984337921214997,
      "grad_norm": 0.5133060812950134,
      "learning_rate": 8.400000000000001e-06,
      "loss": 1.9102,
      "step": 80
    },
    {
      "epoch": 0.019221642145230186,
      "grad_norm": 0.8989421129226685,
      "learning_rate": 8.380000000000001e-06,
      "loss": 2.1852,
      "step": 81
    },
    {
      "epoch": 0.01945894636924537,
      "grad_norm": 0.4702143669128418,
      "learning_rate": 8.36e-06,
      "loss": 1.2668,
      "step": 82
    },
    {
      "epoch": 0.01969625059326056,
      "grad_norm": 1.2159205675125122,
      "learning_rate": 8.34e-06,
      "loss": 1.1101,
      "step": 83
    },
    {
      "epoch": 0.019933554817275746,
      "grad_norm": 0.5116935968399048,
      "learning_rate": 8.32e-06,
      "loss": 1.222,
      "step": 84
    },
    {
      "epoch": 0.020170859041290935,
      "grad_norm": 1.3710129261016846,
      "learning_rate": 8.3e-06,
      "loss": 3.1337,
      "step": 85
    },
    {
      "epoch": 0.02040816326530612,
      "grad_norm": 0.7467148303985596,
      "learning_rate": 8.28e-06,
      "loss": 2.1887,
      "step": 86
    },
    {
      "epoch": 0.02064546748932131,
      "grad_norm": 0.6403272151947021,
      "learning_rate": 8.26e-06,
      "loss": 1.2013,
      "step": 87
    },
    {
      "epoch": 0.0208827717133365,
      "grad_norm": 0.4310401678085327,
      "learning_rate": 8.24e-06,
      "loss": 1.4044,
      "step": 88
    },
    {
      "epoch": 0.021120075937351684,
      "grad_norm": 0.6710259318351746,
      "learning_rate": 8.220000000000001e-06,
      "loss": 2.5627,
      "step": 89
    },
    {
      "epoch": 0.021357380161366873,
      "grad_norm": 0.5828210115432739,
      "learning_rate": 8.2e-06,
      "loss": 1.7674,
      "step": 90
    },
    {
      "epoch": 0.02159468438538206,
      "grad_norm": 0.5417571663856506,
      "learning_rate": 8.18e-06,
      "loss": 2.2125,
      "step": 91
    },
    {
      "epoch": 0.021831988609397248,
      "grad_norm": 0.5095130205154419,
      "learning_rate": 8.16e-06,
      "loss": 3.1429,
      "step": 92
    },
    {
      "epoch": 0.022069292833412434,
      "grad_norm": 0.2329273670911789,
      "learning_rate": 8.14e-06,
      "loss": 1.84,
      "step": 93
    },
    {
      "epoch": 0.022306597057427623,
      "grad_norm": 0.4823262691497803,
      "learning_rate": 8.120000000000002e-06,
      "loss": 1.7104,
      "step": 94
    },
    {
      "epoch": 0.022543901281442808,
      "grad_norm": 0.6276722550392151,
      "learning_rate": 8.1e-06,
      "loss": 0.7729,
      "step": 95
    },
    {
      "epoch": 0.022781205505457997,
      "grad_norm": 0.642092764377594,
      "learning_rate": 8.08e-06,
      "loss": 2.1965,
      "step": 96
    },
    {
      "epoch": 0.023018509729473186,
      "grad_norm": 0.34217798709869385,
      "learning_rate": 8.06e-06,
      "loss": 0.9981,
      "step": 97
    },
    {
      "epoch": 0.023255813953488372,
      "grad_norm": 0.47839802503585815,
      "learning_rate": 8.040000000000001e-06,
      "loss": 1.594,
      "step": 98
    },
    {
      "epoch": 0.02349311817750356,
      "grad_norm": 1.0722686052322388,
      "learning_rate": 8.020000000000001e-06,
      "loss": 2.0473,
      "step": 99
    },
    {
      "epoch": 0.023730422401518746,
      "grad_norm": 0.7368118166923523,
      "learning_rate": 8.000000000000001e-06,
      "loss": 2.4467,
      "step": 100
    },
    {
      "epoch": 0.023967726625533935,
      "grad_norm": 1.064618706703186,
      "learning_rate": 7.980000000000002e-06,
      "loss": 1.9095,
      "step": 101
    },
    {
      "epoch": 0.02420503084954912,
      "grad_norm": 0.43928399682044983,
      "learning_rate": 7.960000000000002e-06,
      "loss": 1.7245,
      "step": 102
    },
    {
      "epoch": 0.02444233507356431,
      "grad_norm": 0.6588628888130188,
      "learning_rate": 7.94e-06,
      "loss": 0.8569,
      "step": 103
    },
    {
      "epoch": 0.024679639297579496,
      "grad_norm": 0.5403575301170349,
      "learning_rate": 7.92e-06,
      "loss": 1.2521,
      "step": 104
    },
    {
      "epoch": 0.024916943521594685,
      "grad_norm": 0.6686379313468933,
      "learning_rate": 7.9e-06,
      "loss": 1.6869,
      "step": 105
    },
    {
      "epoch": 0.025154247745609874,
      "grad_norm": 0.3803173005580902,
      "learning_rate": 7.88e-06,
      "loss": 2.1051,
      "step": 106
    },
    {
      "epoch": 0.02539155196962506,
      "grad_norm": 0.12461218237876892,
      "learning_rate": 7.860000000000001e-06,
      "loss": 1.5027,
      "step": 107
    },
    {
      "epoch": 0.025628856193640248,
      "grad_norm": 0.47309207916259766,
      "learning_rate": 7.840000000000001e-06,
      "loss": 1.156,
      "step": 108
    },
    {
      "epoch": 0.025866160417655434,
      "grad_norm": 0.5996202826499939,
      "learning_rate": 7.820000000000001e-06,
      "loss": 1.8978,
      "step": 109
    },
    {
      "epoch": 0.026103464641670623,
      "grad_norm": 1.3080424070358276,
      "learning_rate": 7.800000000000002e-06,
      "loss": 1.2111,
      "step": 110
    },
    {
      "epoch": 0.02634076886568581,
      "grad_norm": 0.5753285884857178,
      "learning_rate": 7.78e-06,
      "loss": 1.2555,
      "step": 111
    },
    {
      "epoch": 0.026578073089700997,
      "grad_norm": 0.4644084870815277,
      "learning_rate": 7.76e-06,
      "loss": 0.5773,
      "step": 112
    },
    {
      "epoch": 0.026815377313716183,
      "grad_norm": 0.7260199189186096,
      "learning_rate": 7.74e-06,
      "loss": 1.3806,
      "step": 113
    },
    {
      "epoch": 0.027052681537731372,
      "grad_norm": 3.247457265853882,
      "learning_rate": 7.72e-06,
      "loss": 3.6028,
      "step": 114
    },
    {
      "epoch": 0.027289985761746557,
      "grad_norm": 0.6819869875907898,
      "learning_rate": 7.7e-06,
      "loss": 1.3892,
      "step": 115
    },
    {
      "epoch": 0.027527289985761746,
      "grad_norm": 0.5939836502075195,
      "learning_rate": 7.680000000000001e-06,
      "loss": 0.8986,
      "step": 116
    },
    {
      "epoch": 0.027764594209776935,
      "grad_norm": 0.9432902336120605,
      "learning_rate": 7.660000000000001e-06,
      "loss": 1.9631,
      "step": 117
    },
    {
      "epoch": 0.02800189843379212,
      "grad_norm": 0.7726979851722717,
      "learning_rate": 7.640000000000001e-06,
      "loss": 1.8061,
      "step": 118
    },
    {
      "epoch": 0.02823920265780731,
      "grad_norm": 1.1715900897979736,
      "learning_rate": 7.620000000000001e-06,
      "loss": 1.6768,
      "step": 119
    },
    {
      "epoch": 0.028476506881822496,
      "grad_norm": 0.422097772359848,
      "learning_rate": 7.600000000000001e-06,
      "loss": 1.2938,
      "step": 120
    },
    {
      "epoch": 0.028713811105837685,
      "grad_norm": 0.4177633225917816,
      "learning_rate": 7.58e-06,
      "loss": 2.4758,
      "step": 121
    },
    {
      "epoch": 0.02895111532985287,
      "grad_norm": 0.8148231506347656,
      "learning_rate": 7.5600000000000005e-06,
      "loss": 1.6307,
      "step": 122
    },
    {
      "epoch": 0.02918841955386806,
      "grad_norm": 0.36970993876457214,
      "learning_rate": 7.540000000000001e-06,
      "loss": 1.923,
      "step": 123
    },
    {
      "epoch": 0.029425723777883245,
      "grad_norm": 0.9572102427482605,
      "learning_rate": 7.520000000000001e-06,
      "loss": 2.4889,
      "step": 124
    },
    {
      "epoch": 0.029663028001898434,
      "grad_norm": 1.023463487625122,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.753,
      "step": 125
    },
    {
      "epoch": 0.029900332225913623,
      "grad_norm": 0.7689042091369629,
      "learning_rate": 7.48e-06,
      "loss": 1.8955,
      "step": 126
    },
    {
      "epoch": 0.03013763644992881,
      "grad_norm": 0.8892776370048523,
      "learning_rate": 7.4600000000000006e-06,
      "loss": 1.907,
      "step": 127
    },
    {
      "epoch": 0.030374940673943997,
      "grad_norm": 0.6348279118537903,
      "learning_rate": 7.440000000000001e-06,
      "loss": 0.9907,
      "step": 128
    },
    {
      "epoch": 0.030612244897959183,
      "grad_norm": 0.8271303772926331,
      "learning_rate": 7.420000000000001e-06,
      "loss": 0.8349,
      "step": 129
    },
    {
      "epoch": 0.030849549121974372,
      "grad_norm": 0.567034900188446,
      "learning_rate": 7.4e-06,
      "loss": 1.5324,
      "step": 130
    },
    {
      "epoch": 0.031086853345989558,
      "grad_norm": 0.7354723215103149,
      "learning_rate": 7.3800000000000005e-06,
      "loss": 1.8572,
      "step": 131
    },
    {
      "epoch": 0.03132415757000474,
      "grad_norm": 0.7156671285629272,
      "learning_rate": 7.360000000000001e-06,
      "loss": 1.6312,
      "step": 132
    },
    {
      "epoch": 0.03156146179401993,
      "grad_norm": 0.36890867352485657,
      "learning_rate": 7.340000000000001e-06,
      "loss": 0.8384,
      "step": 133
    },
    {
      "epoch": 0.03179876601803512,
      "grad_norm": 0.6410567760467529,
      "learning_rate": 7.32e-06,
      "loss": 1.1728,
      "step": 134
    },
    {
      "epoch": 0.03203607024205031,
      "grad_norm": 0.5395240187644958,
      "learning_rate": 7.3e-06,
      "loss": 1.3754,
      "step": 135
    },
    {
      "epoch": 0.0322733744660655,
      "grad_norm": 0.9049538373947144,
      "learning_rate": 7.280000000000001e-06,
      "loss": 1.1323,
      "step": 136
    },
    {
      "epoch": 0.03251067869008068,
      "grad_norm": 0.7486042380332947,
      "learning_rate": 7.260000000000001e-06,
      "loss": 2.6436,
      "step": 137
    },
    {
      "epoch": 0.03274798291409587,
      "grad_norm": 0.2955069839954376,
      "learning_rate": 7.24e-06,
      "loss": 1.6258,
      "step": 138
    },
    {
      "epoch": 0.03298528713811106,
      "grad_norm": 0.5585281848907471,
      "learning_rate": 7.22e-06,
      "loss": 1.0526,
      "step": 139
    },
    {
      "epoch": 0.03322259136212625,
      "grad_norm": 0.6172239780426025,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 2.0741,
      "step": 140
    },
    {
      "epoch": 0.03345989558614143,
      "grad_norm": 1.0919370651245117,
      "learning_rate": 7.180000000000001e-06,
      "loss": 2.6546,
      "step": 141
    },
    {
      "epoch": 0.03369719981015662,
      "grad_norm": 0.6277972459793091,
      "learning_rate": 7.16e-06,
      "loss": 1.4516,
      "step": 142
    },
    {
      "epoch": 0.03393450403417181,
      "grad_norm": 1.262568712234497,
      "learning_rate": 7.14e-06,
      "loss": 1.3782,
      "step": 143
    },
    {
      "epoch": 0.034171808258187,
      "grad_norm": 0.9131320714950562,
      "learning_rate": 7.1200000000000004e-06,
      "loss": 1.3814,
      "step": 144
    },
    {
      "epoch": 0.03440911248220219,
      "grad_norm": 0.4619258642196655,
      "learning_rate": 7.100000000000001e-06,
      "loss": 2.8978,
      "step": 145
    },
    {
      "epoch": 0.03464641670621737,
      "grad_norm": 0.17557378113269806,
      "learning_rate": 7.08e-06,
      "loss": 1.5882,
      "step": 146
    },
    {
      "epoch": 0.03488372093023256,
      "grad_norm": 0.6798960566520691,
      "learning_rate": 7.06e-06,
      "loss": 2.5057,
      "step": 147
    },
    {
      "epoch": 0.03512102515424775,
      "grad_norm": 0.7229902744293213,
      "learning_rate": 7.04e-06,
      "loss": 1.195,
      "step": 148
    },
    {
      "epoch": 0.035358329378262936,
      "grad_norm": 0.5356243848800659,
      "learning_rate": 7.0200000000000006e-06,
      "loss": 2.3255,
      "step": 149
    },
    {
      "epoch": 0.03559563360227812,
      "grad_norm": 0.735577404499054,
      "learning_rate": 7e-06,
      "loss": 0.5763,
      "step": 150
    },
    {
      "epoch": 0.03583293782629331,
      "grad_norm": 0.7191525101661682,
      "learning_rate": 6.98e-06,
      "loss": 1.5225,
      "step": 151
    },
    {
      "epoch": 0.036070242050308496,
      "grad_norm": 0.5553634166717529,
      "learning_rate": 6.96e-06,
      "loss": 2.0026,
      "step": 152
    },
    {
      "epoch": 0.036307546274323685,
      "grad_norm": 0.9029828310012817,
      "learning_rate": 6.9400000000000005e-06,
      "loss": 0.8248,
      "step": 153
    },
    {
      "epoch": 0.036544850498338874,
      "grad_norm": 0.8566996455192566,
      "learning_rate": 6.92e-06,
      "loss": 1.9291,
      "step": 154
    },
    {
      "epoch": 0.036782154722354056,
      "grad_norm": 0.677769124507904,
      "learning_rate": 6.9e-06,
      "loss": 1.5933,
      "step": 155
    },
    {
      "epoch": 0.037019458946369245,
      "grad_norm": 0.5915787220001221,
      "learning_rate": 6.88e-06,
      "loss": 0.9965,
      "step": 156
    },
    {
      "epoch": 0.037256763170384434,
      "grad_norm": 0.511048436164856,
      "learning_rate": 6.860000000000001e-06,
      "loss": 1.8256,
      "step": 157
    },
    {
      "epoch": 0.03749406739439962,
      "grad_norm": 0.49128812551498413,
      "learning_rate": 6.8400000000000014e-06,
      "loss": 1.6187,
      "step": 158
    },
    {
      "epoch": 0.037731371618414805,
      "grad_norm": 0.554414689540863,
      "learning_rate": 6.820000000000001e-06,
      "loss": 1.1991,
      "step": 159
    },
    {
      "epoch": 0.037968675842429994,
      "grad_norm": 0.9458298683166504,
      "learning_rate": 6.800000000000001e-06,
      "loss": 2.2793,
      "step": 160
    },
    {
      "epoch": 0.03820598006644518,
      "grad_norm": 2.0072669982910156,
      "learning_rate": 6.780000000000001e-06,
      "loss": 1.89,
      "step": 161
    },
    {
      "epoch": 0.03844328429046037,
      "grad_norm": 1.146154761314392,
      "learning_rate": 6.760000000000001e-06,
      "loss": 2.607,
      "step": 162
    },
    {
      "epoch": 0.038680588514475554,
      "grad_norm": 0.6168065667152405,
      "learning_rate": 6.740000000000001e-06,
      "loss": 1.459,
      "step": 163
    },
    {
      "epoch": 0.03891789273849074,
      "grad_norm": 0.4497089684009552,
      "learning_rate": 6.720000000000001e-06,
      "loss": 1.2466,
      "step": 164
    },
    {
      "epoch": 0.03915519696250593,
      "grad_norm": 0.7007705569267273,
      "learning_rate": 6.700000000000001e-06,
      "loss": 2.4729,
      "step": 165
    },
    {
      "epoch": 0.03939250118652112,
      "grad_norm": 0.8613377809524536,
      "learning_rate": 6.680000000000001e-06,
      "loss": 2.2219,
      "step": 166
    },
    {
      "epoch": 0.03962980541053631,
      "grad_norm": 0.539036750793457,
      "learning_rate": 6.660000000000001e-06,
      "loss": 0.5526,
      "step": 167
    },
    {
      "epoch": 0.03986710963455149,
      "grad_norm": 0.6085006594657898,
      "learning_rate": 6.640000000000001e-06,
      "loss": 2.1238,
      "step": 168
    },
    {
      "epoch": 0.04010441385856668,
      "grad_norm": 1.8861020803451538,
      "learning_rate": 6.620000000000001e-06,
      "loss": 2.6934,
      "step": 169
    },
    {
      "epoch": 0.04034171808258187,
      "grad_norm": 0.5803074240684509,
      "learning_rate": 6.600000000000001e-06,
      "loss": 1.2254,
      "step": 170
    },
    {
      "epoch": 0.04057902230659706,
      "grad_norm": 1.0310598611831665,
      "learning_rate": 6.5800000000000005e-06,
      "loss": 1.1757,
      "step": 171
    },
    {
      "epoch": 0.04081632653061224,
      "grad_norm": 0.9412042498588562,
      "learning_rate": 6.560000000000001e-06,
      "loss": 1.3748,
      "step": 172
    },
    {
      "epoch": 0.04105363075462743,
      "grad_norm": 0.6556461453437805,
      "learning_rate": 6.540000000000001e-06,
      "loss": 1.0809,
      "step": 173
    },
    {
      "epoch": 0.04129093497864262,
      "grad_norm": 0.4990858733654022,
      "learning_rate": 6.520000000000001e-06,
      "loss": 1.2934,
      "step": 174
    },
    {
      "epoch": 0.04152823920265781,
      "grad_norm": 0.6699053645133972,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 2.4814,
      "step": 175
    },
    {
      "epoch": 0.041765543426673,
      "grad_norm": 0.8843134641647339,
      "learning_rate": 6.480000000000001e-06,
      "loss": 1.9615,
      "step": 176
    },
    {
      "epoch": 0.04200284765068818,
      "grad_norm": 0.6757798790931702,
      "learning_rate": 6.460000000000001e-06,
      "loss": 1.7584,
      "step": 177
    },
    {
      "epoch": 0.04224015187470337,
      "grad_norm": 0.46641185879707336,
      "learning_rate": 6.440000000000001e-06,
      "loss": 1.3054,
      "step": 178
    },
    {
      "epoch": 0.04247745609871856,
      "grad_norm": 0.7104260325431824,
      "learning_rate": 6.42e-06,
      "loss": 1.1761,
      "step": 179
    },
    {
      "epoch": 0.04271476032273375,
      "grad_norm": 0.3888971209526062,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 2.2055,
      "step": 180
    },
    {
      "epoch": 0.04295206454674893,
      "grad_norm": 1.1661548614501953,
      "learning_rate": 6.380000000000001e-06,
      "loss": 1.1329,
      "step": 181
    },
    {
      "epoch": 0.04318936877076412,
      "grad_norm": 0.40143099427223206,
      "learning_rate": 6.360000000000001e-06,
      "loss": 1.0135,
      "step": 182
    },
    {
      "epoch": 0.04342667299477931,
      "grad_norm": 0.692574679851532,
      "learning_rate": 6.34e-06,
      "loss": 1.3553,
      "step": 183
    },
    {
      "epoch": 0.043663977218794496,
      "grad_norm": 0.6210284233093262,
      "learning_rate": 6.3200000000000005e-06,
      "loss": 1.4226,
      "step": 184
    },
    {
      "epoch": 0.043901281442809685,
      "grad_norm": 0.6218913197517395,
      "learning_rate": 6.300000000000001e-06,
      "loss": 1.8475,
      "step": 185
    },
    {
      "epoch": 0.04413858566682487,
      "grad_norm": 0.6004898548126221,
      "learning_rate": 6.280000000000001e-06,
      "loss": 1.8829,
      "step": 186
    },
    {
      "epoch": 0.044375889890840056,
      "grad_norm": 0.8992873430252075,
      "learning_rate": 6.26e-06,
      "loss": 1.0599,
      "step": 187
    },
    {
      "epoch": 0.044613194114855245,
      "grad_norm": 0.5328947305679321,
      "learning_rate": 6.24e-06,
      "loss": 0.7189,
      "step": 188
    },
    {
      "epoch": 0.044850498338870434,
      "grad_norm": 0.5015738010406494,
      "learning_rate": 6.220000000000001e-06,
      "loss": 2.0798,
      "step": 189
    },
    {
      "epoch": 0.045087802562885616,
      "grad_norm": 0.47242438793182373,
      "learning_rate": 6.200000000000001e-06,
      "loss": 1.3423,
      "step": 190
    },
    {
      "epoch": 0.045325106786900805,
      "grad_norm": 0.9236852526664734,
      "learning_rate": 6.18e-06,
      "loss": 1.2769,
      "step": 191
    },
    {
      "epoch": 0.045562411010915994,
      "grad_norm": 0.47883141040802,
      "learning_rate": 6.16e-06,
      "loss": 1.5209,
      "step": 192
    },
    {
      "epoch": 0.04579971523493118,
      "grad_norm": 0.760746955871582,
      "learning_rate": 6.1400000000000005e-06,
      "loss": 1.6353,
      "step": 193
    },
    {
      "epoch": 0.04603701945894637,
      "grad_norm": 0.5924590826034546,
      "learning_rate": 6.120000000000001e-06,
      "loss": 1.3738,
      "step": 194
    },
    {
      "epoch": 0.046274323682961555,
      "grad_norm": 0.7453778386116028,
      "learning_rate": 6.1e-06,
      "loss": 0.8792,
      "step": 195
    },
    {
      "epoch": 0.046511627906976744,
      "grad_norm": 0.8486724495887756,
      "learning_rate": 6.08e-06,
      "loss": 1.7324,
      "step": 196
    },
    {
      "epoch": 0.04674893213099193,
      "grad_norm": 0.5349167585372925,
      "learning_rate": 6.0600000000000004e-06,
      "loss": 1.1938,
      "step": 197
    },
    {
      "epoch": 0.04698623635500712,
      "grad_norm": 0.4522935748100281,
      "learning_rate": 6.040000000000001e-06,
      "loss": 1.282,
      "step": 198
    },
    {
      "epoch": 0.047223540579022304,
      "grad_norm": 0.6473549008369446,
      "learning_rate": 6.02e-06,
      "loss": 0.9753,
      "step": 199
    },
    {
      "epoch": 0.04746084480303749,
      "grad_norm": 0.8137974739074707,
      "learning_rate": 6e-06,
      "loss": 1.6364,
      "step": 200
    },
    {
      "epoch": 0.04769814902705268,
      "grad_norm": 0.48920387029647827,
      "learning_rate": 5.98e-06,
      "loss": 1.8822,
      "step": 201
    },
    {
      "epoch": 0.04793545325106787,
      "grad_norm": 0.7745688557624817,
      "learning_rate": 5.9600000000000005e-06,
      "loss": 1.1183,
      "step": 202
    },
    {
      "epoch": 0.04817275747508306,
      "grad_norm": 1.2582346200942993,
      "learning_rate": 5.94e-06,
      "loss": 2.3109,
      "step": 203
    },
    {
      "epoch": 0.04841006169909824,
      "grad_norm": 0.6862124800682068,
      "learning_rate": 5.92e-06,
      "loss": 1.972,
      "step": 204
    },
    {
      "epoch": 0.04864736592311343,
      "grad_norm": 0.2611483931541443,
      "learning_rate": 5.9e-06,
      "loss": 1.657,
      "step": 205
    },
    {
      "epoch": 0.04888467014712862,
      "grad_norm": 0.6788746118545532,
      "learning_rate": 5.8800000000000005e-06,
      "loss": 1.4215,
      "step": 206
    },
    {
      "epoch": 0.04912197437114381,
      "grad_norm": 0.7344043254852295,
      "learning_rate": 5.86e-06,
      "loss": 1.8161,
      "step": 207
    },
    {
      "epoch": 0.04935927859515899,
      "grad_norm": 0.9730067849159241,
      "learning_rate": 5.84e-06,
      "loss": 2.009,
      "step": 208
    },
    {
      "epoch": 0.04959658281917418,
      "grad_norm": 0.5687656998634338,
      "learning_rate": 5.82e-06,
      "loss": 1.371,
      "step": 209
    },
    {
      "epoch": 0.04983388704318937,
      "grad_norm": 0.9074623584747314,
      "learning_rate": 5.8e-06,
      "loss": 0.9096,
      "step": 210
    },
    {
      "epoch": 0.05007119126720456,
      "grad_norm": 0.5359849333763123,
      "learning_rate": 5.78e-06,
      "loss": 1.7314,
      "step": 211
    },
    {
      "epoch": 0.05030849549121975,
      "grad_norm": 0.5226656198501587,
      "learning_rate": 5.76e-06,
      "loss": 0.7389,
      "step": 212
    },
    {
      "epoch": 0.05054579971523493,
      "grad_norm": 0.8956894874572754,
      "learning_rate": 5.74e-06,
      "loss": 1.1937,
      "step": 213
    },
    {
      "epoch": 0.05078310393925012,
      "grad_norm": 1.2422311305999756,
      "learning_rate": 5.72e-06,
      "loss": 1.8545,
      "step": 214
    },
    {
      "epoch": 0.05102040816326531,
      "grad_norm": 0.5634399056434631,
      "learning_rate": 5.7e-06,
      "loss": 1.446,
      "step": 215
    },
    {
      "epoch": 0.051257712387280496,
      "grad_norm": 0.7447414398193359,
      "learning_rate": 5.68e-06,
      "loss": 1.7231,
      "step": 216
    },
    {
      "epoch": 0.05149501661129568,
      "grad_norm": 1.131425380706787,
      "learning_rate": 5.66e-06,
      "loss": 1.4652,
      "step": 217
    },
    {
      "epoch": 0.05173232083531087,
      "grad_norm": 0.8668593764305115,
      "learning_rate": 5.64e-06,
      "loss": 2.0443,
      "step": 218
    },
    {
      "epoch": 0.051969625059326056,
      "grad_norm": 1.2437993288040161,
      "learning_rate": 5.620000000000001e-06,
      "loss": 2.1323,
      "step": 219
    },
    {
      "epoch": 0.052206929283341245,
      "grad_norm": 0.914955198764801,
      "learning_rate": 5.600000000000001e-06,
      "loss": 2.2205,
      "step": 220
    },
    {
      "epoch": 0.05244423350735643,
      "grad_norm": 1.0641348361968994,
      "learning_rate": 5.580000000000001e-06,
      "loss": 2.4159,
      "step": 221
    },
    {
      "epoch": 0.05268153773137162,
      "grad_norm": 0.17957435548305511,
      "learning_rate": 5.560000000000001e-06,
      "loss": 1.1683,
      "step": 222
    },
    {
      "epoch": 0.052918841955386806,
      "grad_norm": 1.058635950088501,
      "learning_rate": 5.540000000000001e-06,
      "loss": 1.8851,
      "step": 223
    },
    {
      "epoch": 0.053156146179401995,
      "grad_norm": 0.6216885447502136,
      "learning_rate": 5.5200000000000005e-06,
      "loss": 2.0638,
      "step": 224
    },
    {
      "epoch": 0.053393450403417184,
      "grad_norm": 0.32197320461273193,
      "learning_rate": 5.500000000000001e-06,
      "loss": 4.2387,
      "step": 225
    },
    {
      "epoch": 0.053630754627432366,
      "grad_norm": 0.5334311127662659,
      "learning_rate": 5.480000000000001e-06,
      "loss": 1.199,
      "step": 226
    },
    {
      "epoch": 0.053868058851447555,
      "grad_norm": 0.8656753301620483,
      "learning_rate": 5.460000000000001e-06,
      "loss": 1.0053,
      "step": 227
    },
    {
      "epoch": 0.054105363075462744,
      "grad_norm": 0.9633522629737854,
      "learning_rate": 5.4400000000000004e-06,
      "loss": 2.6078,
      "step": 228
    },
    {
      "epoch": 0.05434266729947793,
      "grad_norm": 0.8262597322463989,
      "learning_rate": 5.420000000000001e-06,
      "loss": 2.4638,
      "step": 229
    },
    {
      "epoch": 0.054579971523493115,
      "grad_norm": 0.9816875457763672,
      "learning_rate": 5.400000000000001e-06,
      "loss": 2.3545,
      "step": 230
    },
    {
      "epoch": 0.054817275747508304,
      "grad_norm": 0.7079796195030212,
      "learning_rate": 5.380000000000001e-06,
      "loss": 1.7035,
      "step": 231
    },
    {
      "epoch": 0.05505457997152349,
      "grad_norm": 0.2551076412200928,
      "learning_rate": 5.36e-06,
      "loss": 2.3941,
      "step": 232
    },
    {
      "epoch": 0.05529188419553868,
      "grad_norm": 0.8667798042297363,
      "learning_rate": 5.3400000000000005e-06,
      "loss": 2.5876,
      "step": 233
    },
    {
      "epoch": 0.05552918841955387,
      "grad_norm": 0.48972687125205994,
      "learning_rate": 5.320000000000001e-06,
      "loss": 1.9343,
      "step": 234
    },
    {
      "epoch": 0.05576649264356905,
      "grad_norm": 1.166282057762146,
      "learning_rate": 5.300000000000001e-06,
      "loss": 1.5903,
      "step": 235
    },
    {
      "epoch": 0.05600379686758424,
      "grad_norm": 1.0136897563934326,
      "learning_rate": 5.28e-06,
      "loss": 1.9003,
      "step": 236
    },
    {
      "epoch": 0.05624110109159943,
      "grad_norm": 0.9301249384880066,
      "learning_rate": 5.2600000000000005e-06,
      "loss": 2.2514,
      "step": 237
    },
    {
      "epoch": 0.05647840531561462,
      "grad_norm": 0.6378384232521057,
      "learning_rate": 5.240000000000001e-06,
      "loss": 1.0407,
      "step": 238
    },
    {
      "epoch": 0.0567157095396298,
      "grad_norm": 0.7191042900085449,
      "learning_rate": 5.220000000000001e-06,
      "loss": 1.8487,
      "step": 239
    },
    {
      "epoch": 0.05695301376364499,
      "grad_norm": 0.8724852204322815,
      "learning_rate": 5.2e-06,
      "loss": 1.9766,
      "step": 240
    },
    {
      "epoch": 0.05719031798766018,
      "grad_norm": 1.2465623617172241,
      "learning_rate": 5.18e-06,
      "loss": 2.0123,
      "step": 241
    },
    {
      "epoch": 0.05742762221167537,
      "grad_norm": 0.6831521987915039,
      "learning_rate": 5.1600000000000006e-06,
      "loss": 2.5164,
      "step": 242
    },
    {
      "epoch": 0.05766492643569056,
      "grad_norm": 0.9678359627723694,
      "learning_rate": 5.140000000000001e-06,
      "loss": 1.1767,
      "step": 243
    },
    {
      "epoch": 0.05790223065970574,
      "grad_norm": 0.7171100378036499,
      "learning_rate": 5.12e-06,
      "loss": 1.5144,
      "step": 244
    },
    {
      "epoch": 0.05813953488372093,
      "grad_norm": 1.8189458847045898,
      "learning_rate": 5.1e-06,
      "loss": 0.8019,
      "step": 245
    },
    {
      "epoch": 0.05837683910773612,
      "grad_norm": 0.8519846796989441,
      "learning_rate": 5.0800000000000005e-06,
      "loss": 0.5605,
      "step": 246
    },
    {
      "epoch": 0.05861414333175131,
      "grad_norm": 0.8352647423744202,
      "learning_rate": 5.060000000000001e-06,
      "loss": 1.83,
      "step": 247
    },
    {
      "epoch": 0.05885144755576649,
      "grad_norm": 0.8553798198699951,
      "learning_rate": 5.04e-06,
      "loss": 0.8078,
      "step": 248
    },
    {
      "epoch": 0.05908875177978168,
      "grad_norm": 0.5836890935897827,
      "learning_rate": 5.02e-06,
      "loss": 1.805,
      "step": 249
    },
    {
      "epoch": 0.05932605600379687,
      "grad_norm": 1.2686045169830322,
      "learning_rate": 5e-06,
      "loss": 2.9273,
      "step": 250
    },
    {
      "epoch": 0.05956336022781206,
      "grad_norm": 1.0224002599716187,
      "learning_rate": 4.980000000000001e-06,
      "loss": 1.5689,
      "step": 251
    },
    {
      "epoch": 0.059800664451827246,
      "grad_norm": 0.6084955334663391,
      "learning_rate": 4.960000000000001e-06,
      "loss": 1.4633,
      "step": 252
    },
    {
      "epoch": 0.06003796867584243,
      "grad_norm": 1.0595405101776123,
      "learning_rate": 4.94e-06,
      "loss": 1.799,
      "step": 253
    },
    {
      "epoch": 0.06027527289985762,
      "grad_norm": 0.6184794306755066,
      "learning_rate": 4.92e-06,
      "loss": 0.936,
      "step": 254
    },
    {
      "epoch": 0.060512577123872806,
      "grad_norm": 0.8224856853485107,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 1.2481,
      "step": 255
    },
    {
      "epoch": 0.060749881347887995,
      "grad_norm": 0.4918515086174011,
      "learning_rate": 4.880000000000001e-06,
      "loss": 1.6237,
      "step": 256
    },
    {
      "epoch": 0.06098718557190318,
      "grad_norm": 0.7177821397781372,
      "learning_rate": 4.86e-06,
      "loss": 1.6721,
      "step": 257
    },
    {
      "epoch": 0.061224489795918366,
      "grad_norm": 0.654577374458313,
      "learning_rate": 4.84e-06,
      "loss": 1.6336,
      "step": 258
    },
    {
      "epoch": 0.061461794019933555,
      "grad_norm": 0.6433861255645752,
      "learning_rate": 4.8200000000000004e-06,
      "loss": 0.7603,
      "step": 259
    },
    {
      "epoch": 0.061699098243948744,
      "grad_norm": 0.8999320864677429,
      "learning_rate": 4.800000000000001e-06,
      "loss": 1.5193,
      "step": 260
    },
    {
      "epoch": 0.06193640246796393,
      "grad_norm": 1.071006417274475,
      "learning_rate": 4.78e-06,
      "loss": 2.1792,
      "step": 261
    },
    {
      "epoch": 0.062173706691979115,
      "grad_norm": 0.950939416885376,
      "learning_rate": 4.76e-06,
      "loss": 1.7475,
      "step": 262
    },
    {
      "epoch": 0.062411010915994304,
      "grad_norm": 0.6791463494300842,
      "learning_rate": 4.74e-06,
      "loss": 1.5734,
      "step": 263
    },
    {
      "epoch": 0.06264831514000949,
      "grad_norm": 0.8757117986679077,
      "learning_rate": 4.7200000000000005e-06,
      "loss": 0.9807,
      "step": 264
    },
    {
      "epoch": 0.06288561936402468,
      "grad_norm": 1.6328972578048706,
      "learning_rate": 4.7e-06,
      "loss": 1.3517,
      "step": 265
    },
    {
      "epoch": 0.06312292358803986,
      "grad_norm": 1.2624143362045288,
      "learning_rate": 4.680000000000001e-06,
      "loss": 1.935,
      "step": 266
    },
    {
      "epoch": 0.06336022781205505,
      "grad_norm": 0.8143572211265564,
      "learning_rate": 4.66e-06,
      "loss": 1.2027,
      "step": 267
    },
    {
      "epoch": 0.06359753203607024,
      "grad_norm": 1.05904221534729,
      "learning_rate": 4.6400000000000005e-06,
      "loss": 2.0852,
      "step": 268
    },
    {
      "epoch": 0.06383483626008543,
      "grad_norm": 0.5743423104286194,
      "learning_rate": 4.620000000000001e-06,
      "loss": 1.649,
      "step": 269
    },
    {
      "epoch": 0.06407214048410062,
      "grad_norm": 1.2721295356750488,
      "learning_rate": 4.600000000000001e-06,
      "loss": 1.7225,
      "step": 270
    },
    {
      "epoch": 0.06430944470811581,
      "grad_norm": 0.8935225009918213,
      "learning_rate": 4.58e-06,
      "loss": 1.7969,
      "step": 271
    },
    {
      "epoch": 0.064546748932131,
      "grad_norm": 0.4470404088497162,
      "learning_rate": 4.56e-06,
      "loss": 1.4834,
      "step": 272
    },
    {
      "epoch": 0.06478405315614617,
      "grad_norm": 0.41209957003593445,
      "learning_rate": 4.540000000000001e-06,
      "loss": 1.5577,
      "step": 273
    },
    {
      "epoch": 0.06502135738016136,
      "grad_norm": 1.3055024147033691,
      "learning_rate": 4.520000000000001e-06,
      "loss": 2.0445,
      "step": 274
    },
    {
      "epoch": 0.06525866160417655,
      "grad_norm": 1.182127594947815,
      "learning_rate": 4.5e-06,
      "loss": 2.5339,
      "step": 275
    },
    {
      "epoch": 0.06549596582819174,
      "grad_norm": 1.030988335609436,
      "learning_rate": 4.48e-06,
      "loss": 2.8977,
      "step": 276
    },
    {
      "epoch": 0.06573327005220693,
      "grad_norm": 1.023729920387268,
      "learning_rate": 4.4600000000000005e-06,
      "loss": 3.7561,
      "step": 277
    },
    {
      "epoch": 0.06597057427622212,
      "grad_norm": 0.8441396951675415,
      "learning_rate": 4.440000000000001e-06,
      "loss": 0.9105,
      "step": 278
    },
    {
      "epoch": 0.06620787850023731,
      "grad_norm": 0.781200647354126,
      "learning_rate": 4.42e-06,
      "loss": 1.1585,
      "step": 279
    },
    {
      "epoch": 0.0664451827242525,
      "grad_norm": 1.0872159004211426,
      "learning_rate": 4.4e-06,
      "loss": 1.8595,
      "step": 280
    },
    {
      "epoch": 0.06668248694826769,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 4.38e-06,
      "loss": 1.5494,
      "step": 281
    },
    {
      "epoch": 0.06691979117228286,
      "grad_norm": 0.7101930975914001,
      "learning_rate": 4.360000000000001e-06,
      "loss": 0.9779,
      "step": 282
    },
    {
      "epoch": 0.06715709539629805,
      "grad_norm": 2.0798416137695312,
      "learning_rate": 4.34e-06,
      "loss": 2.2541,
      "step": 283
    },
    {
      "epoch": 0.06739439962031324,
      "grad_norm": 0.45076173543930054,
      "learning_rate": 4.32e-06,
      "loss": 2.0375,
      "step": 284
    },
    {
      "epoch": 0.06763170384432843,
      "grad_norm": 1.132407784461975,
      "learning_rate": 4.3e-06,
      "loss": 1.8917,
      "step": 285
    },
    {
      "epoch": 0.06786900806834362,
      "grad_norm": 0.4013515114784241,
      "learning_rate": 4.2800000000000005e-06,
      "loss": 0.3564,
      "step": 286
    },
    {
      "epoch": 0.0681063122923588,
      "grad_norm": 0.7896368503570557,
      "learning_rate": 4.26e-06,
      "loss": 1.5522,
      "step": 287
    },
    {
      "epoch": 0.068343616516374,
      "grad_norm": 0.5332828760147095,
      "learning_rate": 4.24e-06,
      "loss": 0.56,
      "step": 288
    },
    {
      "epoch": 0.06858092074038918,
      "grad_norm": 0.6611258387565613,
      "learning_rate": 4.22e-06,
      "loss": 1.5975,
      "step": 289
    },
    {
      "epoch": 0.06881822496440437,
      "grad_norm": 0.8199064135551453,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 2.1785,
      "step": 290
    },
    {
      "epoch": 0.06905552918841955,
      "grad_norm": 0.8175731301307678,
      "learning_rate": 4.18e-06,
      "loss": 2.1028,
      "step": 291
    },
    {
      "epoch": 0.06929283341243474,
      "grad_norm": 0.7817385196685791,
      "learning_rate": 4.16e-06,
      "loss": 1.6518,
      "step": 292
    },
    {
      "epoch": 0.06953013763644993,
      "grad_norm": 0.7397461533546448,
      "learning_rate": 4.14e-06,
      "loss": 1.4586,
      "step": 293
    },
    {
      "epoch": 0.06976744186046512,
      "grad_norm": 0.39525383710861206,
      "learning_rate": 4.12e-06,
      "loss": 2.1693,
      "step": 294
    },
    {
      "epoch": 0.0700047460844803,
      "grad_norm": 0.16452622413635254,
      "learning_rate": 4.1e-06,
      "loss": 2.0744,
      "step": 295
    },
    {
      "epoch": 0.0702420503084955,
      "grad_norm": 0.49008700251579285,
      "learning_rate": 4.08e-06,
      "loss": 1.5107,
      "step": 296
    },
    {
      "epoch": 0.07047935453251068,
      "grad_norm": 0.6975173354148865,
      "learning_rate": 4.060000000000001e-06,
      "loss": 1.4174,
      "step": 297
    },
    {
      "epoch": 0.07071665875652587,
      "grad_norm": 0.6213851571083069,
      "learning_rate": 4.04e-06,
      "loss": 1.4038,
      "step": 298
    },
    {
      "epoch": 0.07095396298054106,
      "grad_norm": 0.5320644378662109,
      "learning_rate": 4.0200000000000005e-06,
      "loss": 0.8553,
      "step": 299
    },
    {
      "epoch": 0.07119126720455624,
      "grad_norm": 1.0871286392211914,
      "learning_rate": 4.000000000000001e-06,
      "loss": 2.0419,
      "step": 300
    },
    {
      "epoch": 0.07142857142857142,
      "grad_norm": 0.3801209330558777,
      "learning_rate": 3.980000000000001e-06,
      "loss": 0.5386,
      "step": 301
    },
    {
      "epoch": 0.07166587565258661,
      "grad_norm": 0.39513254165649414,
      "learning_rate": 3.96e-06,
      "loss": 2.0508,
      "step": 302
    },
    {
      "epoch": 0.0719031798766018,
      "grad_norm": 0.45403411984443665,
      "learning_rate": 3.94e-06,
      "loss": 1.3929,
      "step": 303
    },
    {
      "epoch": 0.07214048410061699,
      "grad_norm": 0.9575373530387878,
      "learning_rate": 3.920000000000001e-06,
      "loss": 2.3445,
      "step": 304
    },
    {
      "epoch": 0.07237778832463218,
      "grad_norm": 0.7246173620223999,
      "learning_rate": 3.900000000000001e-06,
      "loss": 1.1485,
      "step": 305
    },
    {
      "epoch": 0.07261509254864737,
      "grad_norm": 0.4268713891506195,
      "learning_rate": 3.88e-06,
      "loss": 1.7111,
      "step": 306
    },
    {
      "epoch": 0.07285239677266256,
      "grad_norm": 0.3135124742984772,
      "learning_rate": 3.86e-06,
      "loss": 1.4731,
      "step": 307
    },
    {
      "epoch": 0.07308970099667775,
      "grad_norm": 0.647866427898407,
      "learning_rate": 3.8400000000000005e-06,
      "loss": 0.9345,
      "step": 308
    },
    {
      "epoch": 0.07332700522069292,
      "grad_norm": 0.6480103135108948,
      "learning_rate": 3.820000000000001e-06,
      "loss": 0.5553,
      "step": 309
    },
    {
      "epoch": 0.07356430944470811,
      "grad_norm": 0.7226047515869141,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 1.1579,
      "step": 310
    },
    {
      "epoch": 0.0738016136687233,
      "grad_norm": 0.6003654599189758,
      "learning_rate": 3.7800000000000002e-06,
      "loss": 1.2483,
      "step": 311
    },
    {
      "epoch": 0.07403891789273849,
      "grad_norm": 0.6066475510597229,
      "learning_rate": 3.7600000000000004e-06,
      "loss": 0.7838,
      "step": 312
    },
    {
      "epoch": 0.07427622211675368,
      "grad_norm": 0.5357272624969482,
      "learning_rate": 3.74e-06,
      "loss": 1.8871,
      "step": 313
    },
    {
      "epoch": 0.07451352634076887,
      "grad_norm": 0.8201131820678711,
      "learning_rate": 3.7200000000000004e-06,
      "loss": 1.6833,
      "step": 314
    },
    {
      "epoch": 0.07475083056478406,
      "grad_norm": 0.6600767970085144,
      "learning_rate": 3.7e-06,
      "loss": 1.5297,
      "step": 315
    },
    {
      "epoch": 0.07498813478879925,
      "grad_norm": 0.6373748779296875,
      "learning_rate": 3.6800000000000003e-06,
      "loss": 1.5093,
      "step": 316
    },
    {
      "epoch": 0.07522543901281442,
      "grad_norm": 0.7496886849403381,
      "learning_rate": 3.66e-06,
      "loss": 2.4157,
      "step": 317
    },
    {
      "epoch": 0.07546274323682961,
      "grad_norm": 0.9333056211471558,
      "learning_rate": 3.6400000000000003e-06,
      "loss": 1.5617,
      "step": 318
    },
    {
      "epoch": 0.0757000474608448,
      "grad_norm": 1.0693997144699097,
      "learning_rate": 3.62e-06,
      "loss": 1.5375,
      "step": 319
    },
    {
      "epoch": 0.07593735168485999,
      "grad_norm": 0.5746883749961853,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 1.4276,
      "step": 320
    },
    {
      "epoch": 0.07617465590887518,
      "grad_norm": 0.9793761968612671,
      "learning_rate": 3.58e-06,
      "loss": 0.9466,
      "step": 321
    },
    {
      "epoch": 0.07641196013289037,
      "grad_norm": 0.6006602048873901,
      "learning_rate": 3.5600000000000002e-06,
      "loss": 1.028,
      "step": 322
    },
    {
      "epoch": 0.07664926435690556,
      "grad_norm": 0.7533923983573914,
      "learning_rate": 3.54e-06,
      "loss": 1.9837,
      "step": 323
    },
    {
      "epoch": 0.07688656858092074,
      "grad_norm": 1.0659205913543701,
      "learning_rate": 3.52e-06,
      "loss": 1.4845,
      "step": 324
    },
    {
      "epoch": 0.07712387280493593,
      "grad_norm": 0.9382888078689575,
      "learning_rate": 3.5e-06,
      "loss": 1.8868,
      "step": 325
    },
    {
      "epoch": 0.07736117702895111,
      "grad_norm": 0.5263766050338745,
      "learning_rate": 3.48e-06,
      "loss": 1.6957,
      "step": 326
    },
    {
      "epoch": 0.0775984812529663,
      "grad_norm": 1.1845793724060059,
      "learning_rate": 3.46e-06,
      "loss": 1.7971,
      "step": 327
    },
    {
      "epoch": 0.07783578547698149,
      "grad_norm": 0.7983663082122803,
      "learning_rate": 3.44e-06,
      "loss": 1.7826,
      "step": 328
    },
    {
      "epoch": 0.07807308970099668,
      "grad_norm": 0.999782145023346,
      "learning_rate": 3.4200000000000007e-06,
      "loss": 1.4238,
      "step": 329
    },
    {
      "epoch": 0.07831039392501186,
      "grad_norm": 0.44168537855148315,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 1.3762,
      "step": 330
    },
    {
      "epoch": 0.07854769814902705,
      "grad_norm": 3.451951026916504,
      "learning_rate": 3.3800000000000007e-06,
      "loss": 1.8961,
      "step": 331
    },
    {
      "epoch": 0.07878500237304224,
      "grad_norm": 1.2203079462051392,
      "learning_rate": 3.3600000000000004e-06,
      "loss": 2.4091,
      "step": 332
    },
    {
      "epoch": 0.07902230659705743,
      "grad_norm": 0.7909596562385559,
      "learning_rate": 3.3400000000000006e-06,
      "loss": 1.288,
      "step": 333
    },
    {
      "epoch": 0.07925961082107262,
      "grad_norm": 1.0289673805236816,
      "learning_rate": 3.3200000000000004e-06,
      "loss": 2.7401,
      "step": 334
    },
    {
      "epoch": 0.0794969150450878,
      "grad_norm": 1.550726056098938,
      "learning_rate": 3.3000000000000006e-06,
      "loss": 2.0937,
      "step": 335
    },
    {
      "epoch": 0.07973421926910298,
      "grad_norm": 0.9550947546958923,
      "learning_rate": 3.2800000000000004e-06,
      "loss": 1.3554,
      "step": 336
    },
    {
      "epoch": 0.07997152349311817,
      "grad_norm": 0.5482783913612366,
      "learning_rate": 3.2600000000000006e-06,
      "loss": 2.0287,
      "step": 337
    },
    {
      "epoch": 0.08020882771713336,
      "grad_norm": 1.071254014968872,
      "learning_rate": 3.2400000000000003e-06,
      "loss": 1.6622,
      "step": 338
    },
    {
      "epoch": 0.08044613194114855,
      "grad_norm": 1.0661407709121704,
      "learning_rate": 3.2200000000000005e-06,
      "loss": 0.9957,
      "step": 339
    },
    {
      "epoch": 0.08068343616516374,
      "grad_norm": 0.91053307056427,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 0.8996,
      "step": 340
    },
    {
      "epoch": 0.08092074038917893,
      "grad_norm": 1.1073331832885742,
      "learning_rate": 3.1800000000000005e-06,
      "loss": 2.591,
      "step": 341
    },
    {
      "epoch": 0.08115804461319412,
      "grad_norm": 1.430469274520874,
      "learning_rate": 3.1600000000000002e-06,
      "loss": 2.6224,
      "step": 342
    },
    {
      "epoch": 0.08139534883720931,
      "grad_norm": 0.8856847882270813,
      "learning_rate": 3.1400000000000004e-06,
      "loss": 1.8773,
      "step": 343
    },
    {
      "epoch": 0.08163265306122448,
      "grad_norm": 0.7149975895881653,
      "learning_rate": 3.12e-06,
      "loss": 1.9744,
      "step": 344
    },
    {
      "epoch": 0.08186995728523967,
      "grad_norm": 1.156784176826477,
      "learning_rate": 3.1000000000000004e-06,
      "loss": 2.718,
      "step": 345
    },
    {
      "epoch": 0.08210726150925486,
      "grad_norm": 1.512473464012146,
      "learning_rate": 3.08e-06,
      "loss": 1.0725,
      "step": 346
    },
    {
      "epoch": 0.08234456573327005,
      "grad_norm": 0.5760719776153564,
      "learning_rate": 3.0600000000000003e-06,
      "loss": 1.3986,
      "step": 347
    },
    {
      "epoch": 0.08258186995728524,
      "grad_norm": 1.1456931829452515,
      "learning_rate": 3.04e-06,
      "loss": 2.6081,
      "step": 348
    },
    {
      "epoch": 0.08281917418130043,
      "grad_norm": 0.6848717927932739,
      "learning_rate": 3.0200000000000003e-06,
      "loss": 2.8127,
      "step": 349
    },
    {
      "epoch": 0.08305647840531562,
      "grad_norm": 1.2799925804138184,
      "learning_rate": 3e-06,
      "loss": 1.1195,
      "step": 350
    },
    {
      "epoch": 0.0832937826293308,
      "grad_norm": 1.1718430519104004,
      "learning_rate": 2.9800000000000003e-06,
      "loss": 1.6587,
      "step": 351
    },
    {
      "epoch": 0.083531086853346,
      "grad_norm": 0.5741757750511169,
      "learning_rate": 2.96e-06,
      "loss": 1.6265,
      "step": 352
    },
    {
      "epoch": 0.08376839107736117,
      "grad_norm": 0.8194566965103149,
      "learning_rate": 2.9400000000000002e-06,
      "loss": 1.2456,
      "step": 353
    },
    {
      "epoch": 0.08400569530137636,
      "grad_norm": 0.49410197138786316,
      "learning_rate": 2.92e-06,
      "loss": 1.5949,
      "step": 354
    },
    {
      "epoch": 0.08424299952539155,
      "grad_norm": 0.9407163858413696,
      "learning_rate": 2.9e-06,
      "loss": 1.1365,
      "step": 355
    },
    {
      "epoch": 0.08448030374940674,
      "grad_norm": 0.764671266078949,
      "learning_rate": 2.88e-06,
      "loss": 0.9231,
      "step": 356
    },
    {
      "epoch": 0.08471760797342193,
      "grad_norm": 0.6322979927062988,
      "learning_rate": 2.86e-06,
      "loss": 0.477,
      "step": 357
    },
    {
      "epoch": 0.08495491219743712,
      "grad_norm": 0.7397903800010681,
      "learning_rate": 2.84e-06,
      "loss": 1.2955,
      "step": 358
    },
    {
      "epoch": 0.0851922164214523,
      "grad_norm": 1.3564809560775757,
      "learning_rate": 2.82e-06,
      "loss": 1.0156,
      "step": 359
    },
    {
      "epoch": 0.0854295206454675,
      "grad_norm": 0.9099704027175903,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 2.5199,
      "step": 360
    },
    {
      "epoch": 0.08566682486948268,
      "grad_norm": 0.596339225769043,
      "learning_rate": 2.7800000000000005e-06,
      "loss": 1.9148,
      "step": 361
    },
    {
      "epoch": 0.08590412909349786,
      "grad_norm": 0.8687242269515991,
      "learning_rate": 2.7600000000000003e-06,
      "loss": 1.6878,
      "step": 362
    },
    {
      "epoch": 0.08614143331751305,
      "grad_norm": 1.1088467836380005,
      "learning_rate": 2.7400000000000004e-06,
      "loss": 1.3883,
      "step": 363
    },
    {
      "epoch": 0.08637873754152824,
      "grad_norm": 0.26222410798072815,
      "learning_rate": 2.7200000000000002e-06,
      "loss": 1.6821,
      "step": 364
    },
    {
      "epoch": 0.08661604176554343,
      "grad_norm": 0.9348676800727844,
      "learning_rate": 2.7000000000000004e-06,
      "loss": 1.3761,
      "step": 365
    },
    {
      "epoch": 0.08685334598955861,
      "grad_norm": 0.6078274250030518,
      "learning_rate": 2.68e-06,
      "loss": 0.8237,
      "step": 366
    },
    {
      "epoch": 0.0870906502135738,
      "grad_norm": 2.2705135345458984,
      "learning_rate": 2.6600000000000004e-06,
      "loss": 2.1154,
      "step": 367
    },
    {
      "epoch": 0.08732795443758899,
      "grad_norm": 0.5769693851470947,
      "learning_rate": 2.64e-06,
      "loss": 0.7956,
      "step": 368
    },
    {
      "epoch": 0.08756525866160418,
      "grad_norm": 0.9362378120422363,
      "learning_rate": 2.6200000000000003e-06,
      "loss": 0.8264,
      "step": 369
    },
    {
      "epoch": 0.08780256288561937,
      "grad_norm": 1.3028643131256104,
      "learning_rate": 2.6e-06,
      "loss": 2.0418,
      "step": 370
    },
    {
      "epoch": 0.08803986710963455,
      "grad_norm": 1.020676612854004,
      "learning_rate": 2.5800000000000003e-06,
      "loss": 1.6203,
      "step": 371
    },
    {
      "epoch": 0.08827717133364973,
      "grad_norm": 0.5925426483154297,
      "learning_rate": 2.56e-06,
      "loss": 2.0088,
      "step": 372
    },
    {
      "epoch": 0.08851447555766492,
      "grad_norm": 0.9247467517852783,
      "learning_rate": 2.5400000000000002e-06,
      "loss": 1.4702,
      "step": 373
    },
    {
      "epoch": 0.08875177978168011,
      "grad_norm": 0.8355708718299866,
      "learning_rate": 2.52e-06,
      "loss": 1.511,
      "step": 374
    },
    {
      "epoch": 0.0889890840056953,
      "grad_norm": 0.8599538207054138,
      "learning_rate": 2.5e-06,
      "loss": 1.1829,
      "step": 375
    },
    {
      "epoch": 0.08922638822971049,
      "grad_norm": 0.7480601668357849,
      "learning_rate": 2.4800000000000004e-06,
      "loss": 0.5197,
      "step": 376
    },
    {
      "epoch": 0.08946369245372568,
      "grad_norm": 0.6589898467063904,
      "learning_rate": 2.46e-06,
      "loss": 1.8403,
      "step": 377
    },
    {
      "epoch": 0.08970099667774087,
      "grad_norm": 1.1234686374664307,
      "learning_rate": 2.4400000000000004e-06,
      "loss": 1.1402,
      "step": 378
    },
    {
      "epoch": 0.08993830090175606,
      "grad_norm": 0.4725819528102875,
      "learning_rate": 2.42e-06,
      "loss": 1.3948,
      "step": 379
    },
    {
      "epoch": 0.09017560512577123,
      "grad_norm": 0.579430878162384,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 1.2087,
      "step": 380
    },
    {
      "epoch": 0.09041290934978642,
      "grad_norm": 0.9052660465240479,
      "learning_rate": 2.38e-06,
      "loss": 0.9077,
      "step": 381
    },
    {
      "epoch": 0.09065021357380161,
      "grad_norm": 0.5743672847747803,
      "learning_rate": 2.3600000000000003e-06,
      "loss": 2.4246,
      "step": 382
    },
    {
      "epoch": 0.0908875177978168,
      "grad_norm": 0.5894416570663452,
      "learning_rate": 2.3400000000000005e-06,
      "loss": 0.9541,
      "step": 383
    },
    {
      "epoch": 0.09112482202183199,
      "grad_norm": 0.5887079238891602,
      "learning_rate": 2.3200000000000002e-06,
      "loss": 1.5845,
      "step": 384
    },
    {
      "epoch": 0.09136212624584718,
      "grad_norm": 0.6027985215187073,
      "learning_rate": 2.3000000000000004e-06,
      "loss": 1.8314,
      "step": 385
    },
    {
      "epoch": 0.09159943046986237,
      "grad_norm": 1.0281093120574951,
      "learning_rate": 2.28e-06,
      "loss": 1.0648,
      "step": 386
    },
    {
      "epoch": 0.09183673469387756,
      "grad_norm": 1.0283626317977905,
      "learning_rate": 2.2600000000000004e-06,
      "loss": 2.3067,
      "step": 387
    },
    {
      "epoch": 0.09207403891789274,
      "grad_norm": 1.1482547521591187,
      "learning_rate": 2.24e-06,
      "loss": 1.8681,
      "step": 388
    },
    {
      "epoch": 0.09231134314190792,
      "grad_norm": 0.8530061841011047,
      "learning_rate": 2.2200000000000003e-06,
      "loss": 0.8857,
      "step": 389
    },
    {
      "epoch": 0.09254864736592311,
      "grad_norm": 0.836930513381958,
      "learning_rate": 2.2e-06,
      "loss": 1.8586,
      "step": 390
    },
    {
      "epoch": 0.0927859515899383,
      "grad_norm": 0.8930790424346924,
      "learning_rate": 2.1800000000000003e-06,
      "loss": 1.6977,
      "step": 391
    },
    {
      "epoch": 0.09302325581395349,
      "grad_norm": 0.4565262496471405,
      "learning_rate": 2.16e-06,
      "loss": 2.1539,
      "step": 392
    },
    {
      "epoch": 0.09326056003796868,
      "grad_norm": 1.635286569595337,
      "learning_rate": 2.1400000000000003e-06,
      "loss": 2.4099,
      "step": 393
    },
    {
      "epoch": 0.09349786426198387,
      "grad_norm": 1.1868668794631958,
      "learning_rate": 2.12e-06,
      "loss": 1.6283,
      "step": 394
    },
    {
      "epoch": 0.09373516848599905,
      "grad_norm": 1.4009878635406494,
      "learning_rate": 2.1000000000000002e-06,
      "loss": 1.4061,
      "step": 395
    },
    {
      "epoch": 0.09397247271001424,
      "grad_norm": 0.46099644899368286,
      "learning_rate": 2.08e-06,
      "loss": 0.4871,
      "step": 396
    },
    {
      "epoch": 0.09420977693402943,
      "grad_norm": 0.7012650370597839,
      "learning_rate": 2.06e-06,
      "loss": 1.5595,
      "step": 397
    },
    {
      "epoch": 0.09444708115804461,
      "grad_norm": 0.7766276001930237,
      "learning_rate": 2.04e-06,
      "loss": 1.0104,
      "step": 398
    },
    {
      "epoch": 0.0946843853820598,
      "grad_norm": 1.029155969619751,
      "learning_rate": 2.02e-06,
      "loss": 2.6892,
      "step": 399
    },
    {
      "epoch": 0.09492168960607499,
      "grad_norm": 1.6015249490737915,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.7859,
      "step": 400
    },
    {
      "epoch": 0.09515899383009017,
      "grad_norm": 0.3838267922401428,
      "learning_rate": 1.98e-06,
      "loss": 1.5704,
      "step": 401
    },
    {
      "epoch": 0.09539629805410536,
      "grad_norm": 0.6478832364082336,
      "learning_rate": 1.9600000000000003e-06,
      "loss": 1.2718,
      "step": 402
    },
    {
      "epoch": 0.09563360227812055,
      "grad_norm": 0.9483569860458374,
      "learning_rate": 1.94e-06,
      "loss": 1.9627,
      "step": 403
    },
    {
      "epoch": 0.09587090650213574,
      "grad_norm": 0.5800157785415649,
      "learning_rate": 1.9200000000000003e-06,
      "loss": 0.9114,
      "step": 404
    },
    {
      "epoch": 0.09610821072615093,
      "grad_norm": 0.5951704978942871,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 1.2684,
      "step": 405
    },
    {
      "epoch": 0.09634551495016612,
      "grad_norm": 0.7555820345878601,
      "learning_rate": 1.8800000000000002e-06,
      "loss": 1.7506,
      "step": 406
    },
    {
      "epoch": 0.0965828191741813,
      "grad_norm": 1.0840675830841064,
      "learning_rate": 1.8600000000000002e-06,
      "loss": 2.3729,
      "step": 407
    },
    {
      "epoch": 0.09682012339819648,
      "grad_norm": 1.0009734630584717,
      "learning_rate": 1.8400000000000002e-06,
      "loss": 1.0095,
      "step": 408
    },
    {
      "epoch": 0.09705742762221167,
      "grad_norm": 0.8436226844787598,
      "learning_rate": 1.8200000000000002e-06,
      "loss": 1.6425,
      "step": 409
    },
    {
      "epoch": 0.09729473184622686,
      "grad_norm": 0.6967753767967224,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 2.2186,
      "step": 410
    },
    {
      "epoch": 0.09753203607024205,
      "grad_norm": 0.9439252614974976,
      "learning_rate": 1.7800000000000001e-06,
      "loss": 1.0762,
      "step": 411
    },
    {
      "epoch": 0.09776934029425724,
      "grad_norm": 1.6090588569641113,
      "learning_rate": 1.76e-06,
      "loss": 1.6685,
      "step": 412
    },
    {
      "epoch": 0.09800664451827243,
      "grad_norm": 0.6204804182052612,
      "learning_rate": 1.74e-06,
      "loss": 0.7148,
      "step": 413
    },
    {
      "epoch": 0.09824394874228762,
      "grad_norm": 0.9542770385742188,
      "learning_rate": 1.72e-06,
      "loss": 0.7676,
      "step": 414
    },
    {
      "epoch": 0.0984812529663028,
      "grad_norm": 1.0385842323303223,
      "learning_rate": 1.7000000000000002e-06,
      "loss": 1.6284,
      "step": 415
    },
    {
      "epoch": 0.09871855719031798,
      "grad_norm": 0.643661379814148,
      "learning_rate": 1.6800000000000002e-06,
      "loss": 0.9284,
      "step": 416
    },
    {
      "epoch": 0.09895586141433317,
      "grad_norm": 0.7566413283348083,
      "learning_rate": 1.6600000000000002e-06,
      "loss": 1.8893,
      "step": 417
    },
    {
      "epoch": 0.09919316563834836,
      "grad_norm": 0.805566132068634,
      "learning_rate": 1.6400000000000002e-06,
      "loss": 1.8842,
      "step": 418
    },
    {
      "epoch": 0.09943046986236355,
      "grad_norm": 0.503933310508728,
      "learning_rate": 1.6200000000000002e-06,
      "loss": 1.4513,
      "step": 419
    },
    {
      "epoch": 0.09966777408637874,
      "grad_norm": 2.3548262119293213,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 1.381,
      "step": 420
    },
    {
      "epoch": 0.09990507831039393,
      "grad_norm": 1.1577256917953491,
      "learning_rate": 1.5800000000000001e-06,
      "loss": 2.0068,
      "step": 421
    },
    {
      "epoch": 0.10014238253440912,
      "grad_norm": 0.8693385124206543,
      "learning_rate": 1.56e-06,
      "loss": 1.38,
      "step": 422
    },
    {
      "epoch": 0.1003796867584243,
      "grad_norm": 0.27834704518318176,
      "learning_rate": 1.54e-06,
      "loss": 0.3649,
      "step": 423
    },
    {
      "epoch": 0.1006169909824395,
      "grad_norm": 0.6906237006187439,
      "learning_rate": 1.52e-06,
      "loss": 2.2498,
      "step": 424
    },
    {
      "epoch": 0.10085429520645467,
      "grad_norm": 1.5801548957824707,
      "learning_rate": 1.5e-06,
      "loss": 1.6734,
      "step": 425
    },
    {
      "epoch": 0.10109159943046986,
      "grad_norm": 0.6525102853775024,
      "learning_rate": 1.48e-06,
      "loss": 1.7765,
      "step": 426
    },
    {
      "epoch": 0.10132890365448505,
      "grad_norm": 0.6370388865470886,
      "learning_rate": 1.46e-06,
      "loss": 1.497,
      "step": 427
    },
    {
      "epoch": 0.10156620787850024,
      "grad_norm": 0.9169662594795227,
      "learning_rate": 1.44e-06,
      "loss": 1.7245,
      "step": 428
    },
    {
      "epoch": 0.10180351210251543,
      "grad_norm": 0.8349008560180664,
      "learning_rate": 1.42e-06,
      "loss": 1.2525,
      "step": 429
    },
    {
      "epoch": 0.10204081632653061,
      "grad_norm": 0.5627273917198181,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 1.5604,
      "step": 430
    },
    {
      "epoch": 0.1022781205505458,
      "grad_norm": 0.6167902946472168,
      "learning_rate": 1.3800000000000001e-06,
      "loss": 0.4832,
      "step": 431
    },
    {
      "epoch": 0.10251542477456099,
      "grad_norm": 0.6913139224052429,
      "learning_rate": 1.3600000000000001e-06,
      "loss": 0.4277,
      "step": 432
    },
    {
      "epoch": 0.10275272899857618,
      "grad_norm": 0.9053479433059692,
      "learning_rate": 1.34e-06,
      "loss": 1.1996,
      "step": 433
    },
    {
      "epoch": 0.10299003322259136,
      "grad_norm": 0.5853822827339172,
      "learning_rate": 1.32e-06,
      "loss": 1.5833,
      "step": 434
    },
    {
      "epoch": 0.10322733744660655,
      "grad_norm": 0.6833449602127075,
      "learning_rate": 1.3e-06,
      "loss": 1.5597,
      "step": 435
    },
    {
      "epoch": 0.10346464167062173,
      "grad_norm": 0.48403409123420715,
      "learning_rate": 1.28e-06,
      "loss": 1.7934,
      "step": 436
    },
    {
      "epoch": 0.10370194589463692,
      "grad_norm": 0.8773030638694763,
      "learning_rate": 1.26e-06,
      "loss": 0.5695,
      "step": 437
    },
    {
      "epoch": 0.10393925011865211,
      "grad_norm": 0.6054906249046326,
      "learning_rate": 1.2400000000000002e-06,
      "loss": 2.3307,
      "step": 438
    },
    {
      "epoch": 0.1041765543426673,
      "grad_norm": 0.6956624388694763,
      "learning_rate": 1.2200000000000002e-06,
      "loss": 1.0714,
      "step": 439
    },
    {
      "epoch": 0.10441385856668249,
      "grad_norm": 1.519985556602478,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 1.695,
      "step": 440
    },
    {
      "epoch": 0.10465116279069768,
      "grad_norm": 1.0551714897155762,
      "learning_rate": 1.1800000000000001e-06,
      "loss": 2.457,
      "step": 441
    },
    {
      "epoch": 0.10488846701471286,
      "grad_norm": 0.7493646740913391,
      "learning_rate": 1.1600000000000001e-06,
      "loss": 1.965,
      "step": 442
    },
    {
      "epoch": 0.10512577123872804,
      "grad_norm": 0.7913329601287842,
      "learning_rate": 1.14e-06,
      "loss": 1.5939,
      "step": 443
    },
    {
      "epoch": 0.10536307546274323,
      "grad_norm": 1.10833740234375,
      "learning_rate": 1.12e-06,
      "loss": 2.1043,
      "step": 444
    },
    {
      "epoch": 0.10560037968675842,
      "grad_norm": 0.8675681948661804,
      "learning_rate": 1.1e-06,
      "loss": 1.6333,
      "step": 445
    },
    {
      "epoch": 0.10583768391077361,
      "grad_norm": 0.8735470771789551,
      "learning_rate": 1.08e-06,
      "loss": 2.1604,
      "step": 446
    },
    {
      "epoch": 0.1060749881347888,
      "grad_norm": 0.9015608429908752,
      "learning_rate": 1.06e-06,
      "loss": 0.9548,
      "step": 447
    },
    {
      "epoch": 0.10631229235880399,
      "grad_norm": 0.7339662313461304,
      "learning_rate": 1.04e-06,
      "loss": 1.3065,
      "step": 448
    },
    {
      "epoch": 0.10654959658281918,
      "grad_norm": 0.5532211661338806,
      "learning_rate": 1.02e-06,
      "loss": 1.8098,
      "step": 449
    },
    {
      "epoch": 0.10678690080683437,
      "grad_norm": 0.8225467801094055,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 2.2966,
      "step": 450
    },
    {
      "epoch": 0.10702420503084954,
      "grad_norm": 0.5000866651535034,
      "learning_rate": 9.800000000000001e-07,
      "loss": 0.2921,
      "step": 451
    },
    {
      "epoch": 0.10726150925486473,
      "grad_norm": 1.0391067266464233,
      "learning_rate": 9.600000000000001e-07,
      "loss": 2.2974,
      "step": 452
    },
    {
      "epoch": 0.10749881347887992,
      "grad_norm": 0.685451865196228,
      "learning_rate": 9.400000000000001e-07,
      "loss": 2.0784,
      "step": 453
    },
    {
      "epoch": 0.10773611770289511,
      "grad_norm": 0.5864785313606262,
      "learning_rate": 9.200000000000001e-07,
      "loss": 2.2062,
      "step": 454
    },
    {
      "epoch": 0.1079734219269103,
      "grad_norm": 0.6014403104782104,
      "learning_rate": 9.000000000000001e-07,
      "loss": 0.8348,
      "step": 455
    },
    {
      "epoch": 0.10821072615092549,
      "grad_norm": 1.6633024215698242,
      "learning_rate": 8.8e-07,
      "loss": 1.2606,
      "step": 456
    },
    {
      "epoch": 0.10844803037494068,
      "grad_norm": 0.7936999797821045,
      "learning_rate": 8.6e-07,
      "loss": 2.0804,
      "step": 457
    },
    {
      "epoch": 0.10868533459895587,
      "grad_norm": 0.22339628636837006,
      "learning_rate": 8.400000000000001e-07,
      "loss": 2.1541,
      "step": 458
    },
    {
      "epoch": 0.10892263882297105,
      "grad_norm": 0.6188535690307617,
      "learning_rate": 8.200000000000001e-07,
      "loss": 1.4218,
      "step": 459
    },
    {
      "epoch": 0.10915994304698623,
      "grad_norm": 0.8845232129096985,
      "learning_rate": 8.000000000000001e-07,
      "loss": 1.4453,
      "step": 460
    },
    {
      "epoch": 0.10939724727100142,
      "grad_norm": 0.5522229671478271,
      "learning_rate": 7.8e-07,
      "loss": 1.4562,
      "step": 461
    },
    {
      "epoch": 0.10963455149501661,
      "grad_norm": 0.49053800106048584,
      "learning_rate": 7.6e-07,
      "loss": 0.6361,
      "step": 462
    },
    {
      "epoch": 0.1098718557190318,
      "grad_norm": 0.5572338104248047,
      "learning_rate": 7.4e-07,
      "loss": 0.8394,
      "step": 463
    },
    {
      "epoch": 0.11010915994304699,
      "grad_norm": 0.9283513426780701,
      "learning_rate": 7.2e-07,
      "loss": 1.6316,
      "step": 464
    },
    {
      "epoch": 0.11034646416706217,
      "grad_norm": 0.8812064528465271,
      "learning_rate": 7.000000000000001e-07,
      "loss": 1.2302,
      "step": 465
    },
    {
      "epoch": 0.11058376839107736,
      "grad_norm": 0.7392125129699707,
      "learning_rate": 6.800000000000001e-07,
      "loss": 0.8159,
      "step": 466
    },
    {
      "epoch": 0.11082107261509255,
      "grad_norm": 0.7616608738899231,
      "learning_rate": 6.6e-07,
      "loss": 1.0404,
      "step": 467
    },
    {
      "epoch": 0.11105837683910774,
      "grad_norm": 0.7175336480140686,
      "learning_rate": 6.4e-07,
      "loss": 1.7509,
      "step": 468
    },
    {
      "epoch": 0.11129568106312292,
      "grad_norm": 0.7180752754211426,
      "learning_rate": 6.200000000000001e-07,
      "loss": 0.9795,
      "step": 469
    },
    {
      "epoch": 0.1115329852871381,
      "grad_norm": 0.875347912311554,
      "learning_rate": 6.000000000000001e-07,
      "loss": 1.8271,
      "step": 470
    },
    {
      "epoch": 0.1117702895111533,
      "grad_norm": 0.6006546020507812,
      "learning_rate": 5.800000000000001e-07,
      "loss": 2.0545,
      "step": 471
    },
    {
      "epoch": 0.11200759373516848,
      "grad_norm": 1.1124011278152466,
      "learning_rate": 5.6e-07,
      "loss": 2.2172,
      "step": 472
    },
    {
      "epoch": 0.11224489795918367,
      "grad_norm": 1.5857324600219727,
      "learning_rate": 5.4e-07,
      "loss": 1.2116,
      "step": 473
    },
    {
      "epoch": 0.11248220218319886,
      "grad_norm": 0.6902075409889221,
      "learning_rate": 5.2e-07,
      "loss": 2.0822,
      "step": 474
    },
    {
      "epoch": 0.11271950640721405,
      "grad_norm": 0.9990330934524536,
      "learning_rate": 5.000000000000001e-07,
      "loss": 1.9775,
      "step": 475
    },
    {
      "epoch": 0.11295681063122924,
      "grad_norm": 1.281016230583191,
      "learning_rate": 4.800000000000001e-07,
      "loss": 1.9021,
      "step": 476
    },
    {
      "epoch": 0.11319411485524443,
      "grad_norm": 0.3223126232624054,
      "learning_rate": 4.6000000000000004e-07,
      "loss": 1.8383,
      "step": 477
    },
    {
      "epoch": 0.1134314190792596,
      "grad_norm": 1.1316232681274414,
      "learning_rate": 4.4e-07,
      "loss": 1.6243,
      "step": 478
    },
    {
      "epoch": 0.1136687233032748,
      "grad_norm": 0.6887989640235901,
      "learning_rate": 4.2000000000000006e-07,
      "loss": 1.5909,
      "step": 479
    },
    {
      "epoch": 0.11390602752728998,
      "grad_norm": 0.8150919675827026,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 2.1949,
      "step": 480
    },
    {
      "epoch": 0.11414333175130517,
      "grad_norm": 0.6823549866676331,
      "learning_rate": 3.8e-07,
      "loss": 2.095,
      "step": 481
    },
    {
      "epoch": 0.11438063597532036,
      "grad_norm": 1.052901268005371,
      "learning_rate": 3.6e-07,
      "loss": 1.7599,
      "step": 482
    },
    {
      "epoch": 0.11461794019933555,
      "grad_norm": 1.048052430152893,
      "learning_rate": 3.4000000000000003e-07,
      "loss": 2.1143,
      "step": 483
    },
    {
      "epoch": 0.11485524442335074,
      "grad_norm": 1.2748647928237915,
      "learning_rate": 3.2e-07,
      "loss": 1.8183,
      "step": 484
    },
    {
      "epoch": 0.11509254864736593,
      "grad_norm": 1.2471035718917847,
      "learning_rate": 3.0000000000000004e-07,
      "loss": 1.8442,
      "step": 485
    },
    {
      "epoch": 0.11532985287138112,
      "grad_norm": 0.46195486187934875,
      "learning_rate": 2.8e-07,
      "loss": 1.1617,
      "step": 486
    },
    {
      "epoch": 0.11556715709539629,
      "grad_norm": 0.6743305325508118,
      "learning_rate": 2.6e-07,
      "loss": 1.4748,
      "step": 487
    },
    {
      "epoch": 0.11580446131941148,
      "grad_norm": 1.0564024448394775,
      "learning_rate": 2.4000000000000003e-07,
      "loss": 1.5775,
      "step": 488
    },
    {
      "epoch": 0.11604176554342667,
      "grad_norm": 0.6965152025222778,
      "learning_rate": 2.2e-07,
      "loss": 2.5251,
      "step": 489
    },
    {
      "epoch": 0.11627906976744186,
      "grad_norm": 0.8700504899024963,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 1.6123,
      "step": 490
    },
    {
      "epoch": 0.11651637399145705,
      "grad_norm": 0.7157378196716309,
      "learning_rate": 1.8e-07,
      "loss": 1.7864,
      "step": 491
    },
    {
      "epoch": 0.11675367821547224,
      "grad_norm": 0.9464967250823975,
      "learning_rate": 1.6e-07,
      "loss": 2.0064,
      "step": 492
    },
    {
      "epoch": 0.11699098243948743,
      "grad_norm": 0.734511137008667,
      "learning_rate": 1.4e-07,
      "loss": 0.8449,
      "step": 493
    },
    {
      "epoch": 0.11722828666350261,
      "grad_norm": 1.0827577114105225,
      "learning_rate": 1.2000000000000002e-07,
      "loss": 1.8062,
      "step": 494
    },
    {
      "epoch": 0.1174655908875178,
      "grad_norm": 1.1060395240783691,
      "learning_rate": 1.0000000000000001e-07,
      "loss": 1.9935,
      "step": 495
    },
    {
      "epoch": 0.11770289511153298,
      "grad_norm": 0.9821236729621887,
      "learning_rate": 8e-08,
      "loss": 1.1501,
      "step": 496
    },
    {
      "epoch": 0.11794019933554817,
      "grad_norm": 0.46705755591392517,
      "learning_rate": 6.000000000000001e-08,
      "loss": 2.2727,
      "step": 497
    },
    {
      "epoch": 0.11817750355956336,
      "grad_norm": 0.7528263926506042,
      "learning_rate": 4e-08,
      "loss": 2.2196,
      "step": 498
    },
    {
      "epoch": 0.11841480778357855,
      "grad_norm": 1.029765009880066,
      "learning_rate": 2e-08,
      "loss": 1.3983,
      "step": 499
    },
    {
      "epoch": 0.11865211200759374,
      "grad_norm": 0.9231687188148499,
      "learning_rate": 9.000000000000001e-11,
      "loss": 0.7083,
      "step": 500
    },
    {
      "epoch": 0.11865211200759374,
      "step": 500,
      "total_flos": 8.201567207424e+16,
      "train_loss": 1.6423830435276032,
      "train_runtime": 704.5977,
      "train_samples_per_second": 1.419,
      "train_steps_per_second": 0.71
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.201567207424e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}