{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.794960303762513,
  "eval_steps": 500,
  "global_step": 5200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00034518467380048324,
      "grad_norm": 25.833335876464844,
      "learning_rate": 0.0,
      "loss": 2.2926,
      "step": 1
    },
    {
      "epoch": 0.0006903693476009665,
      "grad_norm": 23.58083724975586,
      "learning_rate": 2e-05,
      "loss": 2.1943,
      "step": 2
    },
    {
      "epoch": 0.0010355540214014498,
      "grad_norm": 24.2187442779541,
      "learning_rate": 2e-05,
      "loss": 2.3772,
      "step": 3
    },
    {
      "epoch": 0.001380738695201933,
      "grad_norm": 14.579557418823242,
      "learning_rate": 2e-05,
      "loss": 2.0945,
      "step": 4
    },
    {
      "epoch": 0.0017259233690024164,
      "grad_norm": 15.069305419921875,
      "learning_rate": 2e-05,
      "loss": 2.1537,
      "step": 5
    },
    {
      "epoch": 0.0020711080428028996,
      "grad_norm": 14.385339736938477,
      "learning_rate": 2e-05,
      "loss": 2.1585,
      "step": 6
    },
    {
      "epoch": 0.002416292716603383,
      "grad_norm": 9.95476245880127,
      "learning_rate": 2e-05,
      "loss": 1.8333,
      "step": 7
    },
    {
      "epoch": 0.002761477390403866,
      "grad_norm": 9.15005111694336,
      "learning_rate": 2e-05,
      "loss": 1.937,
      "step": 8
    },
    {
      "epoch": 0.0031066620642043494,
      "grad_norm": 7.361661911010742,
      "learning_rate": 2e-05,
      "loss": 1.9484,
      "step": 9
    },
    {
      "epoch": 0.0034518467380048328,
      "grad_norm": 5.931179046630859,
      "learning_rate": 2e-05,
      "loss": 1.7668,
      "step": 10
    },
    {
      "epoch": 0.0037970314118053157,
      "grad_norm": 8.192151069641113,
      "learning_rate": 2e-05,
      "loss": 1.8234,
      "step": 11
    },
    {
      "epoch": 0.004142216085605799,
      "grad_norm": 6.827078342437744,
      "learning_rate": 2e-05,
      "loss": 1.9133,
      "step": 12
    },
    {
      "epoch": 0.0044874007594062825,
      "grad_norm": 7.808759689331055,
      "learning_rate": 2e-05,
      "loss": 1.8314,
      "step": 13
    },
    {
      "epoch": 0.004832585433206766,
      "grad_norm": 7.531504154205322,
      "learning_rate": 2e-05,
      "loss": 1.7961,
      "step": 14
    },
    {
      "epoch": 0.0051777701070072485,
      "grad_norm": 6.617609977722168,
      "learning_rate": 2e-05,
      "loss": 1.7624,
      "step": 15
    },
    {
      "epoch": 0.005522954780807732,
      "grad_norm": 4.966954708099365,
      "learning_rate": 2e-05,
      "loss": 1.7034,
      "step": 16
    },
    {
      "epoch": 0.005868139454608215,
      "grad_norm": 5.566157817840576,
      "learning_rate": 2e-05,
      "loss": 1.7722,
      "step": 17
    },
    {
      "epoch": 0.006213324128408699,
      "grad_norm": 4.915079593658447,
      "learning_rate": 2e-05,
      "loss": 1.6602,
      "step": 18
    },
    {
      "epoch": 0.006558508802209182,
      "grad_norm": 4.77263069152832,
      "learning_rate": 2e-05,
      "loss": 1.6854,
      "step": 19
    },
    {
      "epoch": 0.0069036934760096655,
      "grad_norm": 4.299682140350342,
      "learning_rate": 2e-05,
      "loss": 1.6217,
      "step": 20
    },
    {
      "epoch": 0.007248878149810148,
      "grad_norm": 4.1203694343566895,
      "learning_rate": 2e-05,
      "loss": 1.6546,
      "step": 21
    },
    {
      "epoch": 0.0075940628236106315,
      "grad_norm": 4.058311939239502,
      "learning_rate": 2e-05,
      "loss": 1.6795,
      "step": 22
    },
    {
      "epoch": 0.007939247497411116,
      "grad_norm": 3.668001651763916,
      "learning_rate": 2e-05,
      "loss": 1.7228,
      "step": 23
    },
    {
      "epoch": 0.008284432171211598,
      "grad_norm": 3.397109270095825,
      "learning_rate": 2e-05,
      "loss": 1.555,
      "step": 24
    },
    {
      "epoch": 0.00862961684501208,
      "grad_norm": 4.351656436920166,
      "learning_rate": 2e-05,
      "loss": 1.6977,
      "step": 25
    },
    {
      "epoch": 0.008974801518812565,
      "grad_norm": 3.7789554595947266,
      "learning_rate": 2e-05,
      "loss": 1.6534,
      "step": 26
    },
    {
      "epoch": 0.009319986192613048,
      "grad_norm": 3.4693193435668945,
      "learning_rate": 2e-05,
      "loss": 1.6248,
      "step": 27
    },
    {
      "epoch": 0.009665170866413532,
      "grad_norm": 2.6027116775512695,
      "learning_rate": 2e-05,
      "loss": 1.4901,
      "step": 28
    },
    {
      "epoch": 0.010010355540214014,
      "grad_norm": 2.6816513538360596,
      "learning_rate": 2e-05,
      "loss": 1.4964,
      "step": 29
    },
    {
      "epoch": 0.010355540214014497,
      "grad_norm": 5.244405746459961,
      "learning_rate": 2e-05,
      "loss": 1.5238,
      "step": 30
    },
    {
      "epoch": 0.010700724887814981,
      "grad_norm": 4.071628570556641,
      "learning_rate": 2e-05,
      "loss": 1.5401,
      "step": 31
    },
    {
      "epoch": 0.011045909561615464,
      "grad_norm": 3.897395372390747,
      "learning_rate": 2e-05,
      "loss": 1.4759,
      "step": 32
    },
    {
      "epoch": 0.011391094235415948,
      "grad_norm": 2.9609882831573486,
      "learning_rate": 2e-05,
      "loss": 1.4919,
      "step": 33
    },
    {
      "epoch": 0.01173627890921643,
      "grad_norm": 3.1106183528900146,
      "learning_rate": 2e-05,
      "loss": 1.5436,
      "step": 34
    },
    {
      "epoch": 0.012081463583016915,
      "grad_norm": 3.7441351413726807,
      "learning_rate": 2e-05,
      "loss": 1.5496,
      "step": 35
    },
    {
      "epoch": 0.012426648256817397,
      "grad_norm": 3.6406350135803223,
      "learning_rate": 2e-05,
      "loss": 1.4531,
      "step": 36
    },
    {
      "epoch": 0.01277183293061788,
      "grad_norm": 2.915447950363159,
      "learning_rate": 2e-05,
      "loss": 1.48,
      "step": 37
    },
    {
      "epoch": 0.013117017604418364,
      "grad_norm": 2.8513331413269043,
      "learning_rate": 2e-05,
      "loss": 1.5192,
      "step": 38
    },
    {
      "epoch": 0.013462202278218847,
      "grad_norm": 3.2347466945648193,
      "learning_rate": 2e-05,
      "loss": 1.5727,
      "step": 39
    },
    {
      "epoch": 0.013807386952019331,
      "grad_norm": 2.82135272026062,
      "learning_rate": 2e-05,
      "loss": 1.5098,
      "step": 40
    },
    {
      "epoch": 0.014152571625819814,
      "grad_norm": 2.694873809814453,
      "learning_rate": 2e-05,
      "loss": 1.4223,
      "step": 41
    },
    {
      "epoch": 0.014497756299620296,
      "grad_norm": 2.7129478454589844,
      "learning_rate": 2e-05,
      "loss": 1.4062,
      "step": 42
    },
    {
      "epoch": 0.01484294097342078,
      "grad_norm": 2.6555328369140625,
      "learning_rate": 2e-05,
      "loss": 1.4993,
      "step": 43
    },
    {
      "epoch": 0.015188125647221263,
      "grad_norm": 2.3439159393310547,
      "learning_rate": 2e-05,
      "loss": 1.4281,
      "step": 44
    },
    {
      "epoch": 0.015533310321021747,
      "grad_norm": 2.40368914604187,
      "learning_rate": 2e-05,
      "loss": 1.4261,
      "step": 45
    },
    {
      "epoch": 0.01587849499482223,
      "grad_norm": 2.3288614749908447,
      "learning_rate": 2e-05,
      "loss": 1.3958,
      "step": 46
    },
    {
      "epoch": 0.016223679668622714,
      "grad_norm": 2.474519968032837,
      "learning_rate": 2e-05,
      "loss": 1.4246,
      "step": 47
    },
    {
      "epoch": 0.016568864342423197,
      "grad_norm": 2.680997371673584,
      "learning_rate": 2e-05,
      "loss": 1.4318,
      "step": 48
    },
    {
      "epoch": 0.01691404901622368,
      "grad_norm": 2.6899235248565674,
      "learning_rate": 2e-05,
      "loss": 1.3581,
      "step": 49
    },
    {
      "epoch": 0.01725923369002416,
      "grad_norm": 2.5045225620269775,
      "learning_rate": 2e-05,
      "loss": 1.3983,
      "step": 50
    },
    {
      "epoch": 0.017604418363824648,
      "grad_norm": 2.650184154510498,
      "learning_rate": 2e-05,
      "loss": 1.4005,
      "step": 51
    },
    {
      "epoch": 0.01794960303762513,
      "grad_norm": 2.560302495956421,
      "learning_rate": 2e-05,
      "loss": 1.3706,
      "step": 52
    },
    {
      "epoch": 0.018294787711425613,
      "grad_norm": 2.116626739501953,
      "learning_rate": 2e-05,
      "loss": 1.2987,
      "step": 53
    },
    {
      "epoch": 0.018639972385226095,
      "grad_norm": 3.0732431411743164,
      "learning_rate": 2e-05,
      "loss": 1.4394,
      "step": 54
    },
    {
      "epoch": 0.018985157059026578,
      "grad_norm": 2.880014657974243,
      "learning_rate": 2e-05,
      "loss": 1.3772,
      "step": 55
    },
    {
      "epoch": 0.019330341732827064,
      "grad_norm": 2.65002179145813,
      "learning_rate": 2e-05,
      "loss": 1.344,
      "step": 56
    },
    {
      "epoch": 0.019675526406627546,
      "grad_norm": 2.4109294414520264,
      "learning_rate": 2e-05,
      "loss": 1.3818,
      "step": 57
    },
    {
      "epoch": 0.02002071108042803,
      "grad_norm": 3.318305730819702,
      "learning_rate": 2e-05,
      "loss": 1.4488,
      "step": 58
    },
    {
      "epoch": 0.02036589575422851,
      "grad_norm": 2.9551541805267334,
      "learning_rate": 2e-05,
      "loss": 1.3245,
      "step": 59
    },
    {
      "epoch": 0.020711080428028994,
      "grad_norm": 2.512965679168701,
      "learning_rate": 2e-05,
      "loss": 1.3476,
      "step": 60
    },
    {
      "epoch": 0.02105626510182948,
      "grad_norm": 2.608680248260498,
      "learning_rate": 2e-05,
      "loss": 1.335,
      "step": 61
    },
    {
      "epoch": 0.021401449775629963,
      "grad_norm": 2.2880616188049316,
      "learning_rate": 2e-05,
      "loss": 1.2781,
      "step": 62
    },
    {
      "epoch": 0.021746634449430445,
      "grad_norm": 2.7310123443603516,
      "learning_rate": 2e-05,
      "loss": 1.3449,
      "step": 63
    },
    {
      "epoch": 0.022091819123230928,
      "grad_norm": 2.5008130073547363,
      "learning_rate": 2e-05,
      "loss": 1.4042,
      "step": 64
    },
    {
      "epoch": 0.02243700379703141,
      "grad_norm": 3.5907320976257324,
      "learning_rate": 2e-05,
      "loss": 1.344,
      "step": 65
    },
    {
      "epoch": 0.022782188470831896,
      "grad_norm": 2.4797489643096924,
      "learning_rate": 2e-05,
      "loss": 1.3342,
      "step": 66
    },
    {
      "epoch": 0.02312737314463238,
      "grad_norm": 2.556204319000244,
      "learning_rate": 2e-05,
      "loss": 1.3244,
      "step": 67
    },
    {
      "epoch": 0.02347255781843286,
      "grad_norm": 5.068964004516602,
      "learning_rate": 2e-05,
      "loss": 1.3041,
      "step": 68
    },
    {
      "epoch": 0.023817742492233344,
      "grad_norm": 2.165076494216919,
      "learning_rate": 2e-05,
      "loss": 1.2727,
      "step": 69
    },
    {
      "epoch": 0.02416292716603383,
      "grad_norm": 2.202164649963379,
      "learning_rate": 2e-05,
      "loss": 1.2887,
      "step": 70
    },
    {
      "epoch": 0.024508111839834312,
      "grad_norm": 2.3834869861602783,
      "learning_rate": 2e-05,
      "loss": 1.2694,
      "step": 71
    },
    {
      "epoch": 0.024853296513634795,
      "grad_norm": 2.5316550731658936,
      "learning_rate": 2e-05,
      "loss": 1.2514,
      "step": 72
    },
    {
      "epoch": 0.025198481187435277,
      "grad_norm": 1.9449459314346313,
      "learning_rate": 2e-05,
      "loss": 1.26,
      "step": 73
    },
    {
      "epoch": 0.02554366586123576,
      "grad_norm": 2.2826900482177734,
      "learning_rate": 2e-05,
      "loss": 1.2931,
      "step": 74
    },
    {
      "epoch": 0.025888850535036246,
      "grad_norm": 2.260650396347046,
      "learning_rate": 2e-05,
      "loss": 1.2732,
      "step": 75
    },
    {
      "epoch": 0.02623403520883673,
      "grad_norm": 2.356182336807251,
      "learning_rate": 2e-05,
      "loss": 1.2449,
      "step": 76
    },
    {
      "epoch": 0.02657921988263721,
      "grad_norm": 2.199906826019287,
      "learning_rate": 2e-05,
      "loss": 1.2733,
      "step": 77
    },
    {
      "epoch": 0.026924404556437694,
      "grad_norm": 2.3083510398864746,
      "learning_rate": 2e-05,
      "loss": 1.2257,
      "step": 78
    },
    {
      "epoch": 0.027269589230238176,
      "grad_norm": 2.2658169269561768,
      "learning_rate": 2e-05,
      "loss": 1.2525,
      "step": 79
    },
    {
      "epoch": 0.027614773904038662,
      "grad_norm": 2.352308988571167,
      "learning_rate": 2e-05,
      "loss": 1.2202,
      "step": 80
    },
    {
      "epoch": 0.027959958577839145,
      "grad_norm": 2.523381471633911,
      "learning_rate": 2e-05,
      "loss": 1.2996,
      "step": 81
    },
    {
      "epoch": 0.028305143251639627,
      "grad_norm": 2.4327428340911865,
      "learning_rate": 2e-05,
      "loss": 1.2135,
      "step": 82
    },
    {
      "epoch": 0.02865032792544011,
      "grad_norm": 2.4549570083618164,
      "learning_rate": 2e-05,
      "loss": 1.2813,
      "step": 83
    },
    {
      "epoch": 0.028995512599240592,
      "grad_norm": 2.4394640922546387,
      "learning_rate": 2e-05,
      "loss": 1.2828,
      "step": 84
    },
    {
      "epoch": 0.029340697273041078,
      "grad_norm": 2.4780633449554443,
      "learning_rate": 2e-05,
      "loss": 1.2517,
      "step": 85
    },
    {
      "epoch": 0.02968588194684156,
      "grad_norm": 2.326880931854248,
      "learning_rate": 2e-05,
      "loss": 1.2288,
      "step": 86
    },
    {
      "epoch": 0.030031066620642043,
      "grad_norm": 3.1833627223968506,
      "learning_rate": 2e-05,
      "loss": 1.1978,
      "step": 87
    },
    {
      "epoch": 0.030376251294442526,
      "grad_norm": 2.624091625213623,
      "learning_rate": 2e-05,
      "loss": 1.2534,
      "step": 88
    },
    {
      "epoch": 0.03072143596824301,
      "grad_norm": 2.531895160675049,
      "learning_rate": 2e-05,
      "loss": 1.2263,
      "step": 89
    },
    {
      "epoch": 0.031066620642043494,
      "grad_norm": 2.2346715927124023,
      "learning_rate": 2e-05,
      "loss": 1.2301,
      "step": 90
    },
    {
      "epoch": 0.03141180531584398,
      "grad_norm": 2.237839698791504,
      "learning_rate": 2e-05,
      "loss": 1.1897,
      "step": 91
    },
    {
      "epoch": 0.03175698998964446,
      "grad_norm": 2.4267807006835938,
      "learning_rate": 2e-05,
      "loss": 1.2508,
      "step": 92
    },
    {
      "epoch": 0.03210217466344494,
      "grad_norm": 2.2506682872772217,
      "learning_rate": 2e-05,
      "loss": 1.2262,
      "step": 93
    },
    {
      "epoch": 0.03244735933724543,
      "grad_norm": 2.5266077518463135,
      "learning_rate": 2e-05,
      "loss": 1.3139,
      "step": 94
    },
    {
      "epoch": 0.03279254401104591,
      "grad_norm": 2.2002406120300293,
      "learning_rate": 2e-05,
      "loss": 1.2755,
      "step": 95
    },
    {
      "epoch": 0.03313772868484639,
      "grad_norm": 2.20263409614563,
      "learning_rate": 2e-05,
      "loss": 1.2388,
      "step": 96
    },
    {
      "epoch": 0.03348291335864688,
      "grad_norm": 2.297576665878296,
      "learning_rate": 2e-05,
      "loss": 1.2406,
      "step": 97
    },
    {
      "epoch": 0.03382809803244736,
      "grad_norm": 2.3951361179351807,
      "learning_rate": 2e-05,
      "loss": 1.2244,
      "step": 98
    },
    {
      "epoch": 0.034173282706247844,
      "grad_norm": 2.2707271575927734,
      "learning_rate": 2e-05,
      "loss": 1.2719,
      "step": 99
    },
    {
      "epoch": 0.03451846738004832,
      "grad_norm": 2.2766411304473877,
      "learning_rate": 2e-05,
      "loss": 1.23,
      "step": 100
    },
    {
      "epoch": 0.03486365205384881,
      "grad_norm": 2.253887414932251,
      "learning_rate": 2e-05,
      "loss": 1.1369,
      "step": 101
    },
    {
      "epoch": 0.035208836727649295,
      "grad_norm": 2.0003821849823,
      "learning_rate": 2e-05,
      "loss": 1.2547,
      "step": 102
    },
    {
      "epoch": 0.035554021401449774,
      "grad_norm": 2.277153253555298,
      "learning_rate": 2e-05,
      "loss": 1.2244,
      "step": 103
    },
    {
      "epoch": 0.03589920607525026,
      "grad_norm": 2.1561081409454346,
      "learning_rate": 2e-05,
      "loss": 1.2222,
      "step": 104
    },
    {
      "epoch": 0.03624439074905074,
      "grad_norm": 2.0002012252807617,
      "learning_rate": 2e-05,
      "loss": 1.1599,
      "step": 105
    },
    {
      "epoch": 0.036589575422851225,
      "grad_norm": 2.3313021659851074,
      "learning_rate": 2e-05,
      "loss": 1.1658,
      "step": 106
    },
    {
      "epoch": 0.03693476009665171,
      "grad_norm": 2.58686900138855,
      "learning_rate": 2e-05,
      "loss": 1.2282,
      "step": 107
    },
    {
      "epoch": 0.03727994477045219,
      "grad_norm": 2.485671043395996,
      "learning_rate": 2e-05,
      "loss": 1.1537,
      "step": 108
    },
    {
      "epoch": 0.037625129444252677,
      "grad_norm": 2.3962278366088867,
      "learning_rate": 2e-05,
      "loss": 1.133,
      "step": 109
    },
    {
      "epoch": 0.037970314118053156,
      "grad_norm": 2.118319034576416,
      "learning_rate": 2e-05,
      "loss": 1.1769,
      "step": 110
    },
    {
      "epoch": 0.03831549879185364,
      "grad_norm": 2.095940113067627,
      "learning_rate": 2e-05,
      "loss": 1.1763,
      "step": 111
    },
    {
      "epoch": 0.03866068346565413,
      "grad_norm": 2.0862512588500977,
      "learning_rate": 2e-05,
      "loss": 1.1356,
      "step": 112
    },
    {
      "epoch": 0.03900586813945461,
      "grad_norm": 1.9276546239852905,
      "learning_rate": 2e-05,
      "loss": 1.2068,
      "step": 113
    },
    {
      "epoch": 0.03935105281325509,
      "grad_norm": 2.5604825019836426,
      "learning_rate": 2e-05,
      "loss": 1.16,
      "step": 114
    },
    {
      "epoch": 0.03969623748705557,
      "grad_norm": 2.200289726257324,
      "learning_rate": 2e-05,
      "loss": 1.1811,
      "step": 115
    },
    {
      "epoch": 0.04004142216085606,
      "grad_norm": 2.2654318809509277,
      "learning_rate": 2e-05,
      "loss": 1.2745,
      "step": 116
    },
    {
      "epoch": 0.040386606834656544,
      "grad_norm": 2.194129228591919,
      "learning_rate": 2e-05,
      "loss": 1.1633,
      "step": 117
    },
    {
      "epoch": 0.04073179150845702,
      "grad_norm": 2.267609119415283,
      "learning_rate": 2e-05,
      "loss": 1.1025,
      "step": 118
    },
    {
      "epoch": 0.04107697618225751,
      "grad_norm": 2.3966379165649414,
      "learning_rate": 2e-05,
      "loss": 1.1624,
      "step": 119
    },
    {
      "epoch": 0.04142216085605799,
      "grad_norm": 2.3428127765655518,
      "learning_rate": 2e-05,
      "loss": 1.2521,
      "step": 120
    },
    {
      "epoch": 0.041767345529858474,
      "grad_norm": 2.257154941558838,
      "learning_rate": 2e-05,
      "loss": 1.1427,
      "step": 121
    },
    {
      "epoch": 0.04211253020365896,
      "grad_norm": 2.4615261554718018,
      "learning_rate": 2e-05,
      "loss": 1.209,
      "step": 122
    },
    {
      "epoch": 0.04245771487745944,
      "grad_norm": 2.215366840362549,
      "learning_rate": 2e-05,
      "loss": 1.1213,
      "step": 123
    },
    {
      "epoch": 0.042802899551259925,
      "grad_norm": 2.293936014175415,
      "learning_rate": 2e-05,
      "loss": 1.1118,
      "step": 124
    },
    {
      "epoch": 0.043148084225060404,
      "grad_norm": 2.351991653442383,
      "learning_rate": 2e-05,
      "loss": 1.1849,
      "step": 125
    },
    {
      "epoch": 0.04349326889886089,
      "grad_norm": 2.118906259536743,
      "learning_rate": 2e-05,
      "loss": 1.1905,
      "step": 126
    },
    {
      "epoch": 0.043838453572661376,
      "grad_norm": 2.1108460426330566,
      "learning_rate": 2e-05,
      "loss": 1.1787,
      "step": 127
    },
    {
      "epoch": 0.044183638246461855,
      "grad_norm": 2.560715436935425,
      "learning_rate": 2e-05,
      "loss": 1.0727,
      "step": 128
    },
    {
      "epoch": 0.04452882292026234,
      "grad_norm": 1.9983900785446167,
      "learning_rate": 2e-05,
      "loss": 1.1665,
      "step": 129
    },
    {
      "epoch": 0.04487400759406282,
      "grad_norm": 2.3714847564697266,
      "learning_rate": 2e-05,
      "loss": 1.1488,
      "step": 130
    },
    {
      "epoch": 0.045219192267863306,
      "grad_norm": 2.243546724319458,
      "learning_rate": 2e-05,
      "loss": 1.0965,
      "step": 131
    },
    {
      "epoch": 0.04556437694166379,
      "grad_norm": 1.989858627319336,
      "learning_rate": 2e-05,
      "loss": 1.0833,
      "step": 132
    },
    {
      "epoch": 0.04590956161546427,
      "grad_norm": 2.298943519592285,
      "learning_rate": 2e-05,
      "loss": 1.1548,
      "step": 133
    },
    {
      "epoch": 0.04625474628926476,
      "grad_norm": 2.256289005279541,
      "learning_rate": 2e-05,
      "loss": 1.1139,
      "step": 134
    },
    {
      "epoch": 0.04659993096306524,
      "grad_norm": 2.386530876159668,
      "learning_rate": 2e-05,
      "loss": 1.1245,
      "step": 135
    },
    {
      "epoch": 0.04694511563686572,
      "grad_norm": 2.073687791824341,
      "learning_rate": 2e-05,
      "loss": 1.1337,
      "step": 136
    },
    {
      "epoch": 0.04729030031066621,
      "grad_norm": 2.307697057723999,
      "learning_rate": 2e-05,
      "loss": 1.1325,
      "step": 137
    },
    {
      "epoch": 0.04763548498446669,
      "grad_norm": 2.1158194541931152,
      "learning_rate": 2e-05,
      "loss": 1.1637,
      "step": 138
    },
    {
      "epoch": 0.047980669658267174,
      "grad_norm": 2.21449613571167,
      "learning_rate": 2e-05,
      "loss": 1.1802,
      "step": 139
    },
    {
      "epoch": 0.04832585433206766,
      "grad_norm": 2.041476249694824,
      "learning_rate": 2e-05,
      "loss": 1.1007,
      "step": 140
    },
    {
      "epoch": 0.04867103900586814,
      "grad_norm": 2.262849807739258,
      "learning_rate": 2e-05,
      "loss": 1.1006,
      "step": 141
    },
    {
      "epoch": 0.049016223679668625,
      "grad_norm": 2.207761287689209,
      "learning_rate": 2e-05,
      "loss": 1.133,
      "step": 142
    },
    {
      "epoch": 0.049361408353469104,
      "grad_norm": 2.083613872528076,
      "learning_rate": 2e-05,
      "loss": 1.1319,
      "step": 143
    },
    {
      "epoch": 0.04970659302726959,
      "grad_norm": 2.1225838661193848,
      "learning_rate": 2e-05,
      "loss": 1.0786,
      "step": 144
    },
    {
      "epoch": 0.050051777701070076,
      "grad_norm": 2.17154598236084,
      "learning_rate": 2e-05,
      "loss": 1.2138,
      "step": 145
    },
    {
      "epoch": 0.050396962374870555,
      "grad_norm": 2.655251979827881,
      "learning_rate": 2e-05,
      "loss": 1.1639,
      "step": 146
    },
    {
      "epoch": 0.05074214704867104,
      "grad_norm": 2.241605758666992,
      "learning_rate": 2e-05,
      "loss": 1.1345,
      "step": 147
    },
    {
      "epoch": 0.05108733172247152,
      "grad_norm": 2.397520065307617,
      "learning_rate": 2e-05,
      "loss": 1.1592,
      "step": 148
    },
    {
      "epoch": 0.051432516396272006,
      "grad_norm": 2.2444629669189453,
      "learning_rate": 2e-05,
      "loss": 1.134,
      "step": 149
    },
    {
      "epoch": 0.05177770107007249,
      "grad_norm": 2.179332971572876,
      "learning_rate": 2e-05,
      "loss": 1.1726,
      "step": 150
    },
    {
      "epoch": 0.05212288574387297,
      "grad_norm": 2.1803085803985596,
      "learning_rate": 2e-05,
      "loss": 1.1458,
      "step": 151
    },
    {
      "epoch": 0.05246807041767346,
      "grad_norm": 2.06752872467041,
      "learning_rate": 2e-05,
      "loss": 1.1741,
      "step": 152
    },
    {
      "epoch": 0.052813255091473936,
      "grad_norm": 1.9567921161651611,
      "learning_rate": 2e-05,
      "loss": 1.1783,
      "step": 153
    },
    {
      "epoch": 0.05315843976527442,
      "grad_norm": 1.8780710697174072,
      "learning_rate": 2e-05,
      "loss": 1.0461,
      "step": 154
    },
    {
      "epoch": 0.05350362443907491,
      "grad_norm": 2.142355442047119,
      "learning_rate": 2e-05,
      "loss": 1.1683,
      "step": 155
    },
    {
      "epoch": 0.05384880911287539,
      "grad_norm": 2.404834270477295,
      "learning_rate": 2e-05,
      "loss": 1.1367,
      "step": 156
    },
    {
      "epoch": 0.05419399378667587,
      "grad_norm": 2.467586040496826,
      "learning_rate": 2e-05,
      "loss": 1.0616,
      "step": 157
    },
    {
      "epoch": 0.05453917846047635,
      "grad_norm": 2.428678035736084,
      "learning_rate": 2e-05,
      "loss": 1.1587,
      "step": 158
    },
    {
      "epoch": 0.05488436313427684,
      "grad_norm": 1.9721519947052002,
      "learning_rate": 2e-05,
      "loss": 1.0864,
      "step": 159
    },
    {
      "epoch": 0.055229547808077324,
      "grad_norm": 2.282735586166382,
      "learning_rate": 2e-05,
      "loss": 1.1805,
      "step": 160
    },
    {
      "epoch": 0.0555747324818778,
      "grad_norm": 2.136899471282959,
      "learning_rate": 2e-05,
      "loss": 1.0941,
      "step": 161
    },
    {
      "epoch": 0.05591991715567829,
      "grad_norm": 2.0251846313476562,
      "learning_rate": 2e-05,
      "loss": 1.0796,
      "step": 162
    },
    {
      "epoch": 0.05626510182947877,
      "grad_norm": 2.1328299045562744,
      "learning_rate": 2e-05,
      "loss": 1.0917,
      "step": 163
    },
    {
      "epoch": 0.056610286503279254,
      "grad_norm": 2.205331802368164,
      "learning_rate": 2e-05,
      "loss": 1.1792,
      "step": 164
    },
    {
      "epoch": 0.05695547117707974,
      "grad_norm": 2.0339744091033936,
      "learning_rate": 2e-05,
      "loss": 1.1874,
      "step": 165
    },
    {
      "epoch": 0.05730065585088022,
      "grad_norm": 1.8030365705490112,
      "learning_rate": 2e-05,
      "loss": 1.0929,
      "step": 166
    },
    {
      "epoch": 0.057645840524680705,
      "grad_norm": 2.1905670166015625,
      "learning_rate": 2e-05,
      "loss": 1.1831,
      "step": 167
    },
    {
      "epoch": 0.057991025198481184,
      "grad_norm": 2.142336845397949,
      "learning_rate": 2e-05,
      "loss": 1.1237,
      "step": 168
    },
    {
      "epoch": 0.05833620987228167,
      "grad_norm": 2.3521053791046143,
      "learning_rate": 2e-05,
      "loss": 1.1077,
      "step": 169
    },
    {
      "epoch": 0.058681394546082156,
      "grad_norm": 2.105743408203125,
      "learning_rate": 2e-05,
      "loss": 1.1048,
      "step": 170
    },
    {
      "epoch": 0.059026579219882636,
      "grad_norm": 1.9414738416671753,
      "learning_rate": 2e-05,
      "loss": 1.112,
      "step": 171
    },
    {
      "epoch": 0.05937176389368312,
      "grad_norm": 1.9606658220291138,
      "learning_rate": 2e-05,
      "loss": 1.1109,
      "step": 172
    },
    {
      "epoch": 0.0597169485674836,
      "grad_norm": 2.3274831771850586,
      "learning_rate": 2e-05,
      "loss": 1.1803,
      "step": 173
    },
    {
      "epoch": 0.06006213324128409,
      "grad_norm": 2.1384570598602295,
      "learning_rate": 2e-05,
      "loss": 1.0515,
      "step": 174
    },
    {
      "epoch": 0.06040731791508457,
      "grad_norm": 2.0795719623565674,
      "learning_rate": 2e-05,
      "loss": 1.0581,
      "step": 175
    },
    {
      "epoch": 0.06075250258888505,
      "grad_norm": 2.0180423259735107,
      "learning_rate": 2e-05,
      "loss": 1.0686,
      "step": 176
    },
    {
      "epoch": 0.06109768726268554,
      "grad_norm": 2.0913267135620117,
      "learning_rate": 2e-05,
      "loss": 1.117,
      "step": 177
    },
    {
      "epoch": 0.06144287193648602,
      "grad_norm": 2.0325934886932373,
      "learning_rate": 2e-05,
      "loss": 1.1526,
      "step": 178
    },
    {
      "epoch": 0.0617880566102865,
      "grad_norm": 2.222254991531372,
      "learning_rate": 2e-05,
      "loss": 1.113,
      "step": 179
    },
    {
      "epoch": 0.06213324128408699,
      "grad_norm": 2.2039270401000977,
      "learning_rate": 2e-05,
      "loss": 1.1886,
      "step": 180
    },
    {
      "epoch": 0.06247842595788747,
      "grad_norm": 2.0291781425476074,
      "learning_rate": 2e-05,
      "loss": 1.0884,
      "step": 181
    },
    {
      "epoch": 0.06282361063168795,
      "grad_norm": 2.2183430194854736,
      "learning_rate": 2e-05,
      "loss": 1.0223,
      "step": 182
    },
    {
      "epoch": 0.06316879530548844,
      "grad_norm": 2.37440824508667,
      "learning_rate": 2e-05,
      "loss": 1.0775,
      "step": 183
    },
    {
      "epoch": 0.06351397997928893,
      "grad_norm": 1.8214384317398071,
      "learning_rate": 2e-05,
      "loss": 1.1279,
      "step": 184
    },
    {
      "epoch": 0.0638591646530894,
      "grad_norm": 2.205291271209717,
      "learning_rate": 2e-05,
      "loss": 1.0396,
      "step": 185
    },
    {
      "epoch": 0.06420434932688988,
      "grad_norm": 2.137577533721924,
      "learning_rate": 2e-05,
      "loss": 1.0861,
      "step": 186
    },
    {
      "epoch": 0.06454953400069037,
      "grad_norm": 1.982663869857788,
      "learning_rate": 2e-05,
      "loss": 1.1612,
      "step": 187
    },
    {
      "epoch": 0.06489471867449086,
      "grad_norm": 21.140506744384766,
      "learning_rate": 2e-05,
      "loss": 1.0824,
      "step": 188
    },
    {
      "epoch": 0.06523990334829134,
      "grad_norm": 2.2611193656921387,
      "learning_rate": 2e-05,
      "loss": 1.0795,
      "step": 189
    },
    {
      "epoch": 0.06558508802209181,
      "grad_norm": 2.0905325412750244,
      "learning_rate": 2e-05,
      "loss": 1.1989,
      "step": 190
    },
    {
      "epoch": 0.0659302726958923,
      "grad_norm": 1.9430997371673584,
      "learning_rate": 2e-05,
      "loss": 1.0885,
      "step": 191
    },
    {
      "epoch": 0.06627545736969279,
      "grad_norm": 1.8876497745513916,
      "learning_rate": 2e-05,
      "loss": 1.0708,
      "step": 192
    },
    {
      "epoch": 0.06662064204349327,
      "grad_norm": 2.0716099739074707,
      "learning_rate": 2e-05,
      "loss": 1.124,
      "step": 193
    },
    {
      "epoch": 0.06696582671729376,
      "grad_norm": 2.413959503173828,
      "learning_rate": 2e-05,
      "loss": 1.1856,
      "step": 194
    },
    {
      "epoch": 0.06731101139109423,
      "grad_norm": 1.8021107912063599,
      "learning_rate": 2e-05,
      "loss": 1.1284,
      "step": 195
    },
    {
      "epoch": 0.06765619606489472,
      "grad_norm": 2.2795395851135254,
      "learning_rate": 2e-05,
      "loss": 1.1101,
      "step": 196
    },
    {
      "epoch": 0.0680013807386952,
      "grad_norm": 1.936448097229004,
      "learning_rate": 2e-05,
      "loss": 1.0921,
      "step": 197
    },
    {
      "epoch": 0.06834656541249569,
      "grad_norm": 1.940928339958191,
      "learning_rate": 2e-05,
      "loss": 1.1236,
      "step": 198
    },
    {
      "epoch": 0.06869175008629617,
      "grad_norm": 2.1147520542144775,
      "learning_rate": 2e-05,
      "loss": 1.0332,
      "step": 199
    },
    {
      "epoch": 0.06903693476009665,
      "grad_norm": 1.9784513711929321,
      "learning_rate": 2e-05,
      "loss": 1.0644,
      "step": 200
    },
    {
      "epoch": 0.06938211943389713,
      "grad_norm": 2.135711431503296,
      "learning_rate": 2e-05,
      "loss": 1.0189,
      "step": 201
    },
    {
      "epoch": 0.06972730410769762,
      "grad_norm": 2.3416550159454346,
      "learning_rate": 2e-05,
      "loss": 1.0788,
      "step": 202
    },
    {
      "epoch": 0.0700724887814981,
      "grad_norm": 2.143134593963623,
      "learning_rate": 2e-05,
      "loss": 1.0657,
      "step": 203
    },
    {
      "epoch": 0.07041767345529859,
      "grad_norm": 9.058279991149902,
      "learning_rate": 2e-05,
      "loss": 1.0657,
      "step": 204
    },
    {
      "epoch": 0.07076285812909906,
      "grad_norm": 2.2367799282073975,
      "learning_rate": 2e-05,
      "loss": 1.0822,
      "step": 205
    },
    {
      "epoch": 0.07110804280289955,
      "grad_norm": 1.9047443866729736,
      "learning_rate": 2e-05,
      "loss": 1.0999,
      "step": 206
    },
    {
      "epoch": 0.07145322747670003,
      "grad_norm": 2.307863473892212,
      "learning_rate": 2e-05,
      "loss": 1.1275,
      "step": 207
    },
    {
      "epoch": 0.07179841215050052,
      "grad_norm": 2.0635058879852295,
      "learning_rate": 2e-05,
      "loss": 1.0477,
      "step": 208
    },
    {
      "epoch": 0.072143596824301,
      "grad_norm": 2.144148111343384,
      "learning_rate": 2e-05,
      "loss": 1.0351,
      "step": 209
    },
    {
      "epoch": 0.07248878149810148,
      "grad_norm": 1.9361531734466553,
      "learning_rate": 2e-05,
      "loss": 1.0704,
      "step": 210
    },
    {
      "epoch": 0.07283396617190196,
      "grad_norm": 1.8395414352416992,
      "learning_rate": 2e-05,
      "loss": 1.1099,
      "step": 211
    },
    {
      "epoch": 0.07317915084570245,
      "grad_norm": 2.1172099113464355,
      "learning_rate": 2e-05,
      "loss": 1.1169,
      "step": 212
    },
    {
      "epoch": 0.07352433551950294,
      "grad_norm": 2.084325075149536,
      "learning_rate": 2e-05,
      "loss": 1.0347,
      "step": 213
    },
    {
      "epoch": 0.07386952019330342,
      "grad_norm": 2.1838455200195312,
      "learning_rate": 2e-05,
      "loss": 1.0926,
      "step": 214
    },
    {
      "epoch": 0.0742147048671039,
      "grad_norm": 2.1516849994659424,
      "learning_rate": 2e-05,
      "loss": 1.082,
      "step": 215
    },
    {
      "epoch": 0.07455988954090438,
      "grad_norm": 2.011460781097412,
      "learning_rate": 2e-05,
      "loss": 1.073,
      "step": 216
    },
    {
      "epoch": 0.07490507421470487,
      "grad_norm": 2.2096571922302246,
      "learning_rate": 2e-05,
      "loss": 1.1239,
      "step": 217
    },
    {
      "epoch": 0.07525025888850535,
      "grad_norm": 2.088879346847534,
      "learning_rate": 2e-05,
      "loss": 1.1313,
      "step": 218
    },
    {
      "epoch": 0.07559544356230584,
      "grad_norm": 2.0846405029296875,
      "learning_rate": 2e-05,
      "loss": 0.9951,
      "step": 219
    },
    {
      "epoch": 0.07594062823610631,
      "grad_norm": 1.9645204544067383,
      "learning_rate": 2e-05,
      "loss": 1.0431,
      "step": 220
    },
    {
      "epoch": 0.0762858129099068,
      "grad_norm": 2.1063179969787598,
      "learning_rate": 2e-05,
      "loss": 1.0659,
      "step": 221
    },
    {
      "epoch": 0.07663099758370728,
      "grad_norm": 2.0268285274505615,
      "learning_rate": 2e-05,
      "loss": 1.0909,
      "step": 222
    },
    {
      "epoch": 0.07697618225750777,
      "grad_norm": 1.9405102729797363,
      "learning_rate": 2e-05,
      "loss": 1.0,
      "step": 223
    },
    {
      "epoch": 0.07732136693130826,
      "grad_norm": 2.1061298847198486,
      "learning_rate": 2e-05,
      "loss": 1.083,
      "step": 224
    },
    {
      "epoch": 0.07766655160510873,
      "grad_norm": 2.07513165473938,
      "learning_rate": 2e-05,
      "loss": 1.0872,
      "step": 225
    },
    {
      "epoch": 0.07801173627890921,
      "grad_norm": 2.2630527019500732,
      "learning_rate": 2e-05,
      "loss": 1.0296,
      "step": 226
    },
    {
      "epoch": 0.0783569209527097,
      "grad_norm": 2.0668439865112305,
      "learning_rate": 2e-05,
      "loss": 1.1433,
      "step": 227
    },
    {
      "epoch": 0.07870210562651019,
      "grad_norm": 2.3092525005340576,
      "learning_rate": 2e-05,
      "loss": 1.0347,
      "step": 228
    },
    {
      "epoch": 0.07904729030031067,
      "grad_norm": 2.0190646648406982,
      "learning_rate": 2e-05,
      "loss": 1.0423,
      "step": 229
    },
    {
      "epoch": 0.07939247497411114,
      "grad_norm": 2.0675878524780273,
      "learning_rate": 2e-05,
      "loss": 1.1551,
      "step": 230
    },
    {
      "epoch": 0.07973765964791163,
      "grad_norm": 2.282857894897461,
      "learning_rate": 2e-05,
      "loss": 1.043,
      "step": 231
    },
    {
      "epoch": 0.08008284432171212,
      "grad_norm": 1.886343240737915,
      "learning_rate": 2e-05,
      "loss": 1.0244,
      "step": 232
    },
    {
      "epoch": 0.0804280289955126,
      "grad_norm": 2.2882308959960938,
      "learning_rate": 2e-05,
      "loss": 1.0228,
      "step": 233
    },
    {
      "epoch": 0.08077321366931309,
      "grad_norm": 2.05058217048645,
      "learning_rate": 2e-05,
      "loss": 1.0567,
      "step": 234
    },
    {
      "epoch": 0.08111839834311356,
      "grad_norm": 2.2782809734344482,
      "learning_rate": 2e-05,
      "loss": 1.0744,
      "step": 235
    },
    {
      "epoch": 0.08146358301691405,
      "grad_norm": 1.9740854501724243,
      "learning_rate": 2e-05,
      "loss": 1.0601,
      "step": 236
    },
    {
      "epoch": 0.08180876769071453,
      "grad_norm": 2.08333158493042,
      "learning_rate": 2e-05,
      "loss": 1.0873,
      "step": 237
    },
    {
      "epoch": 0.08215395236451502,
      "grad_norm": 2.0546019077301025,
      "learning_rate": 2e-05,
      "loss": 1.088,
      "step": 238
    },
    {
      "epoch": 0.0824991370383155,
      "grad_norm": 1.9426814317703247,
      "learning_rate": 2e-05,
      "loss": 1.0512,
      "step": 239
    },
    {
      "epoch": 0.08284432171211598,
      "grad_norm": 2.0802295207977295,
      "learning_rate": 2e-05,
      "loss": 1.1123,
      "step": 240
    },
    {
      "epoch": 0.08318950638591646,
      "grad_norm": 2.010526657104492,
      "learning_rate": 2e-05,
      "loss": 1.0883,
      "step": 241
    },
    {
      "epoch": 0.08353469105971695,
      "grad_norm": 2.083188056945801,
      "learning_rate": 2e-05,
      "loss": 1.0987,
      "step": 242
    },
    {
      "epoch": 0.08387987573351743,
      "grad_norm": 2.137660264968872,
      "learning_rate": 2e-05,
      "loss": 0.9924,
      "step": 243
    },
    {
      "epoch": 0.08422506040731792,
      "grad_norm": 2.041710376739502,
      "learning_rate": 2e-05,
      "loss": 1.1403,
      "step": 244
    },
    {
      "epoch": 0.08457024508111839,
      "grad_norm": 2.0598714351654053,
      "learning_rate": 2e-05,
      "loss": 1.02,
      "step": 245
    },
    {
      "epoch": 0.08491542975491888,
      "grad_norm": 2.168576955795288,
      "learning_rate": 2e-05,
      "loss": 1.0771,
      "step": 246
    },
    {
      "epoch": 0.08526061442871936,
      "grad_norm": 2.145132303237915,
      "learning_rate": 2e-05,
      "loss": 1.0746,
      "step": 247
    },
    {
      "epoch": 0.08560579910251985,
      "grad_norm": 2.24804425239563,
      "learning_rate": 2e-05,
      "loss": 1.0898,
      "step": 248
    },
    {
      "epoch": 0.08595098377632034,
      "grad_norm": 1.8360575437545776,
      "learning_rate": 2e-05,
      "loss": 1.0741,
      "step": 249
    },
    {
      "epoch": 0.08629616845012081,
      "grad_norm": 2.1169514656066895,
      "learning_rate": 2e-05,
      "loss": 1.1025,
      "step": 250
    },
    {
      "epoch": 0.0866413531239213,
      "grad_norm": 1.929721474647522,
      "learning_rate": 2e-05,
      "loss": 1.0455,
      "step": 251
    },
    {
      "epoch": 0.08698653779772178,
      "grad_norm": 5.5121026039123535,
      "learning_rate": 2e-05,
      "loss": 1.07,
      "step": 252
    },
    {
      "epoch": 0.08733172247152227,
      "grad_norm": 2.2410662174224854,
      "learning_rate": 2e-05,
      "loss": 1.1145,
      "step": 253
    },
    {
      "epoch": 0.08767690714532275,
      "grad_norm": 2.027545213699341,
      "learning_rate": 2e-05,
      "loss": 0.9882,
      "step": 254
    },
    {
      "epoch": 0.08802209181912322,
      "grad_norm": 2.0337374210357666,
      "learning_rate": 2e-05,
      "loss": 0.999,
      "step": 255
    },
    {
      "epoch": 0.08836727649292371,
      "grad_norm": 2.1120731830596924,
      "learning_rate": 2e-05,
      "loss": 1.0424,
      "step": 256
    },
    {
      "epoch": 0.0887124611667242,
      "grad_norm": 2.039837121963501,
      "learning_rate": 2e-05,
      "loss": 1.0316,
      "step": 257
    },
    {
      "epoch": 0.08905764584052468,
      "grad_norm": 2.008521318435669,
      "learning_rate": 2e-05,
      "loss": 1.019,
      "step": 258
    },
    {
      "epoch": 0.08940283051432517,
      "grad_norm": 2.081023693084717,
      "learning_rate": 2e-05,
      "loss": 1.003,
      "step": 259
    },
    {
      "epoch": 0.08974801518812564,
      "grad_norm": 4.9017229080200195,
      "learning_rate": 2e-05,
      "loss": 1.1215,
      "step": 260
    },
    {
      "epoch": 0.09009319986192613,
      "grad_norm": 2.0149810314178467,
      "learning_rate": 2e-05,
      "loss": 1.0643,
      "step": 261
    },
    {
      "epoch": 0.09043838453572661,
      "grad_norm": 2.0311553478240967,
      "learning_rate": 2e-05,
      "loss": 1.0287,
      "step": 262
    },
    {
      "epoch": 0.0907835692095271,
      "grad_norm": 2.089172124862671,
      "learning_rate": 2e-05,
      "loss": 1.0435,
      "step": 263
    },
    {
      "epoch": 0.09112875388332758,
      "grad_norm": 2.233536720275879,
      "learning_rate": 2e-05,
      "loss": 1.0787,
      "step": 264
    },
    {
      "epoch": 0.09147393855712806,
      "grad_norm": 2.050518035888672,
      "learning_rate": 2e-05,
      "loss": 1.0818,
      "step": 265
    },
    {
      "epoch": 0.09181912323092854,
      "grad_norm": 2.117332935333252,
      "learning_rate": 2e-05,
      "loss": 1.0334,
      "step": 266
    },
    {
      "epoch": 0.09216430790472903,
      "grad_norm": 2.1400556564331055,
      "learning_rate": 2e-05,
      "loss": 1.0997,
      "step": 267
    },
    {
      "epoch": 0.09250949257852951,
      "grad_norm": 6.34127950668335,
      "learning_rate": 2e-05,
      "loss": 1.0854,
      "step": 268
    },
    {
      "epoch": 0.09285467725233,
      "grad_norm": 2.346954584121704,
      "learning_rate": 2e-05,
      "loss": 1.041,
      "step": 269
    },
    {
      "epoch": 0.09319986192613049,
      "grad_norm": 2.049189329147339,
      "learning_rate": 2e-05,
      "loss": 1.1082,
      "step": 270
    },
    {
      "epoch": 0.09354504659993096,
      "grad_norm": 2.0327305793762207,
      "learning_rate": 2e-05,
      "loss": 1.0755,
      "step": 271
    },
    {
      "epoch": 0.09389023127373144,
      "grad_norm": 2.1110620498657227,
      "learning_rate": 2e-05,
      "loss": 1.0721,
      "step": 272
    },
    {
      "epoch": 0.09423541594753193,
      "grad_norm": 1.8782284259796143,
      "learning_rate": 2e-05,
      "loss": 0.9842,
      "step": 273
    },
    {
      "epoch": 0.09458060062133242,
      "grad_norm": 1.8504958152770996,
      "learning_rate": 2e-05,
      "loss": 1.0183,
      "step": 274
    },
    {
      "epoch": 0.0949257852951329,
      "grad_norm": 2.0672526359558105,
      "learning_rate": 2e-05,
      "loss": 1.0126,
      "step": 275
    },
    {
      "epoch": 0.09527096996893337,
      "grad_norm": 2.104374885559082,
      "learning_rate": 2e-05,
      "loss": 1.0911,
      "step": 276
    },
    {
      "epoch": 0.09561615464273386,
      "grad_norm": 1.9912065267562866,
      "learning_rate": 2e-05,
      "loss": 1.0659,
      "step": 277
    },
    {
      "epoch": 0.09596133931653435,
      "grad_norm": 2.093083143234253,
      "learning_rate": 2e-05,
      "loss": 1.0771,
      "step": 278
    },
    {
      "epoch": 0.09630652399033483,
      "grad_norm": 1.92844820022583,
      "learning_rate": 2e-05,
      "loss": 1.006,
      "step": 279
    },
    {
      "epoch": 0.09665170866413532,
      "grad_norm": 1.7608734369277954,
      "learning_rate": 2e-05,
      "loss": 1.0353,
      "step": 280
    },
    {
      "epoch": 0.09699689333793579,
      "grad_norm": 2.1199417114257812,
      "learning_rate": 2e-05,
      "loss": 1.0065,
      "step": 281
    },
    {
      "epoch": 0.09734207801173628,
      "grad_norm": 1.7883626222610474,
      "learning_rate": 2e-05,
      "loss": 1.0815,
      "step": 282
    },
    {
      "epoch": 0.09768726268553676,
      "grad_norm": 1.9652053117752075,
      "learning_rate": 2e-05,
      "loss": 1.0158,
      "step": 283
    },
    {
      "epoch": 0.09803244735933725,
      "grad_norm": 2.1138057708740234,
      "learning_rate": 2e-05,
      "loss": 1.029,
      "step": 284
    },
    {
      "epoch": 0.09837763203313774,
      "grad_norm": 2.0844762325286865,
      "learning_rate": 2e-05,
      "loss": 1.0783,
      "step": 285
    },
    {
      "epoch": 0.09872281670693821,
      "grad_norm": 1.954588532447815,
      "learning_rate": 2e-05,
      "loss": 1.0256,
      "step": 286
    },
    {
      "epoch": 0.0990680013807387,
      "grad_norm": 2.3191030025482178,
      "learning_rate": 2e-05,
      "loss": 1.1083,
      "step": 287
    },
    {
      "epoch": 0.09941318605453918,
      "grad_norm": 2.0656120777130127,
      "learning_rate": 2e-05,
      "loss": 1.0798,
      "step": 288
    },
    {
      "epoch": 0.09975837072833967,
      "grad_norm": 1.8802495002746582,
      "learning_rate": 2e-05,
      "loss": 1.0258,
      "step": 289
    },
    {
      "epoch": 0.10010355540214015,
      "grad_norm": 2.062614917755127,
      "learning_rate": 2e-05,
      "loss": 1.0565,
      "step": 290
    },
    {
      "epoch": 0.10044874007594062,
      "grad_norm": 2.0783498287200928,
      "learning_rate": 2e-05,
      "loss": 1.1027,
      "step": 291
    },
    {
      "epoch": 0.10079392474974111,
      "grad_norm": 2.0610833168029785,
      "learning_rate": 2e-05,
      "loss": 1.0019,
      "step": 292
    },
    {
      "epoch": 0.1011391094235416,
      "grad_norm": 2.029587745666504,
      "learning_rate": 2e-05,
      "loss": 1.0369,
      "step": 293
    },
    {
      "epoch": 0.10148429409734208,
      "grad_norm": 1.8925073146820068,
      "learning_rate": 2e-05,
      "loss": 1.0196,
      "step": 294
    },
    {
      "epoch": 0.10182947877114257,
      "grad_norm": 1.9382961988449097,
      "learning_rate": 2e-05,
      "loss": 1.0812,
      "step": 295
    },
    {
      "epoch": 0.10217466344494304,
      "grad_norm": 1.8473429679870605,
      "learning_rate": 2e-05,
      "loss": 1.0407,
      "step": 296
    },
    {
      "epoch": 0.10251984811874353,
      "grad_norm": 2.0330350399017334,
      "learning_rate": 2e-05,
      "loss": 1.0093,
      "step": 297
    },
    {
      "epoch": 0.10286503279254401,
      "grad_norm": 2.0864484310150146,
      "learning_rate": 2e-05,
      "loss": 1.0155,
      "step": 298
    },
    {
      "epoch": 0.1032102174663445,
      "grad_norm": 1.8072278499603271,
      "learning_rate": 2e-05,
      "loss": 1.0674,
      "step": 299
    },
    {
      "epoch": 0.10355540214014498,
      "grad_norm": 2.2771360874176025,
      "learning_rate": 2e-05,
      "loss": 1.0345,
      "step": 300
    },
    {
      "epoch": 0.10390058681394546,
      "grad_norm": 1.8649107217788696,
      "learning_rate": 2e-05,
      "loss": 0.9528,
      "step": 301
    },
    {
      "epoch": 0.10424577148774594,
      "grad_norm": 1.751585841178894,
      "learning_rate": 2e-05,
      "loss": 0.9587,
      "step": 302
    },
    {
      "epoch": 0.10459095616154643,
      "grad_norm": 2.0218489170074463,
      "learning_rate": 2e-05,
      "loss": 0.9844,
      "step": 303
    },
    {
      "epoch": 0.10493614083534691,
      "grad_norm": 2.0804543495178223,
      "learning_rate": 2e-05,
      "loss": 1.0221,
      "step": 304
    },
    {
      "epoch": 0.1052813255091474,
      "grad_norm": 2.1906816959381104,
      "learning_rate": 2e-05,
      "loss": 1.0347,
      "step": 305
    },
    {
      "epoch": 0.10562651018294787,
      "grad_norm": 1.852725863456726,
      "learning_rate": 2e-05,
      "loss": 1.0482,
      "step": 306
    },
    {
      "epoch": 0.10597169485674836,
      "grad_norm": 1.9083342552185059,
      "learning_rate": 2e-05,
      "loss": 1.0901,
      "step": 307
    },
    {
      "epoch": 0.10631687953054884,
      "grad_norm": 2.0140769481658936,
      "learning_rate": 2e-05,
      "loss": 1.087,
      "step": 308
    },
    {
      "epoch": 0.10666206420434933,
      "grad_norm": 1.8648165464401245,
      "learning_rate": 2e-05,
      "loss": 1.0129,
      "step": 309
    },
    {
      "epoch": 0.10700724887814982,
      "grad_norm": 2.034452438354492,
      "learning_rate": 2e-05,
      "loss": 1.0424,
      "step": 310
    },
    {
      "epoch": 0.10735243355195029,
      "grad_norm": 1.7214909791946411,
      "learning_rate": 2e-05,
      "loss": 1.0461,
      "step": 311
    },
    {
      "epoch": 0.10769761822575077,
      "grad_norm": 2.31937575340271,
      "learning_rate": 2e-05,
      "loss": 1.0606,
      "step": 312
    },
    {
      "epoch": 0.10804280289955126,
      "grad_norm": 1.9707671403884888,
      "learning_rate": 2e-05,
      "loss": 0.9882,
      "step": 313
    },
    {
      "epoch": 0.10838798757335175,
      "grad_norm": 1.837477207183838,
      "learning_rate": 2e-05,
      "loss": 0.9285,
      "step": 314
    },
    {
      "epoch": 0.10873317224715223,
      "grad_norm": 1.8579028844833374,
      "learning_rate": 2e-05,
      "loss": 1.0121,
      "step": 315
    },
    {
      "epoch": 0.1090783569209527,
      "grad_norm": 1.8835140466690063,
      "learning_rate": 2e-05,
      "loss": 1.0724,
      "step": 316
    },
    {
      "epoch": 0.10942354159475319,
      "grad_norm": 1.7847641706466675,
      "learning_rate": 2e-05,
      "loss": 1.0265,
      "step": 317
    },
    {
      "epoch": 0.10976872626855368,
      "grad_norm": 2.0330307483673096,
      "learning_rate": 2e-05,
      "loss": 1.0218,
      "step": 318
    },
    {
      "epoch": 0.11011391094235416,
      "grad_norm": 1.8466086387634277,
      "learning_rate": 2e-05,
      "loss": 1.0594,
      "step": 319
    },
    {
      "epoch": 0.11045909561615465,
      "grad_norm": 1.884079933166504,
      "learning_rate": 2e-05,
      "loss": 1.0734,
      "step": 320
    },
    {
      "epoch": 0.11080428028995512,
      "grad_norm": 1.8187580108642578,
      "learning_rate": 2e-05,
      "loss": 0.9995,
      "step": 321
    },
    {
      "epoch": 0.1111494649637556,
      "grad_norm": 2.196646213531494,
      "learning_rate": 2e-05,
      "loss": 1.0265,
      "step": 322
    },
    {
      "epoch": 0.11149464963755609,
      "grad_norm": 1.9797489643096924,
      "learning_rate": 2e-05,
      "loss": 1.0325,
      "step": 323
    },
    {
      "epoch": 0.11183983431135658,
      "grad_norm": 2.0785601139068604,
      "learning_rate": 2e-05,
      "loss": 1.1051,
      "step": 324
    },
    {
      "epoch": 0.11218501898515706,
      "grad_norm": 2.0432729721069336,
      "learning_rate": 2e-05,
      "loss": 1.0815,
      "step": 325
    },
    {
      "epoch": 0.11253020365895754,
      "grad_norm": 2.0694308280944824,
      "learning_rate": 2e-05,
      "loss": 1.0851,
      "step": 326
    },
    {
      "epoch": 0.11287538833275802,
      "grad_norm": 1.8386410474777222,
      "learning_rate": 2e-05,
      "loss": 1.0106,
      "step": 327
    },
    {
      "epoch": 0.11322057300655851,
      "grad_norm": 2.018885850906372,
      "learning_rate": 2e-05,
      "loss": 1.0318,
      "step": 328
    },
    {
      "epoch": 0.113565757680359,
      "grad_norm": 2.105708360671997,
      "learning_rate": 2e-05,
      "loss": 1.0567,
      "step": 329
    },
    {
      "epoch": 0.11391094235415948,
      "grad_norm": 1.9204944372177124,
      "learning_rate": 2e-05,
      "loss": 1.0262,
      "step": 330
    },
    {
      "epoch": 0.11425612702795995,
      "grad_norm": 1.9768996238708496,
      "learning_rate": 2e-05,
      "loss": 1.0085,
      "step": 331
    },
    {
      "epoch": 0.11460131170176044,
      "grad_norm": 1.785104751586914,
      "learning_rate": 2e-05,
      "loss": 1.102,
      "step": 332
    },
    {
      "epoch": 0.11494649637556092,
      "grad_norm": 2.0644032955169678,
      "learning_rate": 2e-05,
      "loss": 1.0617,
      "step": 333
    },
    {
      "epoch": 0.11529168104936141,
      "grad_norm": 2.0390021800994873,
      "learning_rate": 2e-05,
      "loss": 0.9609,
      "step": 334
    },
    {
      "epoch": 0.1156368657231619,
      "grad_norm": 1.919952392578125,
      "learning_rate": 2e-05,
      "loss": 1.0701,
      "step": 335
    },
    {
      "epoch": 0.11598205039696237,
      "grad_norm": 1.8437055349349976,
      "learning_rate": 2e-05,
      "loss": 1.0486,
      "step": 336
    },
    {
      "epoch": 0.11632723507076285,
      "grad_norm": 1.864856243133545,
      "learning_rate": 2e-05,
      "loss": 1.0564,
      "step": 337
    },
    {
      "epoch": 0.11667241974456334,
      "grad_norm": 2.0349135398864746,
      "learning_rate": 2e-05,
      "loss": 0.9971,
      "step": 338
    },
    {
      "epoch": 0.11701760441836383,
      "grad_norm": 2.007643461227417,
      "learning_rate": 2e-05,
      "loss": 0.986,
      "step": 339
    },
    {
      "epoch": 0.11736278909216431,
      "grad_norm": 2.1241238117218018,
      "learning_rate": 2e-05,
      "loss": 1.0278,
      "step": 340
    },
    {
      "epoch": 0.11770797376596479,
      "grad_norm": 1.960552453994751,
      "learning_rate": 2e-05,
      "loss": 1.057,
      "step": 341
    },
    {
      "epoch": 0.11805315843976527,
      "grad_norm": 2.3228769302368164,
      "learning_rate": 2e-05,
      "loss": 1.029,
      "step": 342
    },
    {
      "epoch": 0.11839834311356576,
      "grad_norm": 1.9010450839996338,
      "learning_rate": 2e-05,
      "loss": 0.9918,
      "step": 343
    },
    {
      "epoch": 0.11874352778736624,
      "grad_norm": 1.9832115173339844,
      "learning_rate": 2e-05,
      "loss": 0.9904,
      "step": 344
    },
    {
      "epoch": 0.11908871246116673,
      "grad_norm": 2.176405668258667,
      "learning_rate": 2e-05,
      "loss": 1.0155,
      "step": 345
    },
    {
      "epoch": 0.1194338971349672,
      "grad_norm": 2.0718116760253906,
      "learning_rate": 2e-05,
      "loss": 1.0706,
      "step": 346
    },
    {
      "epoch": 0.11977908180876769,
      "grad_norm": 2.000976085662842,
      "learning_rate": 2e-05,
      "loss": 0.9916,
      "step": 347
    },
    {
      "epoch": 0.12012426648256817,
      "grad_norm": 1.9181327819824219,
      "learning_rate": 2e-05,
      "loss": 1.0556,
      "step": 348
    },
    {
      "epoch": 0.12046945115636866,
      "grad_norm": 1.7830644845962524,
      "learning_rate": 2e-05,
      "loss": 0.9755,
      "step": 349
    },
    {
      "epoch": 0.12081463583016915,
      "grad_norm": 2.0355966091156006,
      "learning_rate": 2e-05,
      "loss": 1.0421,
      "step": 350
    },
    {
      "epoch": 0.12115982050396962,
      "grad_norm": 1.8209973573684692,
      "learning_rate": 2e-05,
      "loss": 1.0213,
      "step": 351
    },
    {
      "epoch": 0.1215050051777701,
      "grad_norm": 1.9484202861785889,
      "learning_rate": 2e-05,
      "loss": 1.11,
      "step": 352
    },
    {
      "epoch": 0.12185018985157059,
      "grad_norm": 1.959164023399353,
      "learning_rate": 2e-05,
      "loss": 1.0318,
      "step": 353
    },
    {
      "epoch": 0.12219537452537108,
      "grad_norm": 1.893936276435852,
      "learning_rate": 2e-05,
      "loss": 1.0534,
      "step": 354
    },
    {
      "epoch": 0.12254055919917156,
      "grad_norm": 1.9669185876846313,
      "learning_rate": 2e-05,
      "loss": 0.9959,
      "step": 355
    },
    {
      "epoch": 0.12288574387297203,
      "grad_norm": 2.152151584625244,
      "learning_rate": 2e-05,
      "loss": 1.0081,
      "step": 356
    },
    {
      "epoch": 0.12323092854677252,
      "grad_norm": 2.203021764755249,
      "learning_rate": 2e-05,
      "loss": 1.0443,
      "step": 357
    },
    {
      "epoch": 0.123576113220573,
      "grad_norm": 2.069221258163452,
      "learning_rate": 2e-05,
      "loss": 1.0519,
      "step": 358
    },
    {
      "epoch": 0.12392129789437349,
      "grad_norm": 2.054393768310547,
      "learning_rate": 2e-05,
      "loss": 1.0314,
      "step": 359
    },
    {
      "epoch": 0.12426648256817398,
      "grad_norm": 2.0708425045013428,
      "learning_rate": 2e-05,
      "loss": 0.9856,
      "step": 360
    },
    {
      "epoch": 0.12461166724197445,
      "grad_norm": 2.4350380897521973,
      "learning_rate": 2e-05,
      "loss": 0.9796,
      "step": 361
    },
    {
      "epoch": 0.12495685191577494,
      "grad_norm": 1.8085037469863892,
      "learning_rate": 2e-05,
      "loss": 0.9932,
      "step": 362
    },
    {
      "epoch": 0.12530203658957542,
      "grad_norm": 1.824069619178772,
      "learning_rate": 2e-05,
      "loss": 1.024,
      "step": 363
    },
    {
      "epoch": 0.1256472212633759,
      "grad_norm": 2.675426959991455,
      "learning_rate": 2e-05,
      "loss": 1.0231,
      "step": 364
    },
    {
      "epoch": 0.1259924059371764,
      "grad_norm": 2.127661943435669,
      "learning_rate": 2e-05,
      "loss": 1.043,
      "step": 365
    },
    {
      "epoch": 0.12633759061097688,
      "grad_norm": 1.9300974607467651,
      "learning_rate": 2e-05,
      "loss": 1.0163,
      "step": 366
    },
    {
      "epoch": 0.12668277528477737,
      "grad_norm": 1.984744668006897,
      "learning_rate": 2e-05,
      "loss": 1.0101,
      "step": 367
    },
    {
      "epoch": 0.12702795995857785,
      "grad_norm": 1.9173483848571777,
      "learning_rate": 2e-05,
      "loss": 1.0672,
      "step": 368
    },
    {
      "epoch": 0.1273731446323783,
      "grad_norm": 2.148045778274536,
      "learning_rate": 2e-05,
      "loss": 1.0037,
      "step": 369
    },
    {
      "epoch": 0.1277183293061788,
      "grad_norm": 2.0799989700317383,
      "learning_rate": 2e-05,
      "loss": 1.0067,
      "step": 370
    },
    {
      "epoch": 0.12806351397997928,
      "grad_norm": 1.5450844764709473,
      "learning_rate": 2e-05,
      "loss": 0.9314,
      "step": 371
    },
    {
      "epoch": 0.12840869865377977,
      "grad_norm": 2.0938477516174316,
      "learning_rate": 2e-05,
      "loss": 1.0326,
      "step": 372
    },
    {
      "epoch": 0.12875388332758025,
      "grad_norm": 2.148625612258911,
      "learning_rate": 2e-05,
      "loss": 1.006,
      "step": 373
    },
    {
      "epoch": 0.12909906800138074,
      "grad_norm": 1.964438796043396,
      "learning_rate": 2e-05,
      "loss": 0.9921,
      "step": 374
    },
    {
      "epoch": 0.12944425267518123,
      "grad_norm": 1.7084150314331055,
      "learning_rate": 2e-05,
      "loss": 1.0276,
      "step": 375
    },
    {
      "epoch": 0.1297894373489817,
      "grad_norm": 1.8643776178359985,
      "learning_rate": 2e-05,
      "loss": 1.071,
      "step": 376
    },
    {
      "epoch": 0.1301346220227822,
      "grad_norm": 1.9768637418746948,
      "learning_rate": 2e-05,
      "loss": 1.0634,
      "step": 377
    },
    {
      "epoch": 0.13047980669658268,
      "grad_norm": 1.8979171514511108,
      "learning_rate": 2e-05,
      "loss": 1.0746,
      "step": 378
    },
    {
      "epoch": 0.13082499137038314,
      "grad_norm": 2.2266244888305664,
      "learning_rate": 2e-05,
      "loss": 1.0139,
      "step": 379
    },
    {
      "epoch": 0.13117017604418363,
      "grad_norm": 2.767505645751953,
      "learning_rate": 2e-05,
      "loss": 1.0483,
      "step": 380
    },
    {
      "epoch": 0.13151536071798411,
      "grad_norm": 1.9986623525619507,
      "learning_rate": 2e-05,
      "loss": 1.0527,
      "step": 381
    },
    {
      "epoch": 0.1318605453917846,
      "grad_norm": 2.7748537063598633,
      "learning_rate": 2e-05,
      "loss": 1.0117,
      "step": 382
    },
    {
      "epoch": 0.1322057300655851,
      "grad_norm": 2.404034376144409,
      "learning_rate": 2e-05,
      "loss": 1.0509,
      "step": 383
    },
    {
      "epoch": 0.13255091473938557,
      "grad_norm": 1.8266741037368774,
      "learning_rate": 2e-05,
      "loss": 0.9569,
      "step": 384
    },
    {
      "epoch": 0.13289609941318606,
      "grad_norm": 1.6617871522903442,
      "learning_rate": 2e-05,
      "loss": 1.0284,
      "step": 385
    },
    {
      "epoch": 0.13324128408698654,
      "grad_norm": 2.1641674041748047,
      "learning_rate": 2e-05,
      "loss": 1.0185,
      "step": 386
    },
    {
      "epoch": 0.13358646876078703,
      "grad_norm": 2.230027675628662,
      "learning_rate": 2e-05,
      "loss": 1.0059,
      "step": 387
    },
    {
      "epoch": 0.13393165343458752,
      "grad_norm": 2.0304672718048096,
      "learning_rate": 2e-05,
      "loss": 0.9458,
      "step": 388
    },
    {
      "epoch": 0.13427683810838797,
      "grad_norm": 1.9289956092834473,
      "learning_rate": 2e-05,
      "loss": 0.9867,
      "step": 389
    },
    {
      "epoch": 0.13462202278218846,
      "grad_norm": 2.290512800216675,
      "learning_rate": 2e-05,
      "loss": 1.0438,
      "step": 390
    },
    {
      "epoch": 0.13496720745598895,
      "grad_norm": 1.9645930528640747,
      "learning_rate": 2e-05,
      "loss": 1.0647,
      "step": 391
    },
    {
      "epoch": 0.13531239212978943,
      "grad_norm": 1.9078412055969238,
      "learning_rate": 2e-05,
      "loss": 1.0219,
      "step": 392
    },
    {
      "epoch": 0.13565757680358992,
      "grad_norm": 1.8987268209457397,
      "learning_rate": 2e-05,
      "loss": 0.9697,
      "step": 393
    },
    {
      "epoch": 0.1360027614773904,
      "grad_norm": 1.8962979316711426,
      "learning_rate": 2e-05,
      "loss": 1.0337,
      "step": 394
    },
    {
      "epoch": 0.1363479461511909,
      "grad_norm": 1.955389380455017,
      "learning_rate": 2e-05,
      "loss": 0.9921,
      "step": 395
    },
    {
      "epoch": 0.13669313082499138,
      "grad_norm": 1.89638352394104,
      "learning_rate": 2e-05,
      "loss": 0.9957,
      "step": 396
    },
    {
      "epoch": 0.13703831549879186,
      "grad_norm": 1.949547290802002,
      "learning_rate": 2e-05,
      "loss": 1.0009,
      "step": 397
    },
    {
      "epoch": 0.13738350017259235,
      "grad_norm": 1.9283349514007568,
      "learning_rate": 2e-05,
      "loss": 0.9941,
      "step": 398
    },
    {
      "epoch": 0.1377286848463928,
      "grad_norm": 1.9636731147766113,
      "learning_rate": 2e-05,
      "loss": 0.9358,
      "step": 399
    },
    {
      "epoch": 0.1380738695201933,
      "grad_norm": 1.988175630569458,
      "learning_rate": 2e-05,
      "loss": 1.0143,
      "step": 400
    },
    {
      "epoch": 0.13841905419399378,
      "grad_norm": 3.700079917907715,
      "learning_rate": 2e-05,
      "loss": 1.0032,
      "step": 401
    },
    {
      "epoch": 0.13876423886779427,
      "grad_norm": 1.7401189804077148,
      "learning_rate": 2e-05,
      "loss": 0.9809,
      "step": 402
    },
    {
      "epoch": 0.13910942354159475,
      "grad_norm": 2.0770182609558105,
      "learning_rate": 2e-05,
      "loss": 0.9912,
      "step": 403
    },
    {
      "epoch": 0.13945460821539524,
      "grad_norm": 1.9828225374221802,
      "learning_rate": 2e-05,
      "loss": 0.9539,
      "step": 404
    },
    {
      "epoch": 0.13979979288919572,
      "grad_norm": 2.1846377849578857,
      "learning_rate": 2e-05,
      "loss": 1.0277,
      "step": 405
    },
    {
      "epoch": 0.1401449775629962,
      "grad_norm": 2.0720324516296387,
      "learning_rate": 2e-05,
      "loss": 0.9867,
      "step": 406
    },
    {
      "epoch": 0.1404901622367967,
      "grad_norm": 2.008073329925537,
      "learning_rate": 2e-05,
      "loss": 1.0534,
      "step": 407
    },
    {
      "epoch": 0.14083534691059718,
      "grad_norm": 1.7485285997390747,
      "learning_rate": 2e-05,
      "loss": 0.9596,
      "step": 408
    },
    {
      "epoch": 0.14118053158439764,
      "grad_norm": 1.7809031009674072,
      "learning_rate": 2e-05,
      "loss": 0.901,
      "step": 409
    },
    {
      "epoch": 0.14152571625819813,
      "grad_norm": 1.941487431526184,
      "learning_rate": 2e-05,
      "loss": 1.015,
      "step": 410
    },
    {
      "epoch": 0.1418709009319986,
      "grad_norm": 2.04276180267334,
      "learning_rate": 2e-05,
      "loss": 0.9139,
      "step": 411
    },
    {
      "epoch": 0.1422160856057991,
      "grad_norm": 1.9277434349060059,
      "learning_rate": 2e-05,
      "loss": 1.0199,
      "step": 412
    },
    {
      "epoch": 0.14256127027959958,
      "grad_norm": 1.8862082958221436,
      "learning_rate": 2e-05,
      "loss": 1.0346,
      "step": 413
    },
    {
      "epoch": 0.14290645495340007,
      "grad_norm": 2.0231850147247314,
      "learning_rate": 2e-05,
      "loss": 0.9775,
      "step": 414
    },
    {
      "epoch": 0.14325163962720056,
      "grad_norm": 1.9419363737106323,
      "learning_rate": 2e-05,
      "loss": 1.0278,
      "step": 415
    },
    {
      "epoch": 0.14359682430100104,
      "grad_norm": 2.052281618118286,
      "learning_rate": 2e-05,
      "loss": 0.989,
      "step": 416
    },
    {
      "epoch": 0.14394200897480153,
      "grad_norm": 2.1041719913482666,
      "learning_rate": 2e-05,
      "loss": 1.0169,
      "step": 417
    },
    {
      "epoch": 0.144287193648602,
      "grad_norm": 1.7935234308242798,
      "learning_rate": 2e-05,
      "loss": 0.9689,
      "step": 418
    },
    {
      "epoch": 0.14463237832240247,
      "grad_norm": 1.9612940549850464,
      "learning_rate": 2e-05,
      "loss": 1.0247,
      "step": 419
    },
    {
      "epoch": 0.14497756299620296,
      "grad_norm": 2.0655298233032227,
      "learning_rate": 2e-05,
      "loss": 0.9698,
      "step": 420
    },
    {
      "epoch": 0.14532274767000344,
      "grad_norm": 1.9818885326385498,
      "learning_rate": 2e-05,
      "loss": 0.993,
      "step": 421
    },
    {
      "epoch": 0.14566793234380393,
      "grad_norm": 1.8600380420684814,
      "learning_rate": 2e-05,
      "loss": 0.9699,
      "step": 422
    },
    {
      "epoch": 0.14601311701760442,
      "grad_norm": 1.8439067602157593,
      "learning_rate": 2e-05,
      "loss": 1.0416,
      "step": 423
    },
    {
      "epoch": 0.1463583016914049,
      "grad_norm": 1.8851103782653809,
      "learning_rate": 2e-05,
      "loss": 1.0046,
      "step": 424
    },
    {
      "epoch": 0.1467034863652054,
      "grad_norm": 1.8863391876220703,
      "learning_rate": 2e-05,
      "loss": 1.0108,
      "step": 425
    },
    {
      "epoch": 0.14704867103900587,
      "grad_norm": 1.9725341796875,
      "learning_rate": 2e-05,
      "loss": 0.973,
      "step": 426
    },
    {
      "epoch": 0.14739385571280636,
      "grad_norm": 1.8963711261749268,
      "learning_rate": 2e-05,
      "loss": 1.0043,
      "step": 427
    },
    {
      "epoch": 0.14773904038660685,
      "grad_norm": 1.9554258584976196,
      "learning_rate": 2e-05,
      "loss": 0.9763,
      "step": 428
    },
    {
      "epoch": 0.1480842250604073,
      "grad_norm": 1.8015611171722412,
      "learning_rate": 2e-05,
      "loss": 0.9258,
      "step": 429
    },
    {
      "epoch": 0.1484294097342078,
      "grad_norm": 1.798030138015747,
      "learning_rate": 2e-05,
      "loss": 1.0276,
      "step": 430
    },
    {
      "epoch": 0.14877459440800828,
      "grad_norm": 1.989066481590271,
      "learning_rate": 2e-05,
      "loss": 1.0152,
      "step": 431
    },
    {
      "epoch": 0.14911977908180876,
      "grad_norm": 1.7505500316619873,
      "learning_rate": 2e-05,
      "loss": 0.9626,
      "step": 432
    },
    {
      "epoch": 0.14946496375560925,
      "grad_norm": 1.805210828781128,
      "learning_rate": 2e-05,
      "loss": 1.0081,
      "step": 433
    },
    {
      "epoch": 0.14981014842940973,
      "grad_norm": 1.7437788248062134,
      "learning_rate": 2e-05,
      "loss": 0.9594,
      "step": 434
    },
    {
      "epoch": 0.15015533310321022,
      "grad_norm": 1.9620840549468994,
      "learning_rate": 2e-05,
      "loss": 0.9735,
      "step": 435
    },
    {
      "epoch": 0.1505005177770107,
      "grad_norm": 1.7169198989868164,
      "learning_rate": 2e-05,
      "loss": 1.0218,
      "step": 436
    },
    {
      "epoch": 0.1508457024508112,
      "grad_norm": 1.7955130338668823,
      "learning_rate": 2e-05,
      "loss": 1.0152,
      "step": 437
    },
    {
      "epoch": 0.15119088712461168,
      "grad_norm": 1.7508571147918701,
      "learning_rate": 2e-05,
      "loss": 1.0157,
      "step": 438
    },
    {
      "epoch": 0.15153607179841216,
      "grad_norm": 1.7915910482406616,
      "learning_rate": 2e-05,
      "loss": 0.9635,
      "step": 439
    },
    {
      "epoch": 0.15188125647221262,
      "grad_norm": 1.9122554063796997,
      "learning_rate": 2e-05,
      "loss": 0.9794,
      "step": 440
    },
    {
      "epoch": 0.1522264411460131,
      "grad_norm": 1.9118950366973877,
      "learning_rate": 2e-05,
      "loss": 1.0267,
      "step": 441
    },
    {
      "epoch": 0.1525716258198136,
      "grad_norm": 2.0399434566497803,
      "learning_rate": 2e-05,
      "loss": 0.9489,
      "step": 442
    },
    {
      "epoch": 0.15291681049361408,
      "grad_norm": 1.8079497814178467,
      "learning_rate": 2e-05,
      "loss": 0.918,
      "step": 443
    },
    {
      "epoch": 0.15326199516741457,
      "grad_norm": 2.0133776664733887,
      "learning_rate": 2e-05,
      "loss": 1.0247,
      "step": 444
    },
    {
      "epoch": 0.15360717984121505,
      "grad_norm": 1.708000659942627,
      "learning_rate": 2e-05,
      "loss": 0.9877,
      "step": 445
    },
    {
      "epoch": 0.15395236451501554,
      "grad_norm": 2.8612570762634277,
      "learning_rate": 2e-05,
      "loss": 0.9431,
      "step": 446
    },
    {
      "epoch": 0.15429754918881602,
      "grad_norm": 1.9113045930862427,
      "learning_rate": 2e-05,
      "loss": 1.0209,
      "step": 447
    },
    {
      "epoch": 0.1546427338626165,
      "grad_norm": 1.9729554653167725,
      "learning_rate": 2e-05,
      "loss": 1.0083,
      "step": 448
    },
    {
      "epoch": 0.154987918536417,
      "grad_norm": 1.7863906621932983,
      "learning_rate": 2e-05,
      "loss": 0.9785,
      "step": 449
    },
    {
      "epoch": 0.15533310321021745,
      "grad_norm": 1.834122896194458,
      "learning_rate": 2e-05,
      "loss": 1.0116,
      "step": 450
    },
    {
      "epoch": 0.15567828788401794,
      "grad_norm": 1.78994882106781,
      "learning_rate": 2e-05,
      "loss": 0.9919,
      "step": 451
    },
    {
      "epoch": 0.15602347255781843,
      "grad_norm": 1.75197434425354,
      "learning_rate": 2e-05,
      "loss": 0.9562,
      "step": 452
    },
    {
      "epoch": 0.1563686572316189,
      "grad_norm": 1.8412542343139648,
      "learning_rate": 2e-05,
      "loss": 0.958,
      "step": 453
    },
    {
      "epoch": 0.1567138419054194,
      "grad_norm": 1.835324764251709,
      "learning_rate": 2e-05,
      "loss": 1.0405,
      "step": 454
    },
    {
      "epoch": 0.15705902657921988,
      "grad_norm": 1.9802517890930176,
      "learning_rate": 2e-05,
      "loss": 1.0106,
      "step": 455
    },
    {
      "epoch": 0.15740421125302037,
      "grad_norm": 1.9370285272598267,
      "learning_rate": 2e-05,
      "loss": 0.9831,
      "step": 456
    },
    {
      "epoch": 0.15774939592682086,
      "grad_norm": 1.7783889770507812,
      "learning_rate": 2e-05,
      "loss": 0.9671,
      "step": 457
    },
    {
      "epoch": 0.15809458060062134,
      "grad_norm": 2.029588460922241,
      "learning_rate": 2e-05,
      "loss": 0.9721,
      "step": 458
    },
    {
      "epoch": 0.15843976527442183,
      "grad_norm": 2.1747827529907227,
      "learning_rate": 2e-05,
      "loss": 1.0175,
      "step": 459
    },
    {
      "epoch": 0.1587849499482223,
      "grad_norm": 1.686989188194275,
      "learning_rate": 2e-05,
      "loss": 0.8473,
      "step": 460
    },
    {
      "epoch": 0.15913013462202277,
      "grad_norm": 2.0917375087738037,
      "learning_rate": 2e-05,
      "loss": 0.9891,
      "step": 461
    },
    {
      "epoch": 0.15947531929582326,
      "grad_norm": 2.1684677600860596,
      "learning_rate": 2e-05,
      "loss": 1.0662,
      "step": 462
    },
    {
      "epoch": 0.15982050396962375,
      "grad_norm": 1.7718673944473267,
      "learning_rate": 2e-05,
      "loss": 0.9163,
      "step": 463
    },
    {
      "epoch": 0.16016568864342423,
      "grad_norm": 2.3066091537475586,
      "learning_rate": 2e-05,
      "loss": 0.8755,
      "step": 464
    },
    {
      "epoch": 0.16051087331722472,
      "grad_norm": 1.7189663648605347,
      "learning_rate": 2e-05,
      "loss": 0.988,
      "step": 465
    },
    {
      "epoch": 0.1608560579910252,
      "grad_norm": 1.8097484111785889,
      "learning_rate": 2e-05,
      "loss": 1.0246,
      "step": 466
    },
    {
      "epoch": 0.1612012426648257,
      "grad_norm": 1.7880991697311401,
      "learning_rate": 2e-05,
      "loss": 0.9776,
      "step": 467
    },
    {
      "epoch": 0.16154642733862618,
      "grad_norm": 1.6561658382415771,
      "learning_rate": 2e-05,
      "loss": 0.9556,
      "step": 468
    },
    {
      "epoch": 0.16189161201242666,
      "grad_norm": 1.8971339464187622,
      "learning_rate": 2e-05,
      "loss": 1.0484,
      "step": 469
    },
    {
      "epoch": 0.16223679668622712,
      "grad_norm": 2.243511915206909,
      "learning_rate": 2e-05,
      "loss": 1.0367,
      "step": 470
    },
    {
      "epoch": 0.1625819813600276,
      "grad_norm": 1.692306399345398,
      "learning_rate": 2e-05,
      "loss": 0.9451,
      "step": 471
    },
    {
      "epoch": 0.1629271660338281,
      "grad_norm": 1.8681774139404297,
      "learning_rate": 2e-05,
      "loss": 1.0005,
      "step": 472
    },
    {
      "epoch": 0.16327235070762858,
      "grad_norm": 1.9061826467514038,
      "learning_rate": 2e-05,
      "loss": 0.977,
      "step": 473
    },
    {
      "epoch": 0.16361753538142906,
      "grad_norm": 1.8971025943756104,
      "learning_rate": 2e-05,
      "loss": 0.9634,
      "step": 474
    },
    {
      "epoch": 0.16396272005522955,
      "grad_norm": 1.9363058805465698,
      "learning_rate": 2e-05,
      "loss": 0.9951,
      "step": 475
    },
    {
      "epoch": 0.16430790472903004,
      "grad_norm": 1.7034854888916016,
      "learning_rate": 2e-05,
      "loss": 1.0549,
      "step": 476
    },
    {
      "epoch": 0.16465308940283052,
      "grad_norm": 1.768808364868164,
      "learning_rate": 2e-05,
      "loss": 0.9632,
      "step": 477
    },
    {
      "epoch": 0.164998274076631,
      "grad_norm": 2.002805471420288,
      "learning_rate": 2e-05,
      "loss": 0.9811,
      "step": 478
    },
    {
      "epoch": 0.1653434587504315,
      "grad_norm": 2.1307835578918457,
      "learning_rate": 2e-05,
      "loss": 0.9379,
      "step": 479
    },
    {
      "epoch": 0.16568864342423195,
      "grad_norm": 1.944579005241394,
      "learning_rate": 2e-05,
      "loss": 1.0082,
      "step": 480
    },
    {
      "epoch": 0.16603382809803244,
      "grad_norm": 1.9522337913513184,
      "learning_rate": 2e-05,
      "loss": 0.9292,
      "step": 481
    },
    {
      "epoch": 0.16637901277183292,
      "grad_norm": 1.8480734825134277,
      "learning_rate": 2e-05,
      "loss": 1.0149,
      "step": 482
    },
    {
      "epoch": 0.1667241974456334,
      "grad_norm": 1.8783234357833862,
      "learning_rate": 2e-05,
      "loss": 1.0015,
      "step": 483
    },
    {
      "epoch": 0.1670693821194339,
      "grad_norm": 1.8167026042938232,
      "learning_rate": 2e-05,
      "loss": 1.0144,
      "step": 484
    },
    {
      "epoch": 0.16741456679323438,
      "grad_norm": 1.9404585361480713,
      "learning_rate": 2e-05,
      "loss": 1.0473,
      "step": 485
    },
    {
      "epoch": 0.16775975146703487,
      "grad_norm": 1.7782187461853027,
      "learning_rate": 2e-05,
      "loss": 0.9862,
      "step": 486
    },
    {
      "epoch": 0.16810493614083535,
      "grad_norm": 1.8282090425491333,
      "learning_rate": 2e-05,
      "loss": 0.9692,
      "step": 487
    },
    {
      "epoch": 0.16845012081463584,
      "grad_norm": 2.0017974376678467,
      "learning_rate": 2e-05,
      "loss": 0.9859,
      "step": 488
    },
    {
      "epoch": 0.16879530548843633,
      "grad_norm": 1.8540397882461548,
      "learning_rate": 2e-05,
      "loss": 0.9618,
      "step": 489
    },
    {
      "epoch": 0.16914049016223678,
      "grad_norm": 1.848656415939331,
      "learning_rate": 2e-05,
      "loss": 0.9297,
      "step": 490
    },
    {
      "epoch": 0.16948567483603727,
      "grad_norm": 1.8251721858978271,
      "learning_rate": 2e-05,
      "loss": 1.0148,
      "step": 491
    },
    {
      "epoch": 0.16983085950983776,
      "grad_norm": 1.84182608127594,
      "learning_rate": 2e-05,
      "loss": 0.9766,
      "step": 492
    },
    {
      "epoch": 0.17017604418363824,
      "grad_norm": 1.9774746894836426,
      "learning_rate": 2e-05,
      "loss": 1.0387,
      "step": 493
    },
    {
      "epoch": 0.17052122885743873,
      "grad_norm": 1.8130301237106323,
      "learning_rate": 2e-05,
      "loss": 0.8676,
      "step": 494
    },
    {
      "epoch": 0.17086641353123921,
      "grad_norm": 1.987480878829956,
      "learning_rate": 2e-05,
      "loss": 1.0048,
      "step": 495
    },
    {
      "epoch": 0.1712115982050397,
      "grad_norm": 1.9262433052062988,
      "learning_rate": 2e-05,
      "loss": 1.0175,
      "step": 496
    },
    {
      "epoch": 0.17155678287884019,
      "grad_norm": 1.8977035284042358,
      "learning_rate": 2e-05,
      "loss": 0.9327,
      "step": 497
    },
    {
      "epoch": 0.17190196755264067,
      "grad_norm": 1.955051302909851,
      "learning_rate": 2e-05,
      "loss": 1.0237,
      "step": 498
    },
    {
      "epoch": 0.17224715222644116,
      "grad_norm": 1.9467777013778687,
      "learning_rate": 2e-05,
      "loss": 0.9421,
      "step": 499
    },
    {
      "epoch": 0.17259233690024162,
      "grad_norm": 1.7480354309082031,
      "learning_rate": 2e-05,
      "loss": 0.9468,
      "step": 500
    },
    {
      "epoch": 0.1729375215740421,
      "grad_norm": 1.8241736888885498,
      "learning_rate": 2e-05,
      "loss": 1.0302,
      "step": 501
    },
    {
      "epoch": 0.1732827062478426,
      "grad_norm": 1.9474701881408691,
      "learning_rate": 2e-05,
      "loss": 0.9348,
      "step": 502
    },
    {
      "epoch": 0.17362789092164307,
      "grad_norm": 3.8794655799865723,
      "learning_rate": 2e-05,
      "loss": 0.9469,
      "step": 503
    },
    {
      "epoch": 0.17397307559544356,
      "grad_norm": 1.8369200229644775,
      "learning_rate": 2e-05,
      "loss": 1.0089,
      "step": 504
    },
    {
      "epoch": 0.17431826026924405,
      "grad_norm": 1.978410243988037,
      "learning_rate": 2e-05,
      "loss": 0.9513,
      "step": 505
    },
    {
      "epoch": 0.17466344494304453,
      "grad_norm": 1.8215962648391724,
      "learning_rate": 2e-05,
      "loss": 1.0027,
      "step": 506
    },
    {
      "epoch": 0.17500862961684502,
      "grad_norm": 2.0822768211364746,
      "learning_rate": 2e-05,
      "loss": 0.9163,
      "step": 507
    },
    {
      "epoch": 0.1753538142906455,
      "grad_norm": 1.9336357116699219,
      "learning_rate": 2e-05,
      "loss": 0.9545,
      "step": 508
    },
    {
      "epoch": 0.175698998964446,
      "grad_norm": 1.7150814533233643,
      "learning_rate": 2e-05,
      "loss": 1.0166,
      "step": 509
    },
    {
      "epoch": 0.17604418363824645,
      "grad_norm": 2.2125966548919678,
      "learning_rate": 2e-05,
      "loss": 1.0112,
      "step": 510
    },
    {
      "epoch": 0.17638936831204693,
      "grad_norm": 1.9416768550872803,
      "learning_rate": 2e-05,
      "loss": 1.0636,
      "step": 511
    },
    {
      "epoch": 0.17673455298584742,
      "grad_norm": 2.351174831390381,
      "learning_rate": 2e-05,
      "loss": 1.1013,
      "step": 512
    },
    {
      "epoch": 0.1770797376596479,
      "grad_norm": 1.7502448558807373,
      "learning_rate": 2e-05,
      "loss": 1.0309,
      "step": 513
    },
    {
      "epoch": 0.1774249223334484,
      "grad_norm": 1.9532209634780884,
      "learning_rate": 2e-05,
      "loss": 1.011,
      "step": 514
    },
    {
      "epoch": 0.17777010700724888,
      "grad_norm": 1.607026219367981,
      "learning_rate": 2e-05,
      "loss": 0.9655,
      "step": 515
    },
    {
      "epoch": 0.17811529168104936,
      "grad_norm": 1.8020447492599487,
      "learning_rate": 2e-05,
      "loss": 1.1234,
      "step": 516
    },
    {
      "epoch": 0.17846047635484985,
      "grad_norm": 1.7421331405639648,
      "learning_rate": 2e-05,
      "loss": 0.9701,
      "step": 517
    },
    {
      "epoch": 0.17880566102865034,
      "grad_norm": 1.955671787261963,
      "learning_rate": 2e-05,
      "loss": 0.9801,
      "step": 518
    },
    {
      "epoch": 0.17915084570245082,
      "grad_norm": 1.9366713762283325,
      "learning_rate": 2e-05,
      "loss": 1.068,
      "step": 519
    },
    {
      "epoch": 0.17949603037625128,
      "grad_norm": 1.8221323490142822,
      "learning_rate": 2e-05,
      "loss": 0.9617,
      "step": 520
    },
    {
      "epoch": 0.17984121505005177,
      "grad_norm": 1.9764049053192139,
      "learning_rate": 2e-05,
      "loss": 0.9905,
      "step": 521
    },
    {
      "epoch": 0.18018639972385225,
      "grad_norm": 1.9731082916259766,
      "learning_rate": 2e-05,
      "loss": 0.8959,
      "step": 522
    },
    {
      "epoch": 0.18053158439765274,
      "grad_norm": 1.8409956693649292,
      "learning_rate": 2e-05,
      "loss": 1.0071,
      "step": 523
    },
    {
      "epoch": 0.18087676907145323,
      "grad_norm": 2.0879194736480713,
      "learning_rate": 2e-05,
      "loss": 1.0887,
      "step": 524
    },
    {
      "epoch": 0.1812219537452537,
      "grad_norm": 1.9950392246246338,
      "learning_rate": 2e-05,
      "loss": 1.0518,
      "step": 525
    },
    {
      "epoch": 0.1815671384190542,
      "grad_norm": 1.9359629154205322,
      "learning_rate": 2e-05,
      "loss": 0.9284,
      "step": 526
    },
    {
      "epoch": 0.18191232309285468,
      "grad_norm": 1.8083279132843018,
      "learning_rate": 2e-05,
      "loss": 0.9626,
      "step": 527
    },
    {
      "epoch": 0.18225750776665517,
      "grad_norm": 1.8995139598846436,
      "learning_rate": 2e-05,
      "loss": 1.0653,
      "step": 528
    },
    {
      "epoch": 0.18260269244045566,
      "grad_norm": 1.8402221202850342,
      "learning_rate": 2e-05,
      "loss": 1.0167,
      "step": 529
    },
    {
      "epoch": 0.1829478771142561,
      "grad_norm": 1.8456122875213623,
      "learning_rate": 2e-05,
      "loss": 1.0094,
      "step": 530
    },
    {
      "epoch": 0.1832930617880566,
      "grad_norm": 1.8030531406402588,
      "learning_rate": 2e-05,
      "loss": 0.9756,
      "step": 531
    },
    {
      "epoch": 0.18363824646185709,
      "grad_norm": 1.9745162725448608,
      "learning_rate": 2e-05,
      "loss": 0.9858,
      "step": 532
    },
    {
      "epoch": 0.18398343113565757,
      "grad_norm": 1.7643399238586426,
      "learning_rate": 2e-05,
      "loss": 1.0337,
      "step": 533
    },
    {
      "epoch": 0.18432861580945806,
      "grad_norm": 1.9381707906723022,
      "learning_rate": 2e-05,
      "loss": 1.0522,
      "step": 534
    },
    {
      "epoch": 0.18467380048325854,
      "grad_norm": 1.9115724563598633,
      "learning_rate": 2e-05,
      "loss": 0.9142,
      "step": 535
    },
    {
      "epoch": 0.18501898515705903,
      "grad_norm": 1.718685507774353,
      "learning_rate": 2e-05,
      "loss": 0.9398,
      "step": 536
    },
    {
      "epoch": 0.18536416983085952,
      "grad_norm": 1.9832113981246948,
      "learning_rate": 2e-05,
      "loss": 0.9009,
      "step": 537
    },
    {
      "epoch": 0.18570935450466,
      "grad_norm": 1.7210725545883179,
      "learning_rate": 2e-05,
      "loss": 0.9163,
      "step": 538
    },
    {
      "epoch": 0.1860545391784605,
      "grad_norm": 1.7867950201034546,
      "learning_rate": 2e-05,
      "loss": 0.9385,
      "step": 539
    },
    {
      "epoch": 0.18639972385226097,
      "grad_norm": 1.7639451026916504,
      "learning_rate": 2e-05,
      "loss": 0.9628,
      "step": 540
    },
    {
      "epoch": 0.18674490852606143,
      "grad_norm": 1.7130681276321411,
      "learning_rate": 2e-05,
      "loss": 1.0034,
      "step": 541
    },
    {
      "epoch": 0.18709009319986192,
      "grad_norm": 1.872327208518982,
      "learning_rate": 2e-05,
      "loss": 1.0531,
      "step": 542
    },
    {
      "epoch": 0.1874352778736624,
      "grad_norm": 1.8734036684036255,
      "learning_rate": 2e-05,
      "loss": 1.0669,
      "step": 543
    },
    {
      "epoch": 0.1877804625474629,
      "grad_norm": 1.8868738412857056,
      "learning_rate": 2e-05,
      "loss": 1.0207,
      "step": 544
    },
    {
      "epoch": 0.18812564722126338,
      "grad_norm": 2.1517584323883057,
      "learning_rate": 2e-05,
      "loss": 0.9915,
      "step": 545
    },
    {
      "epoch": 0.18847083189506386,
      "grad_norm": 1.9018532037734985,
      "learning_rate": 2e-05,
      "loss": 0.9622,
      "step": 546
    },
    {
      "epoch": 0.18881601656886435,
      "grad_norm": 1.9562731981277466,
      "learning_rate": 2e-05,
      "loss": 0.9878,
      "step": 547
    },
    {
      "epoch": 0.18916120124266483,
      "grad_norm": 2.049401044845581,
      "learning_rate": 2e-05,
      "loss": 0.9626,
      "step": 548
    },
    {
      "epoch": 0.18950638591646532,
      "grad_norm": 2.0909905433654785,
      "learning_rate": 2e-05,
      "loss": 1.0714,
      "step": 549
    },
    {
      "epoch": 0.1898515705902658,
      "grad_norm": 2.006314754486084,
      "learning_rate": 2e-05,
      "loss": 1.0382,
      "step": 550
    },
    {
      "epoch": 0.19019675526406626,
      "grad_norm": 3.2776713371276855,
      "learning_rate": 2e-05,
      "loss": 1.0598,
      "step": 551
    },
    {
      "epoch": 0.19054193993786675,
      "grad_norm": 1.798421859741211,
      "learning_rate": 2e-05,
      "loss": 0.8935,
      "step": 552
    },
    {
      "epoch": 0.19088712461166724,
      "grad_norm": 1.7902554273605347,
      "learning_rate": 2e-05,
      "loss": 0.9895,
      "step": 553
    },
    {
      "epoch": 0.19123230928546772,
      "grad_norm": 2.0086610317230225,
      "learning_rate": 2e-05,
      "loss": 0.9428,
      "step": 554
    },
    {
      "epoch": 0.1915774939592682,
      "grad_norm": 1.7480082511901855,
      "learning_rate": 2e-05,
      "loss": 0.9595,
      "step": 555
    },
    {
      "epoch": 0.1919226786330687,
      "grad_norm": 3.485732078552246,
      "learning_rate": 2e-05,
      "loss": 0.9498,
      "step": 556
    },
    {
      "epoch": 0.19226786330686918,
      "grad_norm": 1.9598274230957031,
      "learning_rate": 2e-05,
      "loss": 0.9638,
      "step": 557
    },
    {
      "epoch": 0.19261304798066967,
      "grad_norm": 1.8408749103546143,
      "learning_rate": 2e-05,
      "loss": 0.932,
      "step": 558
    },
    {
      "epoch": 0.19295823265447015,
      "grad_norm": 1.9857864379882812,
      "learning_rate": 2e-05,
      "loss": 1.0111,
      "step": 559
    },
    {
      "epoch": 0.19330341732827064,
      "grad_norm": 1.9467519521713257,
      "learning_rate": 2e-05,
      "loss": 1.012,
      "step": 560
    },
    {
      "epoch": 0.1936486020020711,
      "grad_norm": 1.8841748237609863,
      "learning_rate": 2e-05,
      "loss": 0.9868,
      "step": 561
    },
    {
      "epoch": 0.19399378667587158,
      "grad_norm": 1.8785362243652344,
      "learning_rate": 2e-05,
      "loss": 0.9281,
      "step": 562
    },
    {
      "epoch": 0.19433897134967207,
      "grad_norm": 1.8642878532409668,
      "learning_rate": 2e-05,
      "loss": 1.0245,
      "step": 563
    },
    {
      "epoch": 0.19468415602347255,
      "grad_norm": 1.7851183414459229,
      "learning_rate": 2e-05,
      "loss": 0.8646,
      "step": 564
    },
    {
      "epoch": 0.19502934069727304,
      "grad_norm": 1.768984079360962,
      "learning_rate": 2e-05,
      "loss": 0.9925,
      "step": 565
    },
    {
      "epoch": 0.19537452537107353,
      "grad_norm": 2.008229970932007,
      "learning_rate": 2e-05,
      "loss": 1.0027,
      "step": 566
    },
    {
      "epoch": 0.195719710044874,
      "grad_norm": 1.7181416749954224,
      "learning_rate": 2e-05,
      "loss": 0.9368,
      "step": 567
    },
    {
      "epoch": 0.1960648947186745,
      "grad_norm": 3.3756608963012695,
      "learning_rate": 2e-05,
      "loss": 0.9934,
      "step": 568
    },
    {
      "epoch": 0.19641007939247498,
      "grad_norm": 1.853429913520813,
      "learning_rate": 2e-05,
      "loss": 0.9384,
      "step": 569
    },
    {
      "epoch": 0.19675526406627547,
      "grad_norm": 1.8626399040222168,
      "learning_rate": 2e-05,
      "loss": 0.979,
      "step": 570
    },
    {
      "epoch": 0.19710044874007593,
      "grad_norm": 1.994254231452942,
      "learning_rate": 2e-05,
      "loss": 0.9143,
      "step": 571
    },
    {
      "epoch": 0.19744563341387641,
      "grad_norm": 4.6400861740112305,
      "learning_rate": 2e-05,
      "loss": 0.9844,
      "step": 572
    },
    {
      "epoch": 0.1977908180876769,
      "grad_norm": 1.7284791469573975,
      "learning_rate": 2e-05,
      "loss": 0.9309,
      "step": 573
    },
    {
      "epoch": 0.1981360027614774,
      "grad_norm": 1.7410945892333984,
      "learning_rate": 2e-05,
      "loss": 0.9495,
      "step": 574
    },
    {
      "epoch": 0.19848118743527787,
      "grad_norm": 1.8936198949813843,
      "learning_rate": 2e-05,
      "loss": 0.9256,
      "step": 575
    },
    {
      "epoch": 0.19882637210907836,
      "grad_norm": 1.8987468481063843,
      "learning_rate": 2e-05,
      "loss": 0.9167,
      "step": 576
    },
    {
      "epoch": 0.19917155678287884,
      "grad_norm": 1.562294602394104,
      "learning_rate": 2e-05,
      "loss": 0.9001,
      "step": 577
    },
    {
      "epoch": 0.19951674145667933,
      "grad_norm": 1.8768669366836548,
      "learning_rate": 2e-05,
      "loss": 0.9402,
      "step": 578
    },
    {
      "epoch": 0.19986192613047982,
      "grad_norm": 5.918983459472656,
      "learning_rate": 2e-05,
      "loss": 0.9048,
      "step": 579
    },
    {
      "epoch": 0.2002071108042803,
      "grad_norm": 2.3079235553741455,
      "learning_rate": 2e-05,
      "loss": 0.9528,
      "step": 580
    },
    {
      "epoch": 0.20055229547808076,
      "grad_norm": 2.0658676624298096,
      "learning_rate": 2e-05,
      "loss": 0.9182,
      "step": 581
    },
    {
      "epoch": 0.20089748015188125,
      "grad_norm": 1.7358447313308716,
      "learning_rate": 2e-05,
      "loss": 1.021,
      "step": 582
    },
    {
      "epoch": 0.20124266482568173,
      "grad_norm": 1.9200198650360107,
      "learning_rate": 2e-05,
      "loss": 0.9035,
      "step": 583
    },
    {
      "epoch": 0.20158784949948222,
      "grad_norm": 1.811689019203186,
      "learning_rate": 2e-05,
      "loss": 0.8721,
      "step": 584
    },
    {
      "epoch": 0.2019330341732827,
      "grad_norm": 1.8374279737472534,
      "learning_rate": 2e-05,
      "loss": 1.0171,
      "step": 585
    },
    {
      "epoch": 0.2022782188470832,
      "grad_norm": 1.793975591659546,
      "learning_rate": 2e-05,
      "loss": 0.9927,
      "step": 586
    },
    {
      "epoch": 0.20262340352088368,
      "grad_norm": 1.6837302446365356,
      "learning_rate": 2e-05,
      "loss": 0.949,
      "step": 587
    },
    {
      "epoch": 0.20296858819468416,
      "grad_norm": 3.0887913703918457,
      "learning_rate": 2e-05,
      "loss": 1.0262,
      "step": 588
    },
    {
      "epoch": 0.20331377286848465,
      "grad_norm": 1.7894266843795776,
      "learning_rate": 2e-05,
      "loss": 0.9647,
      "step": 589
    },
    {
      "epoch": 0.20365895754228514,
      "grad_norm": 1.7858067750930786,
      "learning_rate": 2e-05,
      "loss": 0.9771,
      "step": 590
    },
    {
      "epoch": 0.2040041422160856,
      "grad_norm": 1.6570981740951538,
      "learning_rate": 2e-05,
      "loss": 0.9162,
      "step": 591
    },
    {
      "epoch": 0.20434932688988608,
      "grad_norm": 1.6933810710906982,
      "learning_rate": 2e-05,
      "loss": 0.944,
      "step": 592
    },
    {
      "epoch": 0.20469451156368657,
      "grad_norm": 1.7173789739608765,
      "learning_rate": 2e-05,
      "loss": 1.0037,
      "step": 593
    },
    {
      "epoch": 0.20503969623748705,
      "grad_norm": 2.1869938373565674,
      "learning_rate": 2e-05,
      "loss": 0.9036,
      "step": 594
    },
    {
      "epoch": 0.20538488091128754,
      "grad_norm": 1.7724378108978271,
      "learning_rate": 2e-05,
      "loss": 0.967,
      "step": 595
    },
    {
      "epoch": 0.20573006558508802,
      "grad_norm": 1.7970529794692993,
      "learning_rate": 2e-05,
      "loss": 0.9555,
      "step": 596
    },
    {
      "epoch": 0.2060752502588885,
      "grad_norm": 1.699947476387024,
      "learning_rate": 2e-05,
      "loss": 0.8565,
      "step": 597
    },
    {
      "epoch": 0.206420434932689,
      "grad_norm": 1.7085161209106445,
      "learning_rate": 2e-05,
      "loss": 0.9417,
      "step": 598
    },
    {
      "epoch": 0.20676561960648948,
      "grad_norm": 1.78633451461792,
      "learning_rate": 2e-05,
      "loss": 1.0238,
      "step": 599
    },
    {
      "epoch": 0.20711080428028997,
      "grad_norm": 1.875192403793335,
      "learning_rate": 2e-05,
      "loss": 0.9575,
      "step": 600
    },
    {
      "epoch": 0.20745598895409043,
      "grad_norm": 1.7347480058670044,
      "learning_rate": 2e-05,
      "loss": 0.9826,
      "step": 601
    },
    {
      "epoch": 0.2078011736278909,
      "grad_norm": 1.7980979681015015,
      "learning_rate": 2e-05,
      "loss": 0.9445,
      "step": 602
    },
    {
      "epoch": 0.2081463583016914,
      "grad_norm": 1.879648208618164,
      "learning_rate": 2e-05,
      "loss": 0.9538,
      "step": 603
    },
    {
      "epoch": 0.20849154297549188,
      "grad_norm": 1.876985788345337,
      "learning_rate": 2e-05,
      "loss": 0.9867,
      "step": 604
    },
    {
      "epoch": 0.20883672764929237,
      "grad_norm": 1.6838924884796143,
      "learning_rate": 2e-05,
      "loss": 0.9112,
      "step": 605
    },
    {
      "epoch": 0.20918191232309286,
      "grad_norm": 1.7551112174987793,
      "learning_rate": 2e-05,
      "loss": 0.9535,
      "step": 606
    },
    {
      "epoch": 0.20952709699689334,
      "grad_norm": 1.9521592855453491,
      "learning_rate": 2e-05,
      "loss": 0.8873,
      "step": 607
    },
    {
      "epoch": 0.20987228167069383,
      "grad_norm": 1.963653802871704,
      "learning_rate": 2e-05,
      "loss": 1.0226,
      "step": 608
    },
    {
      "epoch": 0.2102174663444943,
      "grad_norm": 1.8531434535980225,
      "learning_rate": 2e-05,
      "loss": 0.9903,
      "step": 609
    },
    {
      "epoch": 0.2105626510182948,
      "grad_norm": 1.847257137298584,
      "learning_rate": 2e-05,
      "loss": 0.9529,
      "step": 610
    },
    {
      "epoch": 0.21090783569209526,
      "grad_norm": 1.6460868120193481,
      "learning_rate": 2e-05,
      "loss": 0.9071,
      "step": 611
    },
    {
      "epoch": 0.21125302036589574,
      "grad_norm": 1.652666449546814,
      "learning_rate": 2e-05,
      "loss": 0.9661,
      "step": 612
    },
    {
      "epoch": 0.21159820503969623,
      "grad_norm": 1.817264199256897,
      "learning_rate": 2e-05,
      "loss": 0.9367,
      "step": 613
    },
    {
      "epoch": 0.21194338971349672,
      "grad_norm": 1.8240456581115723,
      "learning_rate": 2e-05,
      "loss": 0.9783,
      "step": 614
    },
    {
      "epoch": 0.2122885743872972,
      "grad_norm": 1.7032090425491333,
      "learning_rate": 2e-05,
      "loss": 0.923,
      "step": 615
    },
    {
      "epoch": 0.2126337590610977,
      "grad_norm": 1.5968724489212036,
      "learning_rate": 2e-05,
      "loss": 0.8963,
      "step": 616
    },
    {
      "epoch": 0.21297894373489817,
      "grad_norm": 1.8011481761932373,
      "learning_rate": 2e-05,
      "loss": 0.9966,
      "step": 617
    },
    {
      "epoch": 0.21332412840869866,
      "grad_norm": 1.6756153106689453,
      "learning_rate": 2e-05,
      "loss": 0.9442,
      "step": 618
    },
    {
      "epoch": 0.21366931308249915,
      "grad_norm": 1.9339874982833862,
      "learning_rate": 2e-05,
      "loss": 1.0488,
      "step": 619
    },
    {
      "epoch": 0.21401449775629963,
      "grad_norm": 1.896833896636963,
      "learning_rate": 2e-05,
      "loss": 0.9623,
      "step": 620
    },
    {
      "epoch": 0.2143596824301001,
      "grad_norm": 1.8234562873840332,
      "learning_rate": 2e-05,
      "loss": 0.9437,
      "step": 621
    },
    {
      "epoch": 0.21470486710390058,
      "grad_norm": 1.7837271690368652,
      "learning_rate": 2e-05,
      "loss": 0.9726,
      "step": 622
    },
    {
      "epoch": 0.21505005177770106,
      "grad_norm": 1.661525845527649,
      "learning_rate": 2e-05,
      "loss": 1.0058,
      "step": 623
    },
    {
      "epoch": 0.21539523645150155,
      "grad_norm": 1.8720719814300537,
      "learning_rate": 2e-05,
      "loss": 0.9022,
      "step": 624
    },
    {
      "epoch": 0.21574042112530203,
      "grad_norm": 1.767267107963562,
      "learning_rate": 2e-05,
      "loss": 1.0418,
      "step": 625
    },
    {
      "epoch": 0.21608560579910252,
      "grad_norm": 1.9188283681869507,
      "learning_rate": 2e-05,
      "loss": 0.9585,
      "step": 626
    },
    {
      "epoch": 0.216430790472903,
      "grad_norm": 1.827047348022461,
      "learning_rate": 2e-05,
      "loss": 0.9868,
      "step": 627
    },
    {
      "epoch": 0.2167759751467035,
      "grad_norm": 1.7124732732772827,
      "learning_rate": 2e-05,
      "loss": 1.0239,
      "step": 628
    },
    {
      "epoch": 0.21712115982050398,
      "grad_norm": 1.7362115383148193,
      "learning_rate": 2e-05,
      "loss": 0.9693,
      "step": 629
    },
    {
      "epoch": 0.21746634449430446,
      "grad_norm": 1.7512201070785522,
      "learning_rate": 2e-05,
      "loss": 0.9334,
      "step": 630
    },
    {
      "epoch": 0.21781152916810492,
      "grad_norm": 1.6031123399734497,
      "learning_rate": 2e-05,
      "loss": 0.9221,
      "step": 631
    },
    {
      "epoch": 0.2181567138419054,
      "grad_norm": 1.7011840343475342,
      "learning_rate": 2e-05,
      "loss": 0.9383,
      "step": 632
    },
    {
      "epoch": 0.2185018985157059,
      "grad_norm": 1.9012757539749146,
      "learning_rate": 2e-05,
      "loss": 0.9804,
      "step": 633
    },
    {
      "epoch": 0.21884708318950638,
      "grad_norm": 1.7027804851531982,
      "learning_rate": 2e-05,
      "loss": 0.9185,
      "step": 634
    },
    {
      "epoch": 0.21919226786330687,
      "grad_norm": 1.6549376249313354,
      "learning_rate": 2e-05,
      "loss": 0.9549,
      "step": 635
    },
    {
      "epoch": 0.21953745253710735,
      "grad_norm": 1.726919412612915,
      "learning_rate": 2e-05,
      "loss": 0.9505,
      "step": 636
    },
    {
      "epoch": 0.21988263721090784,
      "grad_norm": 1.9867405891418457,
      "learning_rate": 2e-05,
      "loss": 0.9442,
      "step": 637
    },
    {
      "epoch": 0.22022782188470832,
      "grad_norm": 1.711452841758728,
      "learning_rate": 2e-05,
      "loss": 0.9889,
      "step": 638
    },
    {
      "epoch": 0.2205730065585088,
      "grad_norm": 1.7813612222671509,
      "learning_rate": 2e-05,
      "loss": 0.9664,
      "step": 639
    },
    {
      "epoch": 0.2209181912323093,
      "grad_norm": 1.8781616687774658,
      "learning_rate": 2e-05,
      "loss": 0.9372,
      "step": 640
    },
    {
      "epoch": 0.22126337590610975,
      "grad_norm": 1.828626275062561,
      "learning_rate": 2e-05,
      "loss": 0.9614,
      "step": 641
    },
    {
      "epoch": 0.22160856057991024,
      "grad_norm": 1.8183270692825317,
      "learning_rate": 2e-05,
      "loss": 0.9404,
      "step": 642
    },
    {
      "epoch": 0.22195374525371073,
      "grad_norm": 1.769091010093689,
      "learning_rate": 2e-05,
      "loss": 1.0213,
      "step": 643
    },
    {
      "epoch": 0.2222989299275112,
      "grad_norm": 1.8975324630737305,
      "learning_rate": 2e-05,
      "loss": 0.9083,
      "step": 644
    },
    {
      "epoch": 0.2226441146013117,
      "grad_norm": 1.765549898147583,
      "learning_rate": 2e-05,
      "loss": 0.949,
      "step": 645
    },
    {
      "epoch": 0.22298929927511218,
      "grad_norm": 1.8278275728225708,
      "learning_rate": 2e-05,
      "loss": 1.0029,
      "step": 646
    },
    {
      "epoch": 0.22333448394891267,
      "grad_norm": 1.9216228723526,
      "learning_rate": 2e-05,
      "loss": 0.9992,
      "step": 647
    },
    {
      "epoch": 0.22367966862271316,
      "grad_norm": 1.8710668087005615,
      "learning_rate": 2e-05,
      "loss": 0.8935,
      "step": 648
    },
    {
      "epoch": 0.22402485329651364,
      "grad_norm": 1.7842600345611572,
      "learning_rate": 2e-05,
      "loss": 0.924,
      "step": 649
    },
    {
      "epoch": 0.22437003797031413,
      "grad_norm": 1.785706639289856,
      "learning_rate": 2e-05,
      "loss": 0.9034,
      "step": 650
    },
    {
      "epoch": 0.22471522264411462,
      "grad_norm": 1.6121408939361572,
      "learning_rate": 2e-05,
      "loss": 0.9245,
      "step": 651
    },
    {
      "epoch": 0.22506040731791507,
      "grad_norm": 1.7515367269515991,
      "learning_rate": 2e-05,
      "loss": 0.9113,
      "step": 652
    },
    {
      "epoch": 0.22540559199171556,
      "grad_norm": 2.607435941696167,
      "learning_rate": 2e-05,
      "loss": 0.9552,
      "step": 653
    },
    {
      "epoch": 0.22575077666551605,
      "grad_norm": 1.733254313468933,
      "learning_rate": 2e-05,
      "loss": 0.9455,
      "step": 654
    },
    {
      "epoch": 0.22609596133931653,
      "grad_norm": 1.6248252391815186,
      "learning_rate": 2e-05,
      "loss": 0.912,
      "step": 655
    },
    {
      "epoch": 0.22644114601311702,
      "grad_norm": 1.753952980041504,
      "learning_rate": 2e-05,
      "loss": 1.0012,
      "step": 656
    },
    {
      "epoch": 0.2267863306869175,
      "grad_norm": 1.61372709274292,
      "learning_rate": 2e-05,
      "loss": 0.9647,
      "step": 657
    },
    {
      "epoch": 0.227131515360718,
      "grad_norm": 1.6623982191085815,
      "learning_rate": 2e-05,
      "loss": 0.8908,
      "step": 658
    },
    {
      "epoch": 0.22747670003451848,
      "grad_norm": 1.7860376834869385,
      "learning_rate": 2e-05,
      "loss": 0.9372,
      "step": 659
    },
    {
      "epoch": 0.22782188470831896,
      "grad_norm": 1.815545678138733,
      "learning_rate": 2e-05,
      "loss": 1.0017,
      "step": 660
    },
    {
      "epoch": 0.22816706938211945,
      "grad_norm": 1.7496399879455566,
      "learning_rate": 2e-05,
      "loss": 0.9127,
      "step": 661
    },
    {
      "epoch": 0.2285122540559199,
      "grad_norm": 1.7833198308944702,
      "learning_rate": 2e-05,
      "loss": 0.9015,
      "step": 662
    },
    {
      "epoch": 0.2288574387297204,
      "grad_norm": 1.7757753133773804,
      "learning_rate": 2e-05,
      "loss": 0.9892,
      "step": 663
    },
    {
      "epoch": 0.22920262340352088,
      "grad_norm": 1.666808843612671,
      "learning_rate": 2e-05,
      "loss": 0.9612,
      "step": 664
    },
    {
      "epoch": 0.22954780807732136,
      "grad_norm": 1.7391040325164795,
      "learning_rate": 2e-05,
      "loss": 0.9297,
      "step": 665
    },
    {
      "epoch": 0.22989299275112185,
      "grad_norm": 1.8499102592468262,
      "learning_rate": 2e-05,
      "loss": 0.9248,
      "step": 666
    },
    {
      "epoch": 0.23023817742492234,
      "grad_norm": 1.6855679750442505,
      "learning_rate": 2e-05,
      "loss": 0.9588,
      "step": 667
    },
    {
      "epoch": 0.23058336209872282,
      "grad_norm": 1.9015147686004639,
      "learning_rate": 2e-05,
      "loss": 0.9679,
      "step": 668
    },
    {
      "epoch": 0.2309285467725233,
      "grad_norm": 1.734497308731079,
      "learning_rate": 2e-05,
      "loss": 0.9969,
      "step": 669
    },
    {
      "epoch": 0.2312737314463238,
      "grad_norm": 1.7719879150390625,
      "learning_rate": 2e-05,
      "loss": 0.9055,
      "step": 670
    },
    {
      "epoch": 0.23161891612012428,
      "grad_norm": 1.710024118423462,
      "learning_rate": 2e-05,
      "loss": 0.9228,
      "step": 671
    },
    {
      "epoch": 0.23196410079392474,
      "grad_norm": 1.8393081426620483,
      "learning_rate": 2e-05,
      "loss": 0.9664,
      "step": 672
    },
    {
      "epoch": 0.23230928546772522,
      "grad_norm": 1.7636027336120605,
      "learning_rate": 2e-05,
      "loss": 0.8789,
      "step": 673
    },
    {
      "epoch": 0.2326544701415257,
      "grad_norm": 1.9402978420257568,
      "learning_rate": 2e-05,
      "loss": 0.9477,
      "step": 674
    },
    {
      "epoch": 0.2329996548153262,
      "grad_norm": 1.7338268756866455,
      "learning_rate": 2e-05,
      "loss": 1.0104,
      "step": 675
    },
    {
      "epoch": 0.23334483948912668,
      "grad_norm": 1.8638617992401123,
      "learning_rate": 2e-05,
      "loss": 0.9193,
      "step": 676
    },
    {
      "epoch": 0.23369002416292717,
      "grad_norm": 1.8146984577178955,
      "learning_rate": 2e-05,
      "loss": 0.9209,
      "step": 677
    },
    {
      "epoch": 0.23403520883672765,
      "grad_norm": 1.733011245727539,
      "learning_rate": 2e-05,
      "loss": 0.9181,
      "step": 678
    },
    {
      "epoch": 0.23438039351052814,
      "grad_norm": 2.038259267807007,
      "learning_rate": 2e-05,
      "loss": 0.9892,
      "step": 679
    },
    {
      "epoch": 0.23472557818432863,
      "grad_norm": 1.7838467359542847,
      "learning_rate": 2e-05,
      "loss": 1.0078,
      "step": 680
    },
    {
      "epoch": 0.2350707628581291,
      "grad_norm": 1.8283867835998535,
      "learning_rate": 2e-05,
      "loss": 0.9701,
      "step": 681
    },
    {
      "epoch": 0.23541594753192957,
      "grad_norm": 1.8064738512039185,
      "learning_rate": 2e-05,
      "loss": 0.9827,
      "step": 682
    },
    {
      "epoch": 0.23576113220573006,
      "grad_norm": 2.4323370456695557,
      "learning_rate": 2e-05,
      "loss": 0.9854,
      "step": 683
    },
    {
      "epoch": 0.23610631687953054,
      "grad_norm": 1.8830887079238892,
      "learning_rate": 2e-05,
      "loss": 0.9793,
      "step": 684
    },
    {
      "epoch": 0.23645150155333103,
      "grad_norm": 1.6631356477737427,
      "learning_rate": 2e-05,
      "loss": 0.9141,
      "step": 685
    },
    {
      "epoch": 0.23679668622713151,
      "grad_norm": 1.8258715867996216,
      "learning_rate": 2e-05,
      "loss": 0.9989,
      "step": 686
    },
    {
      "epoch": 0.237141870900932,
      "grad_norm": 1.7349517345428467,
      "learning_rate": 2e-05,
      "loss": 0.953,
      "step": 687
    },
    {
      "epoch": 0.2374870555747325,
      "grad_norm": 1.7592962980270386,
      "learning_rate": 2e-05,
      "loss": 1.0145,
      "step": 688
    },
    {
      "epoch": 0.23783224024853297,
      "grad_norm": 1.762784719467163,
      "learning_rate": 2e-05,
      "loss": 0.9735,
      "step": 689
    },
    {
      "epoch": 0.23817742492233346,
      "grad_norm": 1.789164662361145,
      "learning_rate": 2e-05,
      "loss": 0.9689,
      "step": 690
    },
    {
      "epoch": 0.23852260959613394,
      "grad_norm": 1.7294576168060303,
      "learning_rate": 2e-05,
      "loss": 0.9342,
      "step": 691
    },
    {
      "epoch": 0.2388677942699344,
      "grad_norm": 1.6930007934570312,
      "learning_rate": 2e-05,
      "loss": 0.9667,
      "step": 692
    },
    {
      "epoch": 0.2392129789437349,
      "grad_norm": 1.6673132181167603,
      "learning_rate": 2e-05,
      "loss": 0.944,
      "step": 693
    },
    {
      "epoch": 0.23955816361753537,
      "grad_norm": 1.746750831604004,
      "learning_rate": 2e-05,
      "loss": 0.9419,
      "step": 694
    },
    {
      "epoch": 0.23990334829133586,
      "grad_norm": 1.7649177312850952,
      "learning_rate": 2e-05,
      "loss": 0.9247,
      "step": 695
    },
    {
      "epoch": 0.24024853296513635,
      "grad_norm": 2.140566349029541,
      "learning_rate": 2e-05,
      "loss": 0.9695,
      "step": 696
    },
    {
      "epoch": 0.24059371763893683,
      "grad_norm": 1.7225303649902344,
      "learning_rate": 2e-05,
      "loss": 0.9818,
      "step": 697
    },
    {
      "epoch": 0.24093890231273732,
      "grad_norm": 1.6975003480911255,
      "learning_rate": 2e-05,
      "loss": 0.9326,
      "step": 698
    },
    {
      "epoch": 0.2412840869865378,
      "grad_norm": 1.9510295391082764,
      "learning_rate": 2e-05,
      "loss": 0.9339,
      "step": 699
    },
    {
      "epoch": 0.2416292716603383,
      "grad_norm": 1.8641351461410522,
      "learning_rate": 2e-05,
      "loss": 1.0054,
      "step": 700
    },
    {
      "epoch": 0.24197445633413878,
      "grad_norm": 1.6479326486587524,
      "learning_rate": 2e-05,
      "loss": 1.0389,
      "step": 701
    },
    {
      "epoch": 0.24231964100793923,
      "grad_norm": 1.8591350317001343,
      "learning_rate": 2e-05,
      "loss": 0.9602,
      "step": 702
    },
    {
      "epoch": 0.24266482568173972,
      "grad_norm": 1.6348824501037598,
      "learning_rate": 2e-05,
      "loss": 0.9516,
      "step": 703
    },
    {
      "epoch": 0.2430100103555402,
      "grad_norm": 1.6092488765716553,
      "learning_rate": 2e-05,
      "loss": 0.9398,
      "step": 704
    },
    {
      "epoch": 0.2433551950293407,
      "grad_norm": 1.698967456817627,
      "learning_rate": 2e-05,
      "loss": 0.9346,
      "step": 705
    },
    {
      "epoch": 0.24370037970314118,
      "grad_norm": 1.6550766229629517,
      "learning_rate": 2e-05,
      "loss": 0.8931,
      "step": 706
    },
    {
      "epoch": 0.24404556437694166,
      "grad_norm": 1.7332935333251953,
      "learning_rate": 2e-05,
      "loss": 0.9521,
      "step": 707
    },
    {
      "epoch": 0.24439074905074215,
      "grad_norm": 1.828611135482788,
      "learning_rate": 2e-05,
      "loss": 0.9345,
      "step": 708
    },
    {
      "epoch": 0.24473593372454264,
      "grad_norm": 1.8282678127288818,
      "learning_rate": 2e-05,
      "loss": 0.9783,
      "step": 709
    },
    {
      "epoch": 0.24508111839834312,
      "grad_norm": 1.7431113719940186,
      "learning_rate": 2e-05,
      "loss": 0.9836,
      "step": 710
    },
    {
      "epoch": 0.2454263030721436,
      "grad_norm": 1.741969347000122,
      "learning_rate": 2e-05,
      "loss": 0.9099,
      "step": 711
    },
    {
      "epoch": 0.24577148774594407,
      "grad_norm": 1.7447651624679565,
      "learning_rate": 2e-05,
      "loss": 0.8919,
      "step": 712
    },
    {
      "epoch": 0.24611667241974455,
      "grad_norm": 1.7293975353240967,
      "learning_rate": 2e-05,
      "loss": 0.8974,
      "step": 713
    },
    {
      "epoch": 0.24646185709354504,
      "grad_norm": 1.651405692100525,
      "learning_rate": 2e-05,
      "loss": 0.9471,
      "step": 714
    },
    {
      "epoch": 0.24680704176734553,
      "grad_norm": 1.8038339614868164,
      "learning_rate": 2e-05,
      "loss": 0.9247,
      "step": 715
    },
    {
      "epoch": 0.247152226441146,
      "grad_norm": 1.744349479675293,
      "learning_rate": 2e-05,
      "loss": 0.9745,
      "step": 716
    },
    {
      "epoch": 0.2474974111149465,
      "grad_norm": 1.694891095161438,
      "learning_rate": 2e-05,
      "loss": 0.9512,
      "step": 717
    },
    {
      "epoch": 0.24784259578874698,
      "grad_norm": 1.5880845785140991,
      "learning_rate": 2e-05,
      "loss": 0.9427,
      "step": 718
    },
    {
      "epoch": 0.24818778046254747,
      "grad_norm": 1.5526502132415771,
      "learning_rate": 2e-05,
      "loss": 0.9582,
      "step": 719
    },
    {
      "epoch": 0.24853296513634796,
      "grad_norm": 2.023087978363037,
      "learning_rate": 2e-05,
      "loss": 0.9629,
      "step": 720
    },
    {
      "epoch": 0.24887814981014844,
      "grad_norm": 1.6062517166137695,
      "learning_rate": 2e-05,
      "loss": 0.9112,
      "step": 721
    },
    {
      "epoch": 0.2492233344839489,
      "grad_norm": 1.9484480619430542,
      "learning_rate": 2e-05,
      "loss": 0.9474,
      "step": 722
    },
    {
      "epoch": 0.24956851915774939,
      "grad_norm": 1.9322245121002197,
      "learning_rate": 2e-05,
      "loss": 0.9844,
      "step": 723
    },
    {
      "epoch": 0.24991370383154987,
      "grad_norm": 2.028559923171997,
      "learning_rate": 2e-05,
      "loss": 0.9776,
      "step": 724
    },
    {
      "epoch": 0.2502588885053504,
      "grad_norm": 1.8569518327713013,
      "learning_rate": 2e-05,
      "loss": 0.9211,
      "step": 725
    },
    {
      "epoch": 0.25060407317915084,
      "grad_norm": 1.677549958229065,
      "learning_rate": 2e-05,
      "loss": 0.9246,
      "step": 726
    },
    {
      "epoch": 0.2509492578529513,
      "grad_norm": 1.685090184211731,
      "learning_rate": 2e-05,
      "loss": 1.0399,
      "step": 727
    },
    {
      "epoch": 0.2512944425267518,
      "grad_norm": 1.7994401454925537,
      "learning_rate": 2e-05,
      "loss": 0.96,
      "step": 728
    },
    {
      "epoch": 0.2516396272005523,
      "grad_norm": 1.883177638053894,
      "learning_rate": 2e-05,
      "loss": 0.9082,
      "step": 729
    },
    {
      "epoch": 0.2519848118743528,
      "grad_norm": 1.5140488147735596,
      "learning_rate": 2e-05,
      "loss": 0.8972,
      "step": 730
    },
    {
      "epoch": 0.25232999654815325,
      "grad_norm": 1.6996492147445679,
      "learning_rate": 2e-05,
      "loss": 0.8545,
      "step": 731
    },
    {
      "epoch": 0.25267518122195376,
      "grad_norm": 1.8028596639633179,
      "learning_rate": 2e-05,
      "loss": 0.9156,
      "step": 732
    },
    {
      "epoch": 0.2530203658957542,
      "grad_norm": 1.6255139112472534,
      "learning_rate": 2e-05,
      "loss": 0.9471,
      "step": 733
    },
    {
      "epoch": 0.25336555056955473,
      "grad_norm": 1.9539834260940552,
      "learning_rate": 2e-05,
      "loss": 0.9597,
      "step": 734
    },
    {
      "epoch": 0.2537107352433552,
      "grad_norm": 1.6089783906936646,
      "learning_rate": 2e-05,
      "loss": 0.9853,
      "step": 735
    },
    {
      "epoch": 0.2540559199171557,
      "grad_norm": 1.6394222974777222,
      "learning_rate": 2e-05,
      "loss": 0.9084,
      "step": 736
    },
    {
      "epoch": 0.25440110459095616,
      "grad_norm": 1.7713274955749512,
      "learning_rate": 2e-05,
      "loss": 0.9766,
      "step": 737
    },
    {
      "epoch": 0.2547462892647566,
      "grad_norm": 1.7471550703048706,
      "learning_rate": 2e-05,
      "loss": 0.9579,
      "step": 738
    },
    {
      "epoch": 0.25509147393855713,
      "grad_norm": 1.7203348875045776,
      "learning_rate": 2e-05,
      "loss": 0.91,
      "step": 739
    },
    {
      "epoch": 0.2554366586123576,
      "grad_norm": 1.7159513235092163,
      "learning_rate": 2e-05,
      "loss": 0.9477,
      "step": 740
    },
    {
      "epoch": 0.2557818432861581,
      "grad_norm": 1.7029972076416016,
      "learning_rate": 2e-05,
      "loss": 0.9791,
      "step": 741
    },
    {
      "epoch": 0.25612702795995856,
      "grad_norm": 1.848547101020813,
      "learning_rate": 2e-05,
      "loss": 0.9907,
      "step": 742
    },
    {
      "epoch": 0.2564722126337591,
      "grad_norm": 1.7434319257736206,
      "learning_rate": 2e-05,
      "loss": 0.9491,
      "step": 743
    },
    {
      "epoch": 0.25681739730755954,
      "grad_norm": 1.6110520362854004,
      "learning_rate": 2e-05,
      "loss": 0.8835,
      "step": 744
    },
    {
      "epoch": 0.25716258198136005,
      "grad_norm": 1.8141536712646484,
      "learning_rate": 2e-05,
      "loss": 0.953,
      "step": 745
    },
    {
      "epoch": 0.2575077666551605,
      "grad_norm": 1.6879647970199585,
      "learning_rate": 2e-05,
      "loss": 0.9404,
      "step": 746
    },
    {
      "epoch": 0.25785295132896097,
      "grad_norm": 1.7503207921981812,
      "learning_rate": 2e-05,
      "loss": 0.9159,
      "step": 747
    },
    {
      "epoch": 0.2581981360027615,
      "grad_norm": 1.6459016799926758,
      "learning_rate": 2e-05,
      "loss": 0.9823,
      "step": 748
    },
    {
      "epoch": 0.25854332067656194,
      "grad_norm": 1.7275407314300537,
      "learning_rate": 2e-05,
      "loss": 1.0185,
      "step": 749
    },
    {
      "epoch": 0.25888850535036245,
      "grad_norm": 1.8986669778823853,
      "learning_rate": 2e-05,
      "loss": 0.9283,
      "step": 750
    },
    {
      "epoch": 0.2592336900241629,
      "grad_norm": 1.7517776489257812,
      "learning_rate": 2e-05,
      "loss": 0.9502,
      "step": 751
    },
    {
      "epoch": 0.2595788746979634,
      "grad_norm": 1.912253975868225,
      "learning_rate": 2e-05,
      "loss": 0.9399,
      "step": 752
    },
    {
      "epoch": 0.2599240593717639,
      "grad_norm": 1.729828953742981,
      "learning_rate": 2e-05,
      "loss": 0.9014,
      "step": 753
    },
    {
      "epoch": 0.2602692440455644,
      "grad_norm": 1.780542254447937,
      "learning_rate": 2e-05,
      "loss": 0.9285,
      "step": 754
    },
    {
      "epoch": 0.26061442871936485,
      "grad_norm": 1.8199851512908936,
      "learning_rate": 2e-05,
      "loss": 1.0126,
      "step": 755
    },
    {
      "epoch": 0.26095961339316537,
      "grad_norm": 1.7953726053237915,
      "learning_rate": 2e-05,
      "loss": 0.9783,
      "step": 756
    },
    {
      "epoch": 0.2613047980669658,
      "grad_norm": 1.6949175596237183,
      "learning_rate": 2e-05,
      "loss": 0.9116,
      "step": 757
    },
    {
      "epoch": 0.2616499827407663,
      "grad_norm": 1.7206783294677734,
      "learning_rate": 2e-05,
      "loss": 0.8995,
      "step": 758
    },
    {
      "epoch": 0.2619951674145668,
      "grad_norm": 1.9204108715057373,
      "learning_rate": 2e-05,
      "loss": 0.891,
      "step": 759
    },
    {
      "epoch": 0.26234035208836726,
      "grad_norm": 1.8647918701171875,
      "learning_rate": 2e-05,
      "loss": 0.9909,
      "step": 760
    },
    {
      "epoch": 0.26268553676216777,
      "grad_norm": 1.8312782049179077,
      "learning_rate": 2e-05,
      "loss": 0.9955,
      "step": 761
    },
    {
      "epoch": 0.26303072143596823,
      "grad_norm": 1.5803852081298828,
      "learning_rate": 2e-05,
      "loss": 0.9231,
      "step": 762
    },
    {
      "epoch": 0.26337590610976874,
      "grad_norm": 2.0904886722564697,
      "learning_rate": 2e-05,
      "loss": 0.975,
      "step": 763
    },
    {
      "epoch": 0.2637210907835692,
      "grad_norm": 1.7414122819900513,
      "learning_rate": 2e-05,
      "loss": 0.8893,
      "step": 764
    },
    {
      "epoch": 0.2640662754573697,
      "grad_norm": 1.5421781539916992,
      "learning_rate": 2e-05,
      "loss": 0.879,
      "step": 765
    },
    {
      "epoch": 0.2644114601311702,
      "grad_norm": 1.515834927558899,
      "learning_rate": 2e-05,
      "loss": 0.9232,
      "step": 766
    },
    {
      "epoch": 0.2647566448049707,
      "grad_norm": 1.6821200847625732,
      "learning_rate": 2e-05,
      "loss": 0.8878,
      "step": 767
    },
    {
      "epoch": 0.26510182947877114,
      "grad_norm": 1.6648080348968506,
      "learning_rate": 2e-05,
      "loss": 0.9165,
      "step": 768
    },
    {
      "epoch": 0.2654470141525716,
      "grad_norm": 1.9394623041152954,
      "learning_rate": 2e-05,
      "loss": 0.9148,
      "step": 769
    },
    {
      "epoch": 0.2657921988263721,
      "grad_norm": 2.4916532039642334,
      "learning_rate": 2e-05,
      "loss": 0.9865,
      "step": 770
    },
    {
      "epoch": 0.2661373835001726,
      "grad_norm": 1.6897066831588745,
      "learning_rate": 2e-05,
      "loss": 0.9648,
      "step": 771
    },
    {
      "epoch": 0.2664825681739731,
      "grad_norm": 1.78070068359375,
      "learning_rate": 2e-05,
      "loss": 0.9886,
      "step": 772
    },
    {
      "epoch": 0.26682775284777355,
      "grad_norm": 1.6246932744979858,
      "learning_rate": 2e-05,
      "loss": 0.9563,
      "step": 773
    },
    {
      "epoch": 0.26717293752157406,
      "grad_norm": 1.588151454925537,
      "learning_rate": 2e-05,
      "loss": 0.9383,
      "step": 774
    },
    {
      "epoch": 0.2675181221953745,
      "grad_norm": 2.021819591522217,
      "learning_rate": 2e-05,
      "loss": 0.9145,
      "step": 775
    },
    {
      "epoch": 0.26786330686917503,
      "grad_norm": 1.529710292816162,
      "learning_rate": 2e-05,
      "loss": 0.9574,
      "step": 776
    },
    {
      "epoch": 0.2682084915429755,
      "grad_norm": 1.8142794370651245,
      "learning_rate": 2e-05,
      "loss": 0.9996,
      "step": 777
    },
    {
      "epoch": 0.26855367621677595,
      "grad_norm": 1.7581377029418945,
      "learning_rate": 2e-05,
      "loss": 0.9296,
      "step": 778
    },
    {
      "epoch": 0.26889886089057646,
      "grad_norm": 1.7572534084320068,
      "learning_rate": 2e-05,
      "loss": 0.9383,
      "step": 779
    },
    {
      "epoch": 0.2692440455643769,
      "grad_norm": 1.6054904460906982,
      "learning_rate": 2e-05,
      "loss": 0.9062,
      "step": 780
    },
    {
      "epoch": 0.26958923023817744,
      "grad_norm": 1.7486181259155273,
      "learning_rate": 2e-05,
      "loss": 0.9292,
      "step": 781
    },
    {
      "epoch": 0.2699344149119779,
      "grad_norm": 1.6551092863082886,
      "learning_rate": 2e-05,
      "loss": 0.8319,
      "step": 782
    },
    {
      "epoch": 0.2702795995857784,
      "grad_norm": 2.0110371112823486,
      "learning_rate": 2e-05,
      "loss": 0.9898,
      "step": 783
    },
    {
      "epoch": 0.27062478425957887,
      "grad_norm": 1.6469950675964355,
      "learning_rate": 2e-05,
      "loss": 0.8295,
      "step": 784
    },
    {
      "epoch": 0.2709699689333794,
      "grad_norm": 1.765363335609436,
      "learning_rate": 2e-05,
      "loss": 0.961,
      "step": 785
    },
    {
      "epoch": 0.27131515360717984,
      "grad_norm": 1.6705784797668457,
      "learning_rate": 2e-05,
      "loss": 0.9283,
      "step": 786
    },
    {
      "epoch": 0.27166033828098035,
      "grad_norm": 1.784940481185913,
      "learning_rate": 2e-05,
      "loss": 0.946,
      "step": 787
    },
    {
      "epoch": 0.2720055229547808,
      "grad_norm": 1.7462352514266968,
      "learning_rate": 2e-05,
      "loss": 0.916,
      "step": 788
    },
    {
      "epoch": 0.27235070762858127,
      "grad_norm": 1.7009105682373047,
      "learning_rate": 2e-05,
      "loss": 0.8394,
      "step": 789
    },
    {
      "epoch": 0.2726958923023818,
      "grad_norm": 2.4563820362091064,
      "learning_rate": 2e-05,
      "loss": 0.9461,
      "step": 790
    },
    {
      "epoch": 0.27304107697618224,
      "grad_norm": 1.7224385738372803,
      "learning_rate": 2e-05,
      "loss": 0.9249,
      "step": 791
    },
    {
      "epoch": 0.27338626164998275,
      "grad_norm": 1.8439266681671143,
      "learning_rate": 2e-05,
      "loss": 0.925,
      "step": 792
    },
    {
      "epoch": 0.2737314463237832,
      "grad_norm": 1.7695287466049194,
      "learning_rate": 2e-05,
      "loss": 0.9225,
      "step": 793
    },
    {
      "epoch": 0.2740766309975837,
      "grad_norm": 1.8887242078781128,
      "learning_rate": 2e-05,
      "loss": 0.9009,
      "step": 794
    },
    {
      "epoch": 0.2744218156713842,
      "grad_norm": 1.554460883140564,
      "learning_rate": 2e-05,
      "loss": 0.8906,
      "step": 795
    },
    {
      "epoch": 0.2747670003451847,
      "grad_norm": 1.7165745496749878,
      "learning_rate": 2e-05,
      "loss": 0.9627,
      "step": 796
    },
    {
      "epoch": 0.27511218501898516,
      "grad_norm": 1.60774564743042,
      "learning_rate": 2e-05,
      "loss": 0.9952,
      "step": 797
    },
    {
      "epoch": 0.2754573696927856,
      "grad_norm": 1.6151418685913086,
      "learning_rate": 2e-05,
      "loss": 0.9684,
      "step": 798
    },
    {
      "epoch": 0.27580255436658613,
      "grad_norm": 1.7905076742172241,
      "learning_rate": 2e-05,
      "loss": 0.922,
      "step": 799
    },
    {
      "epoch": 0.2761477390403866,
      "grad_norm": 1.731622338294983,
      "learning_rate": 2e-05,
      "loss": 0.9088,
      "step": 800
    },
    {
      "epoch": 0.2764929237141871,
      "grad_norm": 1.8217796087265015,
      "learning_rate": 2e-05,
      "loss": 0.9634,
      "step": 801
    },
    {
      "epoch": 0.27683810838798756,
      "grad_norm": 1.6582670211791992,
      "learning_rate": 2e-05,
      "loss": 0.9175,
      "step": 802
    },
    {
      "epoch": 0.27718329306178807,
      "grad_norm": 1.6953810453414917,
      "learning_rate": 2e-05,
      "loss": 0.919,
      "step": 803
    },
    {
      "epoch": 0.27752847773558853,
      "grad_norm": 1.9552143812179565,
      "learning_rate": 2e-05,
      "loss": 0.874,
      "step": 804
    },
    {
      "epoch": 0.27787366240938904,
      "grad_norm": 1.6424615383148193,
      "learning_rate": 2e-05,
      "loss": 0.8819,
      "step": 805
    },
    {
      "epoch": 0.2782188470831895,
      "grad_norm": 1.806977391242981,
      "learning_rate": 2e-05,
      "loss": 0.8962,
      "step": 806
    },
    {
      "epoch": 0.27856403175699,
      "grad_norm": 1.668629765510559,
      "learning_rate": 2e-05,
      "loss": 0.8808,
      "step": 807
    },
    {
      "epoch": 0.2789092164307905,
      "grad_norm": 1.5728144645690918,
      "learning_rate": 2e-05,
      "loss": 0.9565,
      "step": 808
    },
    {
      "epoch": 0.27925440110459093,
      "grad_norm": 1.6573574542999268,
      "learning_rate": 2e-05,
      "loss": 0.9471,
      "step": 809
    },
    {
      "epoch": 0.27959958577839145,
      "grad_norm": 1.7360767126083374,
      "learning_rate": 2e-05,
      "loss": 1.0036,
      "step": 810
    },
    {
      "epoch": 0.2799447704521919,
      "grad_norm": 1.6662416458129883,
      "learning_rate": 2e-05,
      "loss": 0.958,
      "step": 811
    },
    {
      "epoch": 0.2802899551259924,
      "grad_norm": 1.78653883934021,
      "learning_rate": 2e-05,
      "loss": 0.9769,
      "step": 812
    },
    {
      "epoch": 0.2806351397997929,
      "grad_norm": 1.8020801544189453,
      "learning_rate": 2e-05,
      "loss": 0.8831,
      "step": 813
    },
    {
      "epoch": 0.2809803244735934,
      "grad_norm": 1.5524803400039673,
      "learning_rate": 2e-05,
      "loss": 0.9133,
      "step": 814
    },
    {
      "epoch": 0.28132550914739385,
      "grad_norm": 1.6234207153320312,
      "learning_rate": 2e-05,
      "loss": 0.9483,
      "step": 815
    },
    {
      "epoch": 0.28167069382119436,
      "grad_norm": 1.7317841053009033,
      "learning_rate": 2e-05,
      "loss": 0.8842,
      "step": 816
    },
    {
      "epoch": 0.2820158784949948,
      "grad_norm": 1.5714329481124878,
      "learning_rate": 2e-05,
      "loss": 0.9101,
      "step": 817
    },
    {
      "epoch": 0.2823610631687953,
      "grad_norm": 1.8309569358825684,
      "learning_rate": 2e-05,
      "loss": 1.0425,
      "step": 818
    },
    {
      "epoch": 0.2827062478425958,
      "grad_norm": 1.7294230461120605,
      "learning_rate": 2e-05,
      "loss": 0.9012,
      "step": 819
    },
    {
      "epoch": 0.28305143251639625,
      "grad_norm": 1.7526843547821045,
      "learning_rate": 2e-05,
      "loss": 1.0059,
      "step": 820
    },
    {
      "epoch": 0.28339661719019676,
      "grad_norm": 1.8334370851516724,
      "learning_rate": 2e-05,
      "loss": 0.9717,
      "step": 821
    },
    {
      "epoch": 0.2837418018639972,
      "grad_norm": 1.630295991897583,
      "learning_rate": 2e-05,
      "loss": 0.8928,
      "step": 822
    },
    {
      "epoch": 0.28408698653779774,
      "grad_norm": 1.7229689359664917,
      "learning_rate": 2e-05,
      "loss": 0.908,
      "step": 823
    },
    {
      "epoch": 0.2844321712115982,
      "grad_norm": 1.9408153295516968,
      "learning_rate": 2e-05,
      "loss": 0.9686,
      "step": 824
    },
    {
      "epoch": 0.2847773558853987,
      "grad_norm": 1.6925727128982544,
      "learning_rate": 2e-05,
      "loss": 0.8335,
      "step": 825
    },
    {
      "epoch": 0.28512254055919917,
      "grad_norm": 1.7203413248062134,
      "learning_rate": 2e-05,
      "loss": 0.8822,
      "step": 826
    },
    {
      "epoch": 0.2854677252329997,
      "grad_norm": 1.6200357675552368,
      "learning_rate": 2e-05,
      "loss": 0.9007,
      "step": 827
    },
    {
      "epoch": 0.28581290990680014,
      "grad_norm": 1.5575952529907227,
      "learning_rate": 2e-05,
      "loss": 0.9121,
      "step": 828
    },
    {
      "epoch": 0.2861580945806006,
      "grad_norm": 1.848879337310791,
      "learning_rate": 2e-05,
      "loss": 0.9132,
      "step": 829
    },
    {
      "epoch": 0.2865032792544011,
      "grad_norm": 1.580331563949585,
      "learning_rate": 2e-05,
      "loss": 0.9132,
      "step": 830
    },
    {
      "epoch": 0.28684846392820157,
      "grad_norm": 1.5403881072998047,
      "learning_rate": 2e-05,
      "loss": 0.9734,
      "step": 831
    },
    {
      "epoch": 0.2871936486020021,
      "grad_norm": 1.7291322946548462,
      "learning_rate": 2e-05,
      "loss": 0.9805,
      "step": 832
    },
    {
      "epoch": 0.28753883327580254,
      "grad_norm": 1.7312270402908325,
      "learning_rate": 2e-05,
      "loss": 0.9456,
      "step": 833
    },
    {
      "epoch": 0.28788401794960305,
      "grad_norm": 1.7407926321029663,
      "learning_rate": 2e-05,
      "loss": 0.8961,
      "step": 834
    },
    {
      "epoch": 0.2882292026234035,
      "grad_norm": 1.72866690158844,
      "learning_rate": 2e-05,
      "loss": 0.9585,
      "step": 835
    },
    {
      "epoch": 0.288574387297204,
      "grad_norm": 1.6659528017044067,
      "learning_rate": 2e-05,
      "loss": 0.8433,
      "step": 836
    },
    {
      "epoch": 0.2889195719710045,
      "grad_norm": 1.7299569845199585,
      "learning_rate": 2e-05,
      "loss": 0.944,
      "step": 837
    },
    {
      "epoch": 0.28926475664480494,
      "grad_norm": 1.6695308685302734,
      "learning_rate": 2e-05,
      "loss": 0.935,
      "step": 838
    },
    {
      "epoch": 0.28960994131860546,
      "grad_norm": 1.5959179401397705,
      "learning_rate": 2e-05,
      "loss": 0.8863,
      "step": 839
    },
    {
      "epoch": 0.2899551259924059,
      "grad_norm": 2.758639335632324,
      "learning_rate": 2e-05,
      "loss": 0.9597,
      "step": 840
    },
    {
      "epoch": 0.29030031066620643,
      "grad_norm": 3.5057129859924316,
      "learning_rate": 2e-05,
      "loss": 0.8964,
      "step": 841
    },
    {
      "epoch": 0.2906454953400069,
      "grad_norm": 1.631131887435913,
      "learning_rate": 2e-05,
      "loss": 0.8846,
      "step": 842
    },
    {
      "epoch": 0.2909906800138074,
      "grad_norm": 1.7117351293563843,
      "learning_rate": 2e-05,
      "loss": 0.9577,
      "step": 843
    },
    {
      "epoch": 0.29133586468760786,
      "grad_norm": 1.6473796367645264,
      "learning_rate": 2e-05,
      "loss": 0.9115,
      "step": 844
    },
    {
      "epoch": 0.2916810493614084,
      "grad_norm": 1.6522189378738403,
      "learning_rate": 2e-05,
      "loss": 0.8324,
      "step": 845
    },
    {
      "epoch": 0.29202623403520883,
      "grad_norm": 1.844430685043335,
      "learning_rate": 2e-05,
      "loss": 0.9547,
      "step": 846
    },
    {
      "epoch": 0.29237141870900935,
      "grad_norm": 1.5904265642166138,
      "learning_rate": 2e-05,
      "loss": 0.888,
      "step": 847
    },
    {
      "epoch": 0.2927166033828098,
      "grad_norm": 1.649087905883789,
      "learning_rate": 2e-05,
      "loss": 0.9435,
      "step": 848
    },
    {
      "epoch": 0.29306178805661026,
      "grad_norm": 1.825225830078125,
      "learning_rate": 2e-05,
      "loss": 0.9266,
      "step": 849
    },
    {
      "epoch": 0.2934069727304108,
      "grad_norm": 1.7493414878845215,
      "learning_rate": 2e-05,
      "loss": 0.9218,
      "step": 850
    },
    {
      "epoch": 0.29375215740421123,
      "grad_norm": 1.686712384223938,
      "learning_rate": 2e-05,
      "loss": 0.8304,
      "step": 851
    },
    {
      "epoch": 0.29409734207801175,
      "grad_norm": 1.817176342010498,
      "learning_rate": 2e-05,
      "loss": 0.9526,
      "step": 852
    },
    {
      "epoch": 0.2944425267518122,
      "grad_norm": 1.6479206085205078,
      "learning_rate": 2e-05,
      "loss": 0.9527,
      "step": 853
    },
    {
      "epoch": 0.2947877114256127,
      "grad_norm": 1.722690463066101,
      "learning_rate": 2e-05,
      "loss": 0.9448,
      "step": 854
    },
    {
      "epoch": 0.2951328960994132,
      "grad_norm": 1.722975254058838,
      "learning_rate": 2e-05,
      "loss": 0.8179,
      "step": 855
    },
    {
      "epoch": 0.2954780807732137,
      "grad_norm": 1.8136886358261108,
      "learning_rate": 2e-05,
      "loss": 0.8432,
      "step": 856
    },
    {
      "epoch": 0.29582326544701415,
      "grad_norm": 1.6757320165634155,
      "learning_rate": 2e-05,
      "loss": 0.9281,
      "step": 857
    },
    {
      "epoch": 0.2961684501208146,
      "grad_norm": 1.8020514249801636,
      "learning_rate": 2e-05,
      "loss": 0.9657,
      "step": 858
    },
    {
      "epoch": 0.2965136347946151,
      "grad_norm": 1.9002503156661987,
      "learning_rate": 2e-05,
      "loss": 0.8956,
      "step": 859
    },
    {
      "epoch": 0.2968588194684156,
      "grad_norm": 1.7532191276550293,
      "learning_rate": 2e-05,
      "loss": 0.986,
      "step": 860
    },
    {
      "epoch": 0.2972040041422161,
      "grad_norm": 1.7038637399673462,
      "learning_rate": 2e-05,
      "loss": 0.9816,
      "step": 861
    },
    {
      "epoch": 0.29754918881601655,
      "grad_norm": 1.9358980655670166,
      "learning_rate": 2e-05,
      "loss": 0.9965,
      "step": 862
    },
    {
      "epoch": 0.29789437348981707,
      "grad_norm": 1.8385519981384277,
      "learning_rate": 2e-05,
      "loss": 0.8874,
      "step": 863
    },
    {
      "epoch": 0.2982395581636175,
      "grad_norm": 1.697278380393982,
      "learning_rate": 2e-05,
      "loss": 0.9287,
      "step": 864
    },
    {
      "epoch": 0.29858474283741804,
      "grad_norm": 1.7062050104141235,
      "learning_rate": 2e-05,
      "loss": 0.8823,
      "step": 865
    },
    {
      "epoch": 0.2989299275112185,
      "grad_norm": 1.615470051765442,
      "learning_rate": 2e-05,
      "loss": 0.9316,
      "step": 866
    },
    {
      "epoch": 0.299275112185019,
      "grad_norm": 1.713518738746643,
      "learning_rate": 2e-05,
      "loss": 0.985,
      "step": 867
    },
    {
      "epoch": 0.29962029685881947,
      "grad_norm": 1.6789357662200928,
      "learning_rate": 2e-05,
      "loss": 0.9036,
      "step": 868
    },
    {
      "epoch": 0.2999654815326199,
      "grad_norm": 2.0076093673706055,
      "learning_rate": 2e-05,
      "loss": 0.976,
      "step": 869
    },
    {
      "epoch": 0.30031066620642044,
      "grad_norm": 1.7054840326309204,
      "learning_rate": 2e-05,
      "loss": 0.9414,
      "step": 870
    },
    {
      "epoch": 0.3006558508802209,
      "grad_norm": 1.696582317352295,
      "learning_rate": 2e-05,
      "loss": 0.8888,
      "step": 871
    },
    {
      "epoch": 0.3010010355540214,
      "grad_norm": 1.6363657712936401,
      "learning_rate": 2e-05,
      "loss": 0.9271,
      "step": 872
    },
    {
      "epoch": 0.30134622022782187,
      "grad_norm": 1.7067676782608032,
      "learning_rate": 2e-05,
      "loss": 0.8735,
      "step": 873
    },
    {
      "epoch": 0.3016914049016224,
      "grad_norm": 1.6866117715835571,
      "learning_rate": 2e-05,
      "loss": 0.8878,
      "step": 874
    },
    {
      "epoch": 0.30203658957542284,
      "grad_norm": 1.677909255027771,
      "learning_rate": 2e-05,
      "loss": 0.9534,
      "step": 875
    },
    {
      "epoch": 0.30238177424922336,
      "grad_norm": 1.6076488494873047,
      "learning_rate": 2e-05,
      "loss": 0.9449,
      "step": 876
    },
    {
      "epoch": 0.3027269589230238,
      "grad_norm": 1.6929656267166138,
      "learning_rate": 2e-05,
      "loss": 0.9068,
      "step": 877
    },
    {
      "epoch": 0.30307214359682433,
      "grad_norm": 2.063603162765503,
      "learning_rate": 2e-05,
      "loss": 0.9404,
      "step": 878
    },
    {
      "epoch": 0.3034173282706248,
      "grad_norm": 1.6866271495819092,
      "learning_rate": 2e-05,
      "loss": 0.99,
      "step": 879
    },
    {
      "epoch": 0.30376251294442524,
      "grad_norm": 1.6630245447158813,
      "learning_rate": 2e-05,
      "loss": 0.8685,
      "step": 880
    },
    {
      "epoch": 0.30410769761822576,
      "grad_norm": 3.484060287475586,
      "learning_rate": 2e-05,
      "loss": 0.9555,
      "step": 881
    },
    {
      "epoch": 0.3044528822920262,
      "grad_norm": 1.728872537612915,
      "learning_rate": 2e-05,
      "loss": 0.9364,
      "step": 882
    },
    {
      "epoch": 0.30479806696582673,
      "grad_norm": 1.5919067859649658,
      "learning_rate": 2e-05,
      "loss": 0.9721,
      "step": 883
    },
    {
      "epoch": 0.3051432516396272,
      "grad_norm": 1.8699277639389038,
      "learning_rate": 2e-05,
      "loss": 0.9724,
      "step": 884
    },
    {
      "epoch": 0.3054884363134277,
      "grad_norm": 1.632111668586731,
      "learning_rate": 2e-05,
      "loss": 0.9204,
      "step": 885
    },
    {
      "epoch": 0.30583362098722816,
      "grad_norm": 1.7073290348052979,
      "learning_rate": 2e-05,
      "loss": 0.8946,
      "step": 886
    },
    {
      "epoch": 0.3061788056610287,
      "grad_norm": 1.6981688737869263,
      "learning_rate": 2e-05,
      "loss": 0.9002,
      "step": 887
    },
    {
      "epoch": 0.30652399033482913,
      "grad_norm": 1.6435190439224243,
      "learning_rate": 2e-05,
      "loss": 0.8731,
      "step": 888
    },
    {
      "epoch": 0.3068691750086296,
      "grad_norm": 1.9350471496582031,
      "learning_rate": 2e-05,
      "loss": 1.0676,
      "step": 889
    },
    {
      "epoch": 0.3072143596824301,
      "grad_norm": 1.6658761501312256,
      "learning_rate": 2e-05,
      "loss": 0.9262,
      "step": 890
    },
    {
      "epoch": 0.30755954435623056,
      "grad_norm": 1.7131614685058594,
      "learning_rate": 2e-05,
      "loss": 0.9098,
      "step": 891
    },
    {
      "epoch": 0.3079047290300311,
      "grad_norm": 2.1224939823150635,
      "learning_rate": 2e-05,
      "loss": 0.8938,
      "step": 892
    },
    {
      "epoch": 0.30824991370383154,
      "grad_norm": 1.747983455657959,
      "learning_rate": 2e-05,
      "loss": 0.9522,
      "step": 893
    },
    {
      "epoch": 0.30859509837763205,
      "grad_norm": 1.7841300964355469,
      "learning_rate": 2e-05,
      "loss": 0.9458,
      "step": 894
    },
    {
      "epoch": 0.3089402830514325,
      "grad_norm": 1.7460967302322388,
      "learning_rate": 2e-05,
      "loss": 0.9053,
      "step": 895
    },
    {
      "epoch": 0.309285467725233,
      "grad_norm": 1.8448258638381958,
      "learning_rate": 2e-05,
      "loss": 0.9456,
      "step": 896
    },
    {
      "epoch": 0.3096306523990335,
      "grad_norm": 1.7280840873718262,
      "learning_rate": 2e-05,
      "loss": 0.8954,
      "step": 897
    },
    {
      "epoch": 0.309975837072834,
      "grad_norm": 1.685705304145813,
      "learning_rate": 2e-05,
      "loss": 0.9044,
      "step": 898
    },
    {
      "epoch": 0.31032102174663445,
      "grad_norm": 1.7303873300552368,
      "learning_rate": 2e-05,
      "loss": 0.9713,
      "step": 899
    },
    {
      "epoch": 0.3106662064204349,
      "grad_norm": 1.6379311084747314,
      "learning_rate": 2e-05,
      "loss": 0.8705,
      "step": 900
    },
    {
      "epoch": 0.3110113910942354,
      "grad_norm": 1.597042202949524,
      "learning_rate": 2e-05,
      "loss": 0.9736,
      "step": 901
    },
    {
      "epoch": 0.3113565757680359,
      "grad_norm": 1.5617823600769043,
      "learning_rate": 2e-05,
      "loss": 0.9561,
      "step": 902
    },
    {
      "epoch": 0.3117017604418364,
      "grad_norm": 1.6965551376342773,
      "learning_rate": 2e-05,
      "loss": 0.8673,
      "step": 903
    },
    {
      "epoch": 0.31204694511563685,
      "grad_norm": 1.5345252752304077,
      "learning_rate": 2e-05,
      "loss": 0.9348,
      "step": 904
    },
    {
      "epoch": 0.31239212978943737,
      "grad_norm": 1.5389609336853027,
      "learning_rate": 2e-05,
      "loss": 0.9315,
      "step": 905
    },
    {
      "epoch": 0.3127373144632378,
      "grad_norm": 1.8062388896942139,
      "learning_rate": 2e-05,
      "loss": 0.848,
      "step": 906
    },
    {
      "epoch": 0.31308249913703834,
      "grad_norm": 1.7132835388183594,
      "learning_rate": 2e-05,
      "loss": 0.8764,
      "step": 907
    },
    {
      "epoch": 0.3134276838108388,
      "grad_norm": 1.619765043258667,
      "learning_rate": 2e-05,
      "loss": 0.9798,
      "step": 908
    },
    {
      "epoch": 0.31377286848463926,
      "grad_norm": 1.615787386894226,
      "learning_rate": 2e-05,
      "loss": 0.8684,
      "step": 909
    },
    {
      "epoch": 0.31411805315843977,
      "grad_norm": 1.6857084035873413,
      "learning_rate": 2e-05,
      "loss": 0.9249,
      "step": 910
    },
    {
      "epoch": 0.3144632378322402,
      "grad_norm": 1.8186959028244019,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 911
    },
    {
      "epoch": 0.31480842250604074,
      "grad_norm": 1.6915085315704346,
      "learning_rate": 2e-05,
      "loss": 0.958,
      "step": 912
    },
    {
      "epoch": 0.3151536071798412,
      "grad_norm": 1.6428018808364868,
      "learning_rate": 2e-05,
      "loss": 0.8696,
      "step": 913
    },
    {
      "epoch": 0.3154987918536417,
      "grad_norm": 1.780745267868042,
      "learning_rate": 2e-05,
      "loss": 0.8986,
      "step": 914
    },
    {
      "epoch": 0.31584397652744217,
      "grad_norm": 1.6675376892089844,
      "learning_rate": 2e-05,
      "loss": 0.9524,
      "step": 915
    },
    {
      "epoch": 0.3161891612012427,
      "grad_norm": 1.7750327587127686,
      "learning_rate": 2e-05,
      "loss": 0.8959,
      "step": 916
    },
    {
      "epoch": 0.31653434587504314,
      "grad_norm": 1.7461276054382324,
      "learning_rate": 2e-05,
      "loss": 0.9543,
      "step": 917
    },
    {
      "epoch": 0.31687953054884366,
      "grad_norm": 1.6284055709838867,
      "learning_rate": 2e-05,
      "loss": 0.9275,
      "step": 918
    },
    {
      "epoch": 0.3172247152226441,
      "grad_norm": 2.3601138591766357,
      "learning_rate": 2e-05,
      "loss": 0.893,
      "step": 919
    },
    {
      "epoch": 0.3175698998964446,
      "grad_norm": 1.8028390407562256,
      "learning_rate": 2e-05,
      "loss": 0.9525,
      "step": 920
    },
    {
      "epoch": 0.3179150845702451,
      "grad_norm": 1.6674362421035767,
      "learning_rate": 2e-05,
      "loss": 0.9348,
      "step": 921
    },
    {
      "epoch": 0.31826026924404555,
      "grad_norm": 1.6033390760421753,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 922
    },
    {
      "epoch": 0.31860545391784606,
      "grad_norm": 1.7633743286132812,
      "learning_rate": 2e-05,
      "loss": 0.8645,
      "step": 923
    },
    {
      "epoch": 0.3189506385916465,
      "grad_norm": 1.6629873514175415,
      "learning_rate": 2e-05,
      "loss": 0.8892,
      "step": 924
    },
    {
      "epoch": 0.31929582326544703,
      "grad_norm": 1.5390338897705078,
      "learning_rate": 2e-05,
      "loss": 0.8506,
      "step": 925
    },
    {
      "epoch": 0.3196410079392475,
      "grad_norm": 1.5772080421447754,
      "learning_rate": 2e-05,
      "loss": 0.9565,
      "step": 926
    },
    {
      "epoch": 0.319986192613048,
      "grad_norm": 1.8593536615371704,
      "learning_rate": 2e-05,
      "loss": 0.8973,
      "step": 927
    },
    {
      "epoch": 0.32033137728684846,
      "grad_norm": 1.604623556137085,
      "learning_rate": 2e-05,
      "loss": 0.856,
      "step": 928
    },
    {
      "epoch": 0.3206765619606489,
      "grad_norm": 1.5523700714111328,
      "learning_rate": 2e-05,
      "loss": 0.9007,
      "step": 929
    },
    {
      "epoch": 0.32102174663444943,
      "grad_norm": 1.6843571662902832,
      "learning_rate": 2e-05,
      "loss": 0.9086,
      "step": 930
    },
    {
      "epoch": 0.3213669313082499,
      "grad_norm": 1.5077333450317383,
      "learning_rate": 2e-05,
      "loss": 0.9161,
      "step": 931
    },
    {
      "epoch": 0.3217121159820504,
      "grad_norm": 1.6416453123092651,
      "learning_rate": 2e-05,
      "loss": 0.9701,
      "step": 932
    },
    {
      "epoch": 0.32205730065585086,
      "grad_norm": 1.7115027904510498,
      "learning_rate": 2e-05,
      "loss": 0.8962,
      "step": 933
    },
    {
      "epoch": 0.3224024853296514,
      "grad_norm": 1.655133843421936,
      "learning_rate": 2e-05,
      "loss": 0.9694,
      "step": 934
    },
    {
      "epoch": 0.32274767000345184,
      "grad_norm": 1.67459237575531,
      "learning_rate": 2e-05,
      "loss": 0.8681,
      "step": 935
    },
    {
      "epoch": 0.32309285467725235,
      "grad_norm": 1.6772382259368896,
      "learning_rate": 2e-05,
      "loss": 0.9605,
      "step": 936
    },
    {
      "epoch": 0.3234380393510528,
      "grad_norm": 1.906191349029541,
      "learning_rate": 2e-05,
      "loss": 0.8268,
      "step": 937
    },
    {
      "epoch": 0.3237832240248533,
      "grad_norm": 1.6939384937286377,
      "learning_rate": 2e-05,
      "loss": 0.9032,
      "step": 938
    },
    {
      "epoch": 0.3241284086986538,
      "grad_norm": 1.828428030014038,
      "learning_rate": 2e-05,
      "loss": 0.9103,
      "step": 939
    },
    {
      "epoch": 0.32447359337245424,
      "grad_norm": 2.275761604309082,
      "learning_rate": 2e-05,
      "loss": 0.9836,
      "step": 940
    },
    {
      "epoch": 0.32481877804625475,
      "grad_norm": 1.668895959854126,
      "learning_rate": 2e-05,
      "loss": 0.8671,
      "step": 941
    },
    {
      "epoch": 0.3251639627200552,
      "grad_norm": 1.7006646394729614,
      "learning_rate": 2e-05,
      "loss": 0.8135,
      "step": 942
    },
    {
      "epoch": 0.3255091473938557,
      "grad_norm": 1.6857107877731323,
      "learning_rate": 2e-05,
      "loss": 0.9053,
      "step": 943
    },
    {
      "epoch": 0.3258543320676562,
      "grad_norm": 1.7442611455917358,
      "learning_rate": 2e-05,
      "loss": 0.8261,
      "step": 944
    },
    {
      "epoch": 0.3261995167414567,
      "grad_norm": 1.6823408603668213,
      "learning_rate": 2e-05,
      "loss": 0.9875,
      "step": 945
    },
    {
      "epoch": 0.32654470141525715,
      "grad_norm": 1.7144306898117065,
      "learning_rate": 2e-05,
      "loss": 0.8835,
      "step": 946
    },
    {
      "epoch": 0.32688988608905767,
      "grad_norm": 1.5746104717254639,
      "learning_rate": 2e-05,
      "loss": 0.94,
      "step": 947
    },
    {
      "epoch": 0.3272350707628581,
      "grad_norm": 1.625256896018982,
      "learning_rate": 2e-05,
      "loss": 0.8052,
      "step": 948
    },
    {
      "epoch": 0.3275802554366586,
      "grad_norm": 1.6944369077682495,
      "learning_rate": 2e-05,
      "loss": 0.9241,
      "step": 949
    },
    {
      "epoch": 0.3279254401104591,
      "grad_norm": 1.6186827421188354,
      "learning_rate": 2e-05,
      "loss": 0.8998,
      "step": 950
    },
    {
      "epoch": 0.32827062478425956,
      "grad_norm": 1.5547049045562744,
      "learning_rate": 2e-05,
      "loss": 0.9054,
      "step": 951
    },
    {
      "epoch": 0.32861580945806007,
      "grad_norm": 1.6540756225585938,
      "learning_rate": 2e-05,
      "loss": 0.9607,
      "step": 952
    },
    {
      "epoch": 0.32896099413186053,
      "grad_norm": 1.8477704524993896,
      "learning_rate": 2e-05,
      "loss": 0.9672,
      "step": 953
    },
    {
      "epoch": 0.32930617880566104,
      "grad_norm": 1.8360744714736938,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 954
    },
    {
      "epoch": 0.3296513634794615,
      "grad_norm": 1.6610572338104248,
      "learning_rate": 2e-05,
      "loss": 0.8986,
      "step": 955
    },
    {
      "epoch": 0.329996548153262,
      "grad_norm": 1.8002275228500366,
      "learning_rate": 2e-05,
      "loss": 0.891,
      "step": 956
    },
    {
      "epoch": 0.3303417328270625,
      "grad_norm": 1.7493805885314941,
      "learning_rate": 2e-05,
      "loss": 0.9406,
      "step": 957
    },
    {
      "epoch": 0.330686917500863,
      "grad_norm": 1.7020171880722046,
      "learning_rate": 2e-05,
      "loss": 0.9086,
      "step": 958
    },
    {
      "epoch": 0.33103210217466345,
      "grad_norm": 1.5964460372924805,
      "learning_rate": 2e-05,
      "loss": 0.9502,
      "step": 959
    },
    {
      "epoch": 0.3313772868484639,
      "grad_norm": 1.6132729053497314,
      "learning_rate": 2e-05,
      "loss": 0.8888,
      "step": 960
    },
    {
      "epoch": 0.3317224715222644,
      "grad_norm": 1.5212507247924805,
      "learning_rate": 2e-05,
      "loss": 0.8947,
      "step": 961
    },
    {
      "epoch": 0.3320676561960649,
      "grad_norm": 1.5986828804016113,
      "learning_rate": 2e-05,
      "loss": 1.0076,
      "step": 962
    },
    {
      "epoch": 0.3324128408698654,
      "grad_norm": 1.6346479654312134,
      "learning_rate": 2e-05,
      "loss": 0.9114,
      "step": 963
    },
    {
      "epoch": 0.33275802554366585,
      "grad_norm": 1.6721607446670532,
      "learning_rate": 2e-05,
      "loss": 0.9026,
      "step": 964
    },
    {
      "epoch": 0.33310321021746636,
      "grad_norm": 1.713976263999939,
      "learning_rate": 2e-05,
      "loss": 0.9474,
      "step": 965
    },
    {
      "epoch": 0.3334483948912668,
      "grad_norm": 1.6437619924545288,
      "learning_rate": 2e-05,
      "loss": 0.9476,
      "step": 966
    },
    {
      "epoch": 0.33379357956506733,
      "grad_norm": 1.6984494924545288,
      "learning_rate": 2e-05,
      "loss": 0.9457,
      "step": 967
    },
    {
      "epoch": 0.3341387642388678,
      "grad_norm": 1.6257028579711914,
      "learning_rate": 2e-05,
      "loss": 0.8772,
      "step": 968
    },
    {
      "epoch": 0.3344839489126683,
      "grad_norm": 1.5189831256866455,
      "learning_rate": 2e-05,
      "loss": 0.8536,
      "step": 969
    },
    {
      "epoch": 0.33482913358646876,
      "grad_norm": 1.6899126768112183,
      "learning_rate": 2e-05,
      "loss": 0.862,
      "step": 970
    },
    {
      "epoch": 0.3351743182602692,
      "grad_norm": 1.5835752487182617,
      "learning_rate": 2e-05,
      "loss": 0.9728,
      "step": 971
    },
    {
      "epoch": 0.33551950293406974,
      "grad_norm": 1.5936238765716553,
      "learning_rate": 2e-05,
      "loss": 0.9302,
      "step": 972
    },
    {
      "epoch": 0.3358646876078702,
      "grad_norm": 1.6743495464324951,
      "learning_rate": 2e-05,
      "loss": 0.9904,
      "step": 973
    },
    {
      "epoch": 0.3362098722816707,
      "grad_norm": 1.852890133857727,
      "learning_rate": 2e-05,
      "loss": 0.8802,
      "step": 974
    },
    {
      "epoch": 0.33655505695547117,
      "grad_norm": 1.6477978229522705,
      "learning_rate": 2e-05,
      "loss": 0.895,
      "step": 975
    },
    {
      "epoch": 0.3369002416292717,
      "grad_norm": 1.7276185750961304,
      "learning_rate": 2e-05,
      "loss": 0.8555,
      "step": 976
    },
    {
      "epoch": 0.33724542630307214,
      "grad_norm": 1.6290721893310547,
      "learning_rate": 2e-05,
      "loss": 0.8937,
      "step": 977
    },
    {
      "epoch": 0.33759061097687265,
      "grad_norm": 1.635719895362854,
      "learning_rate": 2e-05,
      "loss": 0.8259,
      "step": 978
    },
    {
      "epoch": 0.3379357956506731,
      "grad_norm": 1.8739209175109863,
      "learning_rate": 2e-05,
      "loss": 0.8961,
      "step": 979
    },
    {
      "epoch": 0.33828098032447357,
      "grad_norm": 1.813835620880127,
      "learning_rate": 2e-05,
      "loss": 0.8966,
      "step": 980
    },
    {
      "epoch": 0.3386261649982741,
      "grad_norm": 1.654323697090149,
      "learning_rate": 2e-05,
      "loss": 0.9426,
      "step": 981
    },
    {
      "epoch": 0.33897134967207454,
      "grad_norm": 1.6096562147140503,
      "learning_rate": 2e-05,
      "loss": 0.9453,
      "step": 982
    },
    {
      "epoch": 0.33931653434587505,
      "grad_norm": 1.7795625925064087,
      "learning_rate": 2e-05,
      "loss": 0.8564,
      "step": 983
    },
    {
      "epoch": 0.3396617190196755,
      "grad_norm": 1.6719855070114136,
      "learning_rate": 2e-05,
      "loss": 0.8561,
      "step": 984
    },
    {
      "epoch": 0.340006903693476,
      "grad_norm": 1.5288970470428467,
      "learning_rate": 2e-05,
      "loss": 0.9435,
      "step": 985
    },
    {
      "epoch": 0.3403520883672765,
      "grad_norm": 1.6818351745605469,
      "learning_rate": 2e-05,
      "loss": 0.894,
      "step": 986
    },
    {
      "epoch": 0.340697273041077,
      "grad_norm": 1.6177457571029663,
      "learning_rate": 2e-05,
      "loss": 0.8825,
      "step": 987
    },
    {
      "epoch": 0.34104245771487746,
      "grad_norm": 1.6902902126312256,
      "learning_rate": 2e-05,
      "loss": 0.8764,
      "step": 988
    },
    {
      "epoch": 0.34138764238867797,
      "grad_norm": 1.5702950954437256,
      "learning_rate": 2e-05,
      "loss": 0.8845,
      "step": 989
    },
    {
      "epoch": 0.34173282706247843,
      "grad_norm": 1.7034510374069214,
      "learning_rate": 2e-05,
      "loss": 0.8585,
      "step": 990
    },
    {
      "epoch": 0.3420780117362789,
      "grad_norm": 1.7412785291671753,
      "learning_rate": 2e-05,
      "loss": 0.9235,
      "step": 991
    },
    {
      "epoch": 0.3424231964100794,
      "grad_norm": 1.7440210580825806,
      "learning_rate": 2e-05,
      "loss": 0.9202,
      "step": 992
    },
    {
      "epoch": 0.34276838108387986,
      "grad_norm": 1.7051361799240112,
      "learning_rate": 2e-05,
      "loss": 0.9422,
      "step": 993
    },
    {
      "epoch": 0.34311356575768037,
      "grad_norm": 1.5997254848480225,
      "learning_rate": 2e-05,
      "loss": 0.8981,
      "step": 994
    },
    {
      "epoch": 0.34345875043148083,
      "grad_norm": 1.736916184425354,
      "learning_rate": 2e-05,
      "loss": 0.9253,
      "step": 995
    },
    {
      "epoch": 0.34380393510528134,
      "grad_norm": 1.5723429918289185,
      "learning_rate": 2e-05,
      "loss": 0.994,
      "step": 996
    },
    {
      "epoch": 0.3441491197790818,
      "grad_norm": 1.7109962701797485,
      "learning_rate": 2e-05,
      "loss": 0.8104,
      "step": 997
    },
    {
      "epoch": 0.3444943044528823,
      "grad_norm": 1.6359150409698486,
      "learning_rate": 2e-05,
      "loss": 0.9471,
      "step": 998
    },
    {
      "epoch": 0.3448394891266828,
      "grad_norm": 1.6101244688034058,
      "learning_rate": 2e-05,
      "loss": 0.9432,
      "step": 999
    },
    {
      "epoch": 0.34518467380048323,
      "grad_norm": 1.684421420097351,
      "learning_rate": 2e-05,
      "loss": 0.8699,
      "step": 1000
    },
    {
      "epoch": 0.34552985847428375,
      "grad_norm": 2.0742785930633545,
      "learning_rate": 2e-05,
      "loss": 0.9604,
      "step": 1001
    },
    {
      "epoch": 0.3458750431480842,
      "grad_norm": 1.6843125820159912,
      "learning_rate": 2e-05,
      "loss": 0.9403,
      "step": 1002
    },
    {
      "epoch": 0.3462202278218847,
      "grad_norm": 2.2008163928985596,
      "learning_rate": 2e-05,
      "loss": 0.9045,
      "step": 1003
    },
    {
      "epoch": 0.3465654124956852,
      "grad_norm": 1.7182819843292236,
      "learning_rate": 2e-05,
      "loss": 0.8598,
      "step": 1004
    },
    {
      "epoch": 0.3469105971694857,
      "grad_norm": 1.6337913274765015,
      "learning_rate": 2e-05,
      "loss": 0.8398,
      "step": 1005
    },
    {
      "epoch": 0.34725578184328615,
      "grad_norm": 1.5920555591583252,
      "learning_rate": 2e-05,
      "loss": 0.9247,
      "step": 1006
    },
    {
      "epoch": 0.34760096651708666,
      "grad_norm": 1.626271367073059,
      "learning_rate": 2e-05,
      "loss": 0.9164,
      "step": 1007
    },
    {
      "epoch": 0.3479461511908871,
      "grad_norm": 1.564774990081787,
      "learning_rate": 2e-05,
      "loss": 0.9289,
      "step": 1008
    },
    {
      "epoch": 0.34829133586468763,
      "grad_norm": 1.5999177694320679,
      "learning_rate": 2e-05,
      "loss": 0.8304,
      "step": 1009
    },
    {
      "epoch": 0.3486365205384881,
      "grad_norm": 1.6278228759765625,
      "learning_rate": 2e-05,
      "loss": 0.8896,
      "step": 1010
    },
    {
      "epoch": 0.34898170521228855,
      "grad_norm": 1.5343235731124878,
      "learning_rate": 2e-05,
      "loss": 0.8844,
      "step": 1011
    },
    {
      "epoch": 0.34932688988608906,
      "grad_norm": 1.7388341426849365,
      "learning_rate": 2e-05,
      "loss": 0.8538,
      "step": 1012
    },
    {
      "epoch": 0.3496720745598895,
      "grad_norm": 1.490622639656067,
      "learning_rate": 2e-05,
      "loss": 0.9232,
      "step": 1013
    },
    {
      "epoch": 0.35001725923369004,
      "grad_norm": 1.6785506010055542,
      "learning_rate": 2e-05,
      "loss": 0.9219,
      "step": 1014
    },
    {
      "epoch": 0.3503624439074905,
      "grad_norm": 1.7068259716033936,
      "learning_rate": 2e-05,
      "loss": 0.8456,
      "step": 1015
    },
    {
      "epoch": 0.350707628581291,
      "grad_norm": 1.5036598443984985,
      "learning_rate": 2e-05,
      "loss": 0.85,
      "step": 1016
    },
    {
      "epoch": 0.35105281325509147,
      "grad_norm": 3.173567533493042,
      "learning_rate": 2e-05,
      "loss": 0.9978,
      "step": 1017
    },
    {
      "epoch": 0.351397997928892,
      "grad_norm": 1.4948989152908325,
      "learning_rate": 2e-05,
      "loss": 0.8689,
      "step": 1018
    },
    {
      "epoch": 0.35174318260269244,
      "grad_norm": 1.6468647718429565,
      "learning_rate": 2e-05,
      "loss": 0.955,
      "step": 1019
    },
    {
      "epoch": 0.3520883672764929,
      "grad_norm": 1.6634734869003296,
      "learning_rate": 2e-05,
      "loss": 0.8657,
      "step": 1020
    },
    {
      "epoch": 0.3524335519502934,
      "grad_norm": 1.7190321683883667,
      "learning_rate": 2e-05,
      "loss": 0.8607,
      "step": 1021
    },
    {
      "epoch": 0.35277873662409387,
      "grad_norm": 1.7545442581176758,
      "learning_rate": 2e-05,
      "loss": 0.9954,
      "step": 1022
    },
    {
      "epoch": 0.3531239212978944,
      "grad_norm": 1.8577117919921875,
      "learning_rate": 2e-05,
      "loss": 0.873,
      "step": 1023
    },
    {
      "epoch": 0.35346910597169484,
      "grad_norm": 1.5077704191207886,
      "learning_rate": 2e-05,
      "loss": 0.9071,
      "step": 1024
    },
    {
      "epoch": 0.35381429064549536,
      "grad_norm": 1.694239854812622,
      "learning_rate": 2e-05,
      "loss": 0.97,
      "step": 1025
    },
    {
      "epoch": 0.3541594753192958,
      "grad_norm": 1.9406198263168335,
      "learning_rate": 2e-05,
      "loss": 0.9259,
      "step": 1026
    },
    {
      "epoch": 0.3545046599930963,
      "grad_norm": 1.6399697065353394,
      "learning_rate": 2e-05,
      "loss": 0.9689,
      "step": 1027
    },
    {
      "epoch": 0.3548498446668968,
      "grad_norm": 1.6161247491836548,
      "learning_rate": 2e-05,
      "loss": 0.8789,
      "step": 1028
    },
    {
      "epoch": 0.3551950293406973,
      "grad_norm": 1.6041107177734375,
      "learning_rate": 2e-05,
      "loss": 0.9138,
      "step": 1029
    },
    {
      "epoch": 0.35554021401449776,
      "grad_norm": 1.5663080215454102,
      "learning_rate": 2e-05,
      "loss": 0.9057,
      "step": 1030
    },
    {
      "epoch": 0.3558853986882982,
      "grad_norm": 1.5514832735061646,
      "learning_rate": 2e-05,
      "loss": 0.8669,
      "step": 1031
    },
    {
      "epoch": 0.35623058336209873,
      "grad_norm": 1.6057826280593872,
      "learning_rate": 2e-05,
      "loss": 0.9631,
      "step": 1032
    },
    {
      "epoch": 0.3565757680358992,
      "grad_norm": 1.7081916332244873,
      "learning_rate": 2e-05,
      "loss": 0.9457,
      "step": 1033
    },
    {
      "epoch": 0.3569209527096997,
      "grad_norm": 1.6234177350997925,
      "learning_rate": 2e-05,
      "loss": 0.8725,
      "step": 1034
    },
    {
      "epoch": 0.35726613738350016,
      "grad_norm": 1.5854301452636719,
      "learning_rate": 2e-05,
      "loss": 0.9575,
      "step": 1035
    },
    {
      "epoch": 0.3576113220573007,
      "grad_norm": 1.6256606578826904,
      "learning_rate": 2e-05,
      "loss": 0.8964,
      "step": 1036
    },
    {
      "epoch": 0.35795650673110113,
      "grad_norm": 1.7297000885009766,
      "learning_rate": 2e-05,
      "loss": 0.8794,
      "step": 1037
    },
    {
      "epoch": 0.35830169140490165,
      "grad_norm": 1.7303743362426758,
      "learning_rate": 2e-05,
      "loss": 0.8436,
      "step": 1038
    },
    {
      "epoch": 0.3586468760787021,
      "grad_norm": 1.6073219776153564,
      "learning_rate": 2e-05,
      "loss": 0.8836,
      "step": 1039
    },
    {
      "epoch": 0.35899206075250256,
      "grad_norm": 2.1503310203552246,
      "learning_rate": 2e-05,
      "loss": 0.9294,
      "step": 1040
    },
    {
      "epoch": 0.3593372454263031,
      "grad_norm": 1.877891182899475,
      "learning_rate": 2e-05,
      "loss": 0.9596,
      "step": 1041
    },
    {
      "epoch": 0.35968243010010353,
      "grad_norm": 1.7106224298477173,
      "learning_rate": 2e-05,
      "loss": 1.0045,
      "step": 1042
    },
    {
      "epoch": 0.36002761477390405,
      "grad_norm": 1.65625,
      "learning_rate": 2e-05,
      "loss": 0.8802,
      "step": 1043
    },
    {
      "epoch": 0.3603727994477045,
      "grad_norm": 1.5513604879379272,
      "learning_rate": 2e-05,
      "loss": 0.9273,
      "step": 1044
    },
    {
      "epoch": 0.360717984121505,
      "grad_norm": 1.534747838973999,
      "learning_rate": 2e-05,
      "loss": 0.9175,
      "step": 1045
    },
    {
      "epoch": 0.3610631687953055,
      "grad_norm": 1.7413698434829712,
      "learning_rate": 2e-05,
      "loss": 0.9252,
      "step": 1046
    },
    {
      "epoch": 0.361408353469106,
      "grad_norm": 1.5107624530792236,
      "learning_rate": 2e-05,
      "loss": 0.8956,
      "step": 1047
    },
    {
      "epoch": 0.36175353814290645,
      "grad_norm": 1.7579268217086792,
      "learning_rate": 2e-05,
      "loss": 1.0047,
      "step": 1048
    },
    {
      "epoch": 0.36209872281670696,
      "grad_norm": 1.610546350479126,
      "learning_rate": 2e-05,
      "loss": 0.8645,
      "step": 1049
    },
    {
      "epoch": 0.3624439074905074,
      "grad_norm": 1.5507129430770874,
      "learning_rate": 2e-05,
      "loss": 0.9236,
      "step": 1050
    },
    {
      "epoch": 0.3627890921643079,
      "grad_norm": 1.5756187438964844,
      "learning_rate": 2e-05,
      "loss": 0.8948,
      "step": 1051
    },
    {
      "epoch": 0.3631342768381084,
      "grad_norm": 1.681405782699585,
      "learning_rate": 2e-05,
      "loss": 0.9222,
      "step": 1052
    },
    {
      "epoch": 0.36347946151190885,
      "grad_norm": 1.6068263053894043,
      "learning_rate": 2e-05,
      "loss": 0.8805,
      "step": 1053
    },
    {
      "epoch": 0.36382464618570937,
      "grad_norm": 1.6753419637680054,
      "learning_rate": 2e-05,
      "loss": 0.9583,
      "step": 1054
    },
    {
      "epoch": 0.3641698308595098,
      "grad_norm": 1.5050057172775269,
      "learning_rate": 2e-05,
      "loss": 0.915,
      "step": 1055
    },
    {
      "epoch": 0.36451501553331034,
      "grad_norm": 1.6165833473205566,
      "learning_rate": 2e-05,
      "loss": 0.9321,
      "step": 1056
    },
    {
      "epoch": 0.3648602002071108,
      "grad_norm": 1.6189064979553223,
      "learning_rate": 2e-05,
      "loss": 0.8727,
      "step": 1057
    },
    {
      "epoch": 0.3652053848809113,
      "grad_norm": 1.597253680229187,
      "learning_rate": 2e-05,
      "loss": 0.8846,
      "step": 1058
    },
    {
      "epoch": 0.36555056955471177,
      "grad_norm": 1.560750126838684,
      "learning_rate": 2e-05,
      "loss": 0.8784,
      "step": 1059
    },
    {
      "epoch": 0.3658957542285122,
      "grad_norm": 1.504127025604248,
      "learning_rate": 2e-05,
      "loss": 0.8883,
      "step": 1060
    },
    {
      "epoch": 0.36624093890231274,
      "grad_norm": 1.6516985893249512,
      "learning_rate": 2e-05,
      "loss": 0.9429,
      "step": 1061
    },
    {
      "epoch": 0.3665861235761132,
      "grad_norm": 1.6692153215408325,
      "learning_rate": 2e-05,
      "loss": 0.9595,
      "step": 1062
    },
    {
      "epoch": 0.3669313082499137,
      "grad_norm": 1.5720232725143433,
      "learning_rate": 2e-05,
      "loss": 0.872,
      "step": 1063
    },
    {
      "epoch": 0.36727649292371417,
      "grad_norm": 1.801070213317871,
      "learning_rate": 2e-05,
      "loss": 0.9006,
      "step": 1064
    },
    {
      "epoch": 0.3676216775975147,
      "grad_norm": 1.6021748781204224,
      "learning_rate": 2e-05,
      "loss": 0.8883,
      "step": 1065
    },
    {
      "epoch": 0.36796686227131514,
      "grad_norm": 1.5010125637054443,
      "learning_rate": 2e-05,
      "loss": 0.8753,
      "step": 1066
    },
    {
      "epoch": 0.36831204694511566,
      "grad_norm": 1.6016799211502075,
      "learning_rate": 2e-05,
      "loss": 0.8636,
      "step": 1067
    },
    {
      "epoch": 0.3686572316189161,
      "grad_norm": 1.9642295837402344,
      "learning_rate": 2e-05,
      "loss": 0.8931,
      "step": 1068
    },
    {
      "epoch": 0.36900241629271663,
      "grad_norm": 1.6385726928710938,
      "learning_rate": 2e-05,
      "loss": 0.9434,
      "step": 1069
    },
    {
      "epoch": 0.3693476009665171,
      "grad_norm": 1.5728625059127808,
      "learning_rate": 2e-05,
      "loss": 0.8673,
      "step": 1070
    },
    {
      "epoch": 0.36969278564031754,
      "grad_norm": 1.527309775352478,
      "learning_rate": 2e-05,
      "loss": 0.9205,
      "step": 1071
    },
    {
      "epoch": 0.37003797031411806,
      "grad_norm": 1.6026946306228638,
      "learning_rate": 2e-05,
      "loss": 0.9119,
      "step": 1072
    },
    {
      "epoch": 0.3703831549879185,
      "grad_norm": 1.6800262928009033,
      "learning_rate": 2e-05,
      "loss": 0.8984,
      "step": 1073
    },
    {
      "epoch": 0.37072833966171903,
      "grad_norm": 1.6163631677627563,
      "learning_rate": 2e-05,
      "loss": 0.9278,
      "step": 1074
    },
    {
      "epoch": 0.3710735243355195,
      "grad_norm": 1.673244595527649,
      "learning_rate": 2e-05,
      "loss": 0.9643,
      "step": 1075
    },
    {
      "epoch": 0.37141870900932,
      "grad_norm": 1.6695525646209717,
      "learning_rate": 2e-05,
      "loss": 0.9473,
      "step": 1076
    },
    {
      "epoch": 0.37176389368312046,
      "grad_norm": 1.5131129026412964,
      "learning_rate": 2e-05,
      "loss": 0.8858,
      "step": 1077
    },
    {
      "epoch": 0.372109078356921,
      "grad_norm": 1.6407164335250854,
      "learning_rate": 2e-05,
      "loss": 0.8822,
      "step": 1078
    },
    {
      "epoch": 0.37245426303072143,
      "grad_norm": 1.8536149263381958,
      "learning_rate": 2e-05,
      "loss": 0.9246,
      "step": 1079
    },
    {
      "epoch": 0.37279944770452195,
      "grad_norm": 1.681141972541809,
      "learning_rate": 2e-05,
      "loss": 0.9682,
      "step": 1080
    },
    {
      "epoch": 0.3731446323783224,
      "grad_norm": 1.4660671949386597,
      "learning_rate": 2e-05,
      "loss": 0.8817,
      "step": 1081
    },
    {
      "epoch": 0.37348981705212286,
      "grad_norm": 1.7653475999832153,
      "learning_rate": 2e-05,
      "loss": 0.9283,
      "step": 1082
    },
    {
      "epoch": 0.3738350017259234,
      "grad_norm": 1.62350332736969,
      "learning_rate": 2e-05,
      "loss": 0.8755,
      "step": 1083
    },
    {
      "epoch": 0.37418018639972384,
      "grad_norm": 1.5278569459915161,
      "learning_rate": 2e-05,
      "loss": 0.9258,
      "step": 1084
    },
    {
      "epoch": 0.37452537107352435,
      "grad_norm": 1.7024677991867065,
      "learning_rate": 2e-05,
      "loss": 0.7958,
      "step": 1085
    },
    {
      "epoch": 0.3748705557473248,
      "grad_norm": 1.7562886476516724,
      "learning_rate": 2e-05,
      "loss": 0.9217,
      "step": 1086
    },
    {
      "epoch": 0.3752157404211253,
      "grad_norm": 1.5631718635559082,
      "learning_rate": 2e-05,
      "loss": 0.8246,
      "step": 1087
    },
    {
      "epoch": 0.3755609250949258,
      "grad_norm": 1.4991167783737183,
      "learning_rate": 2e-05,
      "loss": 0.9182,
      "step": 1088
    },
    {
      "epoch": 0.3759061097687263,
      "grad_norm": 1.5204633474349976,
      "learning_rate": 2e-05,
      "loss": 0.9312,
      "step": 1089
    },
    {
      "epoch": 0.37625129444252675,
      "grad_norm": 1.4889425039291382,
      "learning_rate": 2e-05,
      "loss": 0.8474,
      "step": 1090
    },
    {
      "epoch": 0.3765964791163272,
      "grad_norm": 1.6669284105300903,
      "learning_rate": 2e-05,
      "loss": 0.9123,
      "step": 1091
    },
    {
      "epoch": 0.3769416637901277,
      "grad_norm": 1.6073970794677734,
      "learning_rate": 2e-05,
      "loss": 0.9446,
      "step": 1092
    },
    {
      "epoch": 0.3772868484639282,
      "grad_norm": 1.5956180095672607,
      "learning_rate": 2e-05,
      "loss": 0.9363,
      "step": 1093
    },
    {
      "epoch": 0.3776320331377287,
      "grad_norm": 1.6018292903900146,
      "learning_rate": 2e-05,
      "loss": 0.8562,
      "step": 1094
    },
    {
      "epoch": 0.37797721781152915,
      "grad_norm": 1.6084110736846924,
      "learning_rate": 2e-05,
      "loss": 0.8816,
      "step": 1095
    },
    {
      "epoch": 0.37832240248532967,
      "grad_norm": 1.7237498760223389,
      "learning_rate": 2e-05,
      "loss": 0.896,
      "step": 1096
    },
    {
      "epoch": 0.3786675871591301,
      "grad_norm": 1.7068252563476562,
      "learning_rate": 2e-05,
      "loss": 0.9689,
      "step": 1097
    },
    {
      "epoch": 0.37901277183293064,
      "grad_norm": 1.7899842262268066,
      "learning_rate": 2e-05,
      "loss": 0.9513,
      "step": 1098
    },
    {
      "epoch": 0.3793579565067311,
      "grad_norm": 1.6498496532440186,
      "learning_rate": 2e-05,
      "loss": 0.9637,
      "step": 1099
    },
    {
      "epoch": 0.3797031411805316,
      "grad_norm": 1.5909162759780884,
      "learning_rate": 2e-05,
      "loss": 0.8571,
      "step": 1100
    },
    {
      "epoch": 0.38004832585433207,
      "grad_norm": 1.6554358005523682,
      "learning_rate": 2e-05,
      "loss": 0.884,
      "step": 1101
    },
    {
      "epoch": 0.38039351052813253,
      "grad_norm": 1.6156816482543945,
      "learning_rate": 2e-05,
      "loss": 0.8993,
      "step": 1102
    },
    {
      "epoch": 0.38073869520193304,
      "grad_norm": 1.5693823099136353,
      "learning_rate": 2e-05,
      "loss": 0.8856,
      "step": 1103
    },
    {
      "epoch": 0.3810838798757335,
      "grad_norm": 1.5999621152877808,
      "learning_rate": 2e-05,
      "loss": 0.9273,
      "step": 1104
    },
    {
      "epoch": 0.381429064549534,
      "grad_norm": 1.5624827146530151,
      "learning_rate": 2e-05,
      "loss": 0.9235,
      "step": 1105
    },
    {
      "epoch": 0.38177424922333447,
      "grad_norm": 1.5272258520126343,
      "learning_rate": 2e-05,
      "loss": 0.8738,
      "step": 1106
    },
    {
      "epoch": 0.382119433897135,
      "grad_norm": 1.5856508016586304,
      "learning_rate": 2e-05,
      "loss": 0.9187,
      "step": 1107
    },
    {
      "epoch": 0.38246461857093544,
      "grad_norm": 1.711384654045105,
      "learning_rate": 2e-05,
      "loss": 0.9487,
      "step": 1108
    },
    {
      "epoch": 0.38280980324473596,
      "grad_norm": 1.6818006038665771,
      "learning_rate": 2e-05,
      "loss": 0.9188,
      "step": 1109
    },
    {
      "epoch": 0.3831549879185364,
      "grad_norm": 1.5769330263137817,
      "learning_rate": 2e-05,
      "loss": 0.8316,
      "step": 1110
    },
    {
      "epoch": 0.3835001725923369,
      "grad_norm": 1.7311781644821167,
      "learning_rate": 2e-05,
      "loss": 0.8606,
      "step": 1111
    },
    {
      "epoch": 0.3838453572661374,
      "grad_norm": 1.7394516468048096,
      "learning_rate": 2e-05,
      "loss": 0.8549,
      "step": 1112
    },
    {
      "epoch": 0.38419054193993785,
      "grad_norm": 2.47097110748291,
      "learning_rate": 2e-05,
      "loss": 0.8743,
      "step": 1113
    },
    {
      "epoch": 0.38453572661373836,
      "grad_norm": 1.5916945934295654,
      "learning_rate": 2e-05,
      "loss": 0.8968,
      "step": 1114
    },
    {
      "epoch": 0.3848809112875388,
      "grad_norm": 1.5351616144180298,
      "learning_rate": 2e-05,
      "loss": 0.8941,
      "step": 1115
    },
    {
      "epoch": 0.38522609596133933,
      "grad_norm": 1.5460277795791626,
      "learning_rate": 2e-05,
      "loss": 0.9528,
      "step": 1116
    },
    {
      "epoch": 0.3855712806351398,
      "grad_norm": 1.4782869815826416,
      "learning_rate": 2e-05,
      "loss": 0.9043,
      "step": 1117
    },
    {
      "epoch": 0.3859164653089403,
      "grad_norm": 1.577574372291565,
      "learning_rate": 2e-05,
      "loss": 0.8441,
      "step": 1118
    },
    {
      "epoch": 0.38626164998274076,
      "grad_norm": 1.8410001993179321,
      "learning_rate": 2e-05,
      "loss": 0.9726,
      "step": 1119
    },
    {
      "epoch": 0.3866068346565413,
      "grad_norm": 1.6525936126708984,
      "learning_rate": 2e-05,
      "loss": 0.8885,
      "step": 1120
    },
    {
      "epoch": 0.38695201933034173,
      "grad_norm": 1.6718215942382812,
      "learning_rate": 2e-05,
      "loss": 0.9168,
      "step": 1121
    },
    {
      "epoch": 0.3872972040041422,
      "grad_norm": 1.6099376678466797,
      "learning_rate": 2e-05,
      "loss": 0.9541,
      "step": 1122
    },
    {
      "epoch": 0.3876423886779427,
      "grad_norm": 1.5588171482086182,
      "learning_rate": 2e-05,
      "loss": 0.8821,
      "step": 1123
    },
    {
      "epoch": 0.38798757335174316,
      "grad_norm": 3.0840537548065186,
      "learning_rate": 2e-05,
      "loss": 0.8897,
      "step": 1124
    },
    {
      "epoch": 0.3883327580255437,
      "grad_norm": 1.8702175617218018,
      "learning_rate": 2e-05,
      "loss": 0.9444,
      "step": 1125
    },
    {
      "epoch": 0.38867794269934414,
      "grad_norm": 1.7078309059143066,
      "learning_rate": 2e-05,
      "loss": 0.9373,
      "step": 1126
    },
    {
      "epoch": 0.38902312737314465,
      "grad_norm": 1.5308359861373901,
      "learning_rate": 2e-05,
      "loss": 0.9188,
      "step": 1127
    },
    {
      "epoch": 0.3893683120469451,
      "grad_norm": 1.548642873764038,
      "learning_rate": 2e-05,
      "loss": 0.9541,
      "step": 1128
    },
    {
      "epoch": 0.3897134967207456,
      "grad_norm": 1.6270968914031982,
      "learning_rate": 2e-05,
      "loss": 0.9526,
      "step": 1129
    },
    {
      "epoch": 0.3900586813945461,
      "grad_norm": 1.5057783126831055,
      "learning_rate": 2e-05,
      "loss": 0.8318,
      "step": 1130
    },
    {
      "epoch": 0.39040386606834654,
      "grad_norm": 1.6259011030197144,
      "learning_rate": 2e-05,
      "loss": 0.9685,
      "step": 1131
    },
    {
      "epoch": 0.39074905074214705,
      "grad_norm": 1.5636616945266724,
      "learning_rate": 2e-05,
      "loss": 0.8816,
      "step": 1132
    },
    {
      "epoch": 0.3910942354159475,
      "grad_norm": 1.6026513576507568,
      "learning_rate": 2e-05,
      "loss": 0.8786,
      "step": 1133
    },
    {
      "epoch": 0.391439420089748,
      "grad_norm": 1.6501777172088623,
      "learning_rate": 2e-05,
      "loss": 0.8751,
      "step": 1134
    },
    {
      "epoch": 0.3917846047635485,
      "grad_norm": 1.5859122276306152,
      "learning_rate": 2e-05,
      "loss": 0.8744,
      "step": 1135
    },
    {
      "epoch": 0.392129789437349,
      "grad_norm": 1.7262277603149414,
      "learning_rate": 2e-05,
      "loss": 0.8505,
      "step": 1136
    },
    {
      "epoch": 0.39247497411114945,
      "grad_norm": 1.5581985712051392,
      "learning_rate": 2e-05,
      "loss": 0.8659,
      "step": 1137
    },
    {
      "epoch": 0.39282015878494997,
      "grad_norm": 1.4473882913589478,
      "learning_rate": 2e-05,
      "loss": 0.9105,
      "step": 1138
    },
    {
      "epoch": 0.3931653434587504,
      "grad_norm": 1.5177117586135864,
      "learning_rate": 2e-05,
      "loss": 0.8888,
      "step": 1139
    },
    {
      "epoch": 0.39351052813255094,
      "grad_norm": 1.5060524940490723,
      "learning_rate": 2e-05,
      "loss": 0.8213,
      "step": 1140
    },
    {
      "epoch": 0.3938557128063514,
      "grad_norm": 1.5313308238983154,
      "learning_rate": 2e-05,
      "loss": 0.8866,
      "step": 1141
    },
    {
      "epoch": 0.39420089748015186,
      "grad_norm": 1.684401035308838,
      "learning_rate": 2e-05,
      "loss": 0.8328,
      "step": 1142
    },
    {
      "epoch": 0.39454608215395237,
      "grad_norm": 1.668057918548584,
      "learning_rate": 2e-05,
      "loss": 0.9652,
      "step": 1143
    },
    {
      "epoch": 0.39489126682775283,
      "grad_norm": 1.5451982021331787,
      "learning_rate": 2e-05,
      "loss": 0.9284,
      "step": 1144
    },
    {
      "epoch": 0.39523645150155334,
      "grad_norm": 1.6542842388153076,
      "learning_rate": 2e-05,
      "loss": 0.9126,
      "step": 1145
    },
    {
      "epoch": 0.3955816361753538,
      "grad_norm": 1.6608836650848389,
      "learning_rate": 2e-05,
      "loss": 0.9141,
      "step": 1146
    },
    {
      "epoch": 0.3959268208491543,
      "grad_norm": 1.6242681741714478,
      "learning_rate": 2e-05,
      "loss": 0.8606,
      "step": 1147
    },
    {
      "epoch": 0.3962720055229548,
      "grad_norm": 1.6381618976593018,
      "learning_rate": 2e-05,
      "loss": 0.8915,
      "step": 1148
    },
    {
      "epoch": 0.3966171901967553,
      "grad_norm": 1.6791940927505493,
      "learning_rate": 2e-05,
      "loss": 0.9761,
      "step": 1149
    },
    {
      "epoch": 0.39696237487055575,
      "grad_norm": 1.7166028022766113,
      "learning_rate": 2e-05,
      "loss": 1.0147,
      "step": 1150
    },
    {
      "epoch": 0.3973075595443562,
      "grad_norm": 1.5776528120040894,
      "learning_rate": 2e-05,
      "loss": 0.9031,
      "step": 1151
    },
    {
      "epoch": 0.3976527442181567,
      "grad_norm": 1.5152831077575684,
      "learning_rate": 2e-05,
      "loss": 0.8552,
      "step": 1152
    },
    {
      "epoch": 0.3979979288919572,
      "grad_norm": 1.5480128526687622,
      "learning_rate": 2e-05,
      "loss": 0.8816,
      "step": 1153
    },
    {
      "epoch": 0.3983431135657577,
      "grad_norm": 1.6418023109436035,
      "learning_rate": 2e-05,
      "loss": 0.9163,
      "step": 1154
    },
    {
      "epoch": 0.39868829823955815,
      "grad_norm": 1.466471552848816,
      "learning_rate": 2e-05,
      "loss": 0.8592,
      "step": 1155
    },
    {
      "epoch": 0.39903348291335866,
      "grad_norm": 1.5544031858444214,
      "learning_rate": 2e-05,
      "loss": 0.9104,
      "step": 1156
    },
    {
      "epoch": 0.3993786675871591,
      "grad_norm": 1.5430015325546265,
      "learning_rate": 2e-05,
      "loss": 0.7904,
      "step": 1157
    },
    {
      "epoch": 0.39972385226095963,
      "grad_norm": 1.615402340888977,
      "learning_rate": 2e-05,
      "loss": 0.8915,
      "step": 1158
    },
    {
      "epoch": 0.4000690369347601,
      "grad_norm": 1.644019603729248,
      "learning_rate": 2e-05,
      "loss": 0.9039,
      "step": 1159
    },
    {
      "epoch": 0.4004142216085606,
      "grad_norm": 1.6832993030548096,
      "learning_rate": 2e-05,
      "loss": 0.9199,
      "step": 1160
    },
    {
      "epoch": 0.40075940628236106,
      "grad_norm": 1.730509638786316,
      "learning_rate": 2e-05,
      "loss": 0.8975,
      "step": 1161
    },
    {
      "epoch": 0.4011045909561615,
      "grad_norm": 1.6585023403167725,
      "learning_rate": 2e-05,
      "loss": 0.8638,
      "step": 1162
    },
    {
      "epoch": 0.40144977562996204,
      "grad_norm": 1.5765691995620728,
      "learning_rate": 2e-05,
      "loss": 0.7765,
      "step": 1163
    },
    {
      "epoch": 0.4017949603037625,
      "grad_norm": 1.820752501487732,
      "learning_rate": 2e-05,
      "loss": 0.8977,
      "step": 1164
    },
    {
      "epoch": 0.402140144977563,
      "grad_norm": 1.5499048233032227,
      "learning_rate": 2e-05,
      "loss": 0.9551,
      "step": 1165
    },
    {
      "epoch": 0.40248532965136347,
      "grad_norm": 1.5193700790405273,
      "learning_rate": 2e-05,
      "loss": 0.8443,
      "step": 1166
    },
    {
      "epoch": 0.402830514325164,
      "grad_norm": 1.6881126165390015,
      "learning_rate": 2e-05,
      "loss": 0.9078,
      "step": 1167
    },
    {
      "epoch": 0.40317569899896444,
      "grad_norm": 1.5470397472381592,
      "learning_rate": 2e-05,
      "loss": 0.93,
      "step": 1168
    },
    {
      "epoch": 0.40352088367276495,
      "grad_norm": 1.952493667602539,
      "learning_rate": 2e-05,
      "loss": 0.8837,
      "step": 1169
    },
    {
      "epoch": 0.4038660683465654,
      "grad_norm": 1.7005950212478638,
      "learning_rate": 2e-05,
      "loss": 0.9196,
      "step": 1170
    },
    {
      "epoch": 0.40421125302036587,
      "grad_norm": 1.7289612293243408,
      "learning_rate": 2e-05,
      "loss": 0.913,
      "step": 1171
    },
    {
      "epoch": 0.4045564376941664,
      "grad_norm": 1.5374988317489624,
      "learning_rate": 2e-05,
      "loss": 0.9608,
      "step": 1172
    },
    {
      "epoch": 0.40490162236796684,
      "grad_norm": 1.6360251903533936,
      "learning_rate": 2e-05,
      "loss": 0.9292,
      "step": 1173
    },
    {
      "epoch": 0.40524680704176735,
      "grad_norm": 1.6282365322113037,
      "learning_rate": 2e-05,
      "loss": 0.8695,
      "step": 1174
    },
    {
      "epoch": 0.4055919917155678,
      "grad_norm": 1.572036862373352,
      "learning_rate": 2e-05,
      "loss": 0.889,
      "step": 1175
    },
    {
      "epoch": 0.4059371763893683,
      "grad_norm": 1.6237151622772217,
      "learning_rate": 2e-05,
      "loss": 0.8859,
      "step": 1176
    },
    {
      "epoch": 0.4062823610631688,
      "grad_norm": 1.5710420608520508,
      "learning_rate": 2e-05,
      "loss": 0.8665,
      "step": 1177
    },
    {
      "epoch": 0.4066275457369693,
      "grad_norm": 1.6415292024612427,
      "learning_rate": 2e-05,
      "loss": 0.9649,
      "step": 1178
    },
    {
      "epoch": 0.40697273041076976,
      "grad_norm": 1.6643741130828857,
      "learning_rate": 2e-05,
      "loss": 0.8549,
      "step": 1179
    },
    {
      "epoch": 0.40731791508457027,
      "grad_norm": 1.5341256856918335,
      "learning_rate": 2e-05,
      "loss": 0.9043,
      "step": 1180
    },
    {
      "epoch": 0.40766309975837073,
      "grad_norm": 1.6104422807693481,
      "learning_rate": 2e-05,
      "loss": 0.8955,
      "step": 1181
    },
    {
      "epoch": 0.4080082844321712,
      "grad_norm": 1.6487758159637451,
      "learning_rate": 2e-05,
      "loss": 0.9331,
      "step": 1182
    },
    {
      "epoch": 0.4083534691059717,
      "grad_norm": 1.69407320022583,
      "learning_rate": 2e-05,
      "loss": 0.9478,
      "step": 1183
    },
    {
      "epoch": 0.40869865377977216,
      "grad_norm": 1.4809397459030151,
      "learning_rate": 2e-05,
      "loss": 0.9109,
      "step": 1184
    },
    {
      "epoch": 0.4090438384535727,
      "grad_norm": 1.7577852010726929,
      "learning_rate": 2e-05,
      "loss": 0.8849,
      "step": 1185
    },
    {
      "epoch": 0.40938902312737313,
      "grad_norm": 1.6805368661880493,
      "learning_rate": 2e-05,
      "loss": 0.8356,
      "step": 1186
    },
    {
      "epoch": 0.40973420780117364,
      "grad_norm": 1.708538293838501,
      "learning_rate": 2e-05,
      "loss": 0.8668,
      "step": 1187
    },
    {
      "epoch": 0.4100793924749741,
      "grad_norm": 1.716952919960022,
      "learning_rate": 2e-05,
      "loss": 0.9077,
      "step": 1188
    },
    {
      "epoch": 0.4104245771487746,
      "grad_norm": 1.6521275043487549,
      "learning_rate": 2e-05,
      "loss": 0.9856,
      "step": 1189
    },
    {
      "epoch": 0.4107697618225751,
      "grad_norm": 1.6847732067108154,
      "learning_rate": 2e-05,
      "loss": 0.8782,
      "step": 1190
    },
    {
      "epoch": 0.4111149464963756,
      "grad_norm": 1.5558578968048096,
      "learning_rate": 2e-05,
      "loss": 0.9519,
      "step": 1191
    },
    {
      "epoch": 0.41146013117017605,
      "grad_norm": 1.5719223022460938,
      "learning_rate": 2e-05,
      "loss": 0.8373,
      "step": 1192
    },
    {
      "epoch": 0.4118053158439765,
      "grad_norm": 1.7050354480743408,
      "learning_rate": 2e-05,
      "loss": 0.9225,
      "step": 1193
    },
    {
      "epoch": 0.412150500517777,
      "grad_norm": 1.4908934831619263,
      "learning_rate": 2e-05,
      "loss": 0.9298,
      "step": 1194
    },
    {
      "epoch": 0.4124956851915775,
      "grad_norm": 1.9033674001693726,
      "learning_rate": 2e-05,
      "loss": 1.0241,
      "step": 1195
    },
    {
      "epoch": 0.412840869865378,
      "grad_norm": 1.6212855577468872,
      "learning_rate": 2e-05,
      "loss": 0.9501,
      "step": 1196
    },
    {
      "epoch": 0.41318605453917845,
      "grad_norm": 1.721072793006897,
      "learning_rate": 2e-05,
      "loss": 0.8594,
      "step": 1197
    },
    {
      "epoch": 0.41353123921297896,
      "grad_norm": 1.9536771774291992,
      "learning_rate": 2e-05,
      "loss": 0.9769,
      "step": 1198
    },
    {
      "epoch": 0.4138764238867794,
      "grad_norm": 1.472719430923462,
      "learning_rate": 2e-05,
      "loss": 0.8708,
      "step": 1199
    },
    {
      "epoch": 0.41422160856057993,
      "grad_norm": 1.5144965648651123,
      "learning_rate": 2e-05,
      "loss": 0.9048,
      "step": 1200
    },
    {
      "epoch": 0.4145667932343804,
      "grad_norm": 1.675309181213379,
      "learning_rate": 2e-05,
      "loss": 0.9072,
      "step": 1201
    },
    {
      "epoch": 0.41491197790818085,
      "grad_norm": 1.5948452949523926,
      "learning_rate": 2e-05,
      "loss": 0.8865,
      "step": 1202
    },
    {
      "epoch": 0.41525716258198136,
      "grad_norm": 1.5299216508865356,
      "learning_rate": 2e-05,
      "loss": 0.8863,
      "step": 1203
    },
    {
      "epoch": 0.4156023472557818,
      "grad_norm": 1.7291536331176758,
      "learning_rate": 2e-05,
      "loss": 0.9613,
      "step": 1204
    },
    {
      "epoch": 0.41594753192958234,
      "grad_norm": 1.373971700668335,
      "learning_rate": 2e-05,
      "loss": 0.8521,
      "step": 1205
    },
    {
      "epoch": 0.4162927166033828,
      "grad_norm": 1.5385438203811646,
      "learning_rate": 2e-05,
      "loss": 0.8502,
      "step": 1206
    },
    {
      "epoch": 0.4166379012771833,
      "grad_norm": 1.5496751070022583,
      "learning_rate": 2e-05,
      "loss": 0.9501,
      "step": 1207
    },
    {
      "epoch": 0.41698308595098377,
      "grad_norm": 1.7480778694152832,
      "learning_rate": 2e-05,
      "loss": 0.9257,
      "step": 1208
    },
    {
      "epoch": 0.4173282706247843,
      "grad_norm": 1.4906418323516846,
      "learning_rate": 2e-05,
      "loss": 0.9333,
      "step": 1209
    },
    {
      "epoch": 0.41767345529858474,
      "grad_norm": 1.6648415327072144,
      "learning_rate": 2e-05,
      "loss": 0.8581,
      "step": 1210
    },
    {
      "epoch": 0.41801863997238525,
      "grad_norm": 1.6018327474594116,
      "learning_rate": 2e-05,
      "loss": 0.8937,
      "step": 1211
    },
    {
      "epoch": 0.4183638246461857,
      "grad_norm": 1.495057463645935,
      "learning_rate": 2e-05,
      "loss": 0.9016,
      "step": 1212
    },
    {
      "epoch": 0.41870900931998617,
      "grad_norm": 1.5490719079971313,
      "learning_rate": 2e-05,
      "loss": 0.8737,
      "step": 1213
    },
    {
      "epoch": 0.4190541939937867,
      "grad_norm": 1.5337458848953247,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 1214
    },
    {
      "epoch": 0.41939937866758714,
      "grad_norm": 1.6755694150924683,
      "learning_rate": 2e-05,
      "loss": 0.8736,
      "step": 1215
    },
    {
      "epoch": 0.41974456334138766,
      "grad_norm": 1.571980595588684,
      "learning_rate": 2e-05,
      "loss": 0.8981,
      "step": 1216
    },
    {
      "epoch": 0.4200897480151881,
      "grad_norm": 1.6748496294021606,
      "learning_rate": 2e-05,
      "loss": 0.9279,
      "step": 1217
    },
    {
      "epoch": 0.4204349326889886,
      "grad_norm": 1.4089100360870361,
      "learning_rate": 2e-05,
      "loss": 0.8973,
      "step": 1218
    },
    {
      "epoch": 0.4207801173627891,
      "grad_norm": 1.57020902633667,
      "learning_rate": 2e-05,
      "loss": 0.9815,
      "step": 1219
    },
    {
      "epoch": 0.4211253020365896,
      "grad_norm": 1.5246391296386719,
      "learning_rate": 2e-05,
      "loss": 0.8756,
      "step": 1220
    },
    {
      "epoch": 0.42147048671039006,
      "grad_norm": 1.4594218730926514,
      "learning_rate": 2e-05,
      "loss": 0.94,
      "step": 1221
    },
    {
      "epoch": 0.4218156713841905,
      "grad_norm": 1.5541014671325684,
      "learning_rate": 2e-05,
      "loss": 0.8905,
      "step": 1222
    },
    {
      "epoch": 0.42216085605799103,
      "grad_norm": 1.5088952779769897,
      "learning_rate": 2e-05,
      "loss": 0.9446,
      "step": 1223
    },
    {
      "epoch": 0.4225060407317915,
      "grad_norm": 1.6843575239181519,
      "learning_rate": 2e-05,
      "loss": 0.8711,
      "step": 1224
    },
    {
      "epoch": 0.422851225405592,
      "grad_norm": 1.7843458652496338,
      "learning_rate": 2e-05,
      "loss": 0.8936,
      "step": 1225
    },
    {
      "epoch": 0.42319641007939246,
      "grad_norm": 1.4781010150909424,
      "learning_rate": 2e-05,
      "loss": 0.851,
      "step": 1226
    },
    {
      "epoch": 0.423541594753193,
      "grad_norm": 1.4591872692108154,
      "learning_rate": 2e-05,
      "loss": 0.8472,
      "step": 1227
    },
    {
      "epoch": 0.42388677942699343,
      "grad_norm": 1.6684209108352661,
      "learning_rate": 2e-05,
      "loss": 0.9247,
      "step": 1228
    },
    {
      "epoch": 0.42423196410079395,
      "grad_norm": 1.6091219186782837,
      "learning_rate": 2e-05,
      "loss": 0.849,
      "step": 1229
    },
    {
      "epoch": 0.4245771487745944,
      "grad_norm": 1.439034104347229,
      "learning_rate": 2e-05,
      "loss": 0.8673,
      "step": 1230
    },
    {
      "epoch": 0.4249223334483949,
      "grad_norm": 1.5199791193008423,
      "learning_rate": 2e-05,
      "loss": 0.8753,
      "step": 1231
    },
    {
      "epoch": 0.4252675181221954,
      "grad_norm": 1.4589029550552368,
      "learning_rate": 2e-05,
      "loss": 0.9368,
      "step": 1232
    },
    {
      "epoch": 0.42561270279599583,
      "grad_norm": 2.0781168937683105,
      "learning_rate": 2e-05,
      "loss": 0.9151,
      "step": 1233
    },
    {
      "epoch": 0.42595788746979635,
      "grad_norm": 1.491503357887268,
      "learning_rate": 2e-05,
      "loss": 0.9055,
      "step": 1234
    },
    {
      "epoch": 0.4263030721435968,
      "grad_norm": 1.6209301948547363,
      "learning_rate": 2e-05,
      "loss": 0.8714,
      "step": 1235
    },
    {
      "epoch": 0.4266482568173973,
      "grad_norm": 1.5140892267227173,
      "learning_rate": 2e-05,
      "loss": 0.9531,
      "step": 1236
    },
    {
      "epoch": 0.4269934414911978,
      "grad_norm": 1.6547852754592896,
      "learning_rate": 2e-05,
      "loss": 0.9228,
      "step": 1237
    },
    {
      "epoch": 0.4273386261649983,
      "grad_norm": 1.512628436088562,
      "learning_rate": 2e-05,
      "loss": 0.921,
      "step": 1238
    },
    {
      "epoch": 0.42768381083879875,
      "grad_norm": 1.5845199823379517,
      "learning_rate": 2e-05,
      "loss": 0.9425,
      "step": 1239
    },
    {
      "epoch": 0.42802899551259926,
      "grad_norm": 1.5848183631896973,
      "learning_rate": 2e-05,
      "loss": 0.8897,
      "step": 1240
    },
    {
      "epoch": 0.4283741801863997,
      "grad_norm": 1.7339484691619873,
      "learning_rate": 2e-05,
      "loss": 0.9138,
      "step": 1241
    },
    {
      "epoch": 0.4287193648602002,
      "grad_norm": 1.7663606405258179,
      "learning_rate": 2e-05,
      "loss": 0.9271,
      "step": 1242
    },
    {
      "epoch": 0.4290645495340007,
      "grad_norm": 1.8159067630767822,
      "learning_rate": 2e-05,
      "loss": 0.869,
      "step": 1243
    },
    {
      "epoch": 0.42940973420780115,
      "grad_norm": 1.5408105850219727,
      "learning_rate": 2e-05,
      "loss": 0.8568,
      "step": 1244
    },
    {
      "epoch": 0.42975491888160167,
      "grad_norm": 1.5869367122650146,
      "learning_rate": 2e-05,
      "loss": 0.9034,
      "step": 1245
    },
    {
      "epoch": 0.4301001035554021,
      "grad_norm": 1.4469393491744995,
      "learning_rate": 2e-05,
      "loss": 0.8521,
      "step": 1246
    },
    {
      "epoch": 0.43044528822920264,
      "grad_norm": 1.51634681224823,
      "learning_rate": 2e-05,
      "loss": 0.852,
      "step": 1247
    },
    {
      "epoch": 0.4307904729030031,
      "grad_norm": 1.6058262586593628,
      "learning_rate": 2e-05,
      "loss": 0.934,
      "step": 1248
    },
    {
      "epoch": 0.4311356575768036,
      "grad_norm": 1.8830879926681519,
      "learning_rate": 2e-05,
      "loss": 0.97,
      "step": 1249
    },
    {
      "epoch": 0.43148084225060407,
      "grad_norm": 1.7401357889175415,
      "learning_rate": 2e-05,
      "loss": 0.9156,
      "step": 1250
    },
    {
      "epoch": 0.4318260269244046,
      "grad_norm": 1.415419340133667,
      "learning_rate": 2e-05,
      "loss": 0.906,
      "step": 1251
    },
    {
      "epoch": 0.43217121159820504,
      "grad_norm": 1.619794487953186,
      "learning_rate": 2e-05,
      "loss": 0.8279,
      "step": 1252
    },
    {
      "epoch": 0.4325163962720055,
      "grad_norm": 1.8123743534088135,
      "learning_rate": 2e-05,
      "loss": 0.8127,
      "step": 1253
    },
    {
      "epoch": 0.432861580945806,
      "grad_norm": 1.5057671070098877,
      "learning_rate": 2e-05,
      "loss": 0.912,
      "step": 1254
    },
    {
      "epoch": 0.43320676561960647,
      "grad_norm": 1.4356951713562012,
      "learning_rate": 2e-05,
      "loss": 0.8501,
      "step": 1255
    },
    {
      "epoch": 0.433551950293407,
      "grad_norm": 1.521485686302185,
      "learning_rate": 2e-05,
      "loss": 0.8608,
      "step": 1256
    },
    {
      "epoch": 0.43389713496720744,
      "grad_norm": 1.4950103759765625,
      "learning_rate": 2e-05,
      "loss": 0.82,
      "step": 1257
    },
    {
      "epoch": 0.43424231964100796,
      "grad_norm": 1.5123803615570068,
      "learning_rate": 2e-05,
      "loss": 0.8615,
      "step": 1258
    },
    {
      "epoch": 0.4345875043148084,
      "grad_norm": 1.6185944080352783,
      "learning_rate": 2e-05,
      "loss": 0.8934,
      "step": 1259
    },
    {
      "epoch": 0.43493268898860893,
      "grad_norm": 1.5333648920059204,
      "learning_rate": 2e-05,
      "loss": 0.9472,
      "step": 1260
    },
    {
      "epoch": 0.4352778736624094,
      "grad_norm": 1.5418130159378052,
      "learning_rate": 2e-05,
      "loss": 0.8862,
      "step": 1261
    },
    {
      "epoch": 0.43562305833620985,
      "grad_norm": 1.5102192163467407,
      "learning_rate": 2e-05,
      "loss": 0.891,
      "step": 1262
    },
    {
      "epoch": 0.43596824301001036,
      "grad_norm": 1.6438512802124023,
      "learning_rate": 2e-05,
      "loss": 1.0007,
      "step": 1263
    },
    {
      "epoch": 0.4363134276838108,
      "grad_norm": 1.5806747674942017,
      "learning_rate": 2e-05,
      "loss": 0.891,
      "step": 1264
    },
    {
      "epoch": 0.43665861235761133,
      "grad_norm": 1.6572154760360718,
      "learning_rate": 2e-05,
      "loss": 0.8808,
      "step": 1265
    },
    {
      "epoch": 0.4370037970314118,
      "grad_norm": 1.5204432010650635,
      "learning_rate": 2e-05,
      "loss": 0.8751,
      "step": 1266
    },
    {
      "epoch": 0.4373489817052123,
      "grad_norm": 1.4279893636703491,
      "learning_rate": 2e-05,
      "loss": 0.8598,
      "step": 1267
    },
    {
      "epoch": 0.43769416637901276,
      "grad_norm": 1.562157154083252,
      "learning_rate": 2e-05,
      "loss": 0.9098,
      "step": 1268
    },
    {
      "epoch": 0.4380393510528133,
      "grad_norm": 1.5213923454284668,
      "learning_rate": 2e-05,
      "loss": 0.8838,
      "step": 1269
    },
    {
      "epoch": 0.43838453572661373,
      "grad_norm": 1.577231526374817,
      "learning_rate": 2e-05,
      "loss": 0.9045,
      "step": 1270
    },
    {
      "epoch": 0.43872972040041425,
      "grad_norm": 1.6447374820709229,
      "learning_rate": 2e-05,
      "loss": 0.8878,
      "step": 1271
    },
    {
      "epoch": 0.4390749050742147,
      "grad_norm": 1.6087117195129395,
      "learning_rate": 2e-05,
      "loss": 0.9099,
      "step": 1272
    },
    {
      "epoch": 0.43942008974801516,
      "grad_norm": 1.7375134229660034,
      "learning_rate": 2e-05,
      "loss": 0.8606,
      "step": 1273
    },
    {
      "epoch": 0.4397652744218157,
      "grad_norm": 1.622775673866272,
      "learning_rate": 2e-05,
      "loss": 0.8418,
      "step": 1274
    },
    {
      "epoch": 0.44011045909561614,
      "grad_norm": 1.72868013381958,
      "learning_rate": 2e-05,
      "loss": 0.937,
      "step": 1275
    },
    {
      "epoch": 0.44045564376941665,
      "grad_norm": 1.6289942264556885,
      "learning_rate": 2e-05,
      "loss": 0.8486,
      "step": 1276
    },
    {
      "epoch": 0.4408008284432171,
      "grad_norm": 1.5499063730239868,
      "learning_rate": 2e-05,
      "loss": 0.9385,
      "step": 1277
    },
    {
      "epoch": 0.4411460131170176,
      "grad_norm": 1.4906564950942993,
      "learning_rate": 2e-05,
      "loss": 0.8725,
      "step": 1278
    },
    {
      "epoch": 0.4414911977908181,
      "grad_norm": 1.807167649269104,
      "learning_rate": 2e-05,
      "loss": 0.8586,
      "step": 1279
    },
    {
      "epoch": 0.4418363824646186,
      "grad_norm": 1.6206954717636108,
      "learning_rate": 2e-05,
      "loss": 0.8709,
      "step": 1280
    },
    {
      "epoch": 0.44218156713841905,
      "grad_norm": 1.674401044845581,
      "learning_rate": 2e-05,
      "loss": 0.8604,
      "step": 1281
    },
    {
      "epoch": 0.4425267518122195,
      "grad_norm": 1.6026610136032104,
      "learning_rate": 2e-05,
      "loss": 0.8812,
      "step": 1282
    },
    {
      "epoch": 0.44287193648602,
      "grad_norm": 1.5189025402069092,
      "learning_rate": 2e-05,
      "loss": 0.935,
      "step": 1283
    },
    {
      "epoch": 0.4432171211598205,
      "grad_norm": 1.5646902322769165,
      "learning_rate": 2e-05,
      "loss": 0.865,
      "step": 1284
    },
    {
      "epoch": 0.443562305833621,
      "grad_norm": 1.6353576183319092,
      "learning_rate": 2e-05,
      "loss": 0.8424,
      "step": 1285
    },
    {
      "epoch": 0.44390749050742145,
      "grad_norm": 1.512316107749939,
      "learning_rate": 2e-05,
      "loss": 0.8494,
      "step": 1286
    },
    {
      "epoch": 0.44425267518122197,
      "grad_norm": 1.510003924369812,
      "learning_rate": 2e-05,
      "loss": 0.8722,
      "step": 1287
    },
    {
      "epoch": 0.4445978598550224,
      "grad_norm": 2.7291276454925537,
      "learning_rate": 2e-05,
      "loss": 0.8794,
      "step": 1288
    },
    {
      "epoch": 0.44494304452882294,
      "grad_norm": 1.4551596641540527,
      "learning_rate": 2e-05,
      "loss": 0.8843,
      "step": 1289
    },
    {
      "epoch": 0.4452882292026234,
      "grad_norm": 2.5252978801727295,
      "learning_rate": 2e-05,
      "loss": 0.9545,
      "step": 1290
    },
    {
      "epoch": 0.4456334138764239,
      "grad_norm": 1.5971488952636719,
      "learning_rate": 2e-05,
      "loss": 0.8557,
      "step": 1291
    },
    {
      "epoch": 0.44597859855022437,
      "grad_norm": 1.564853549003601,
      "learning_rate": 2e-05,
      "loss": 0.8877,
      "step": 1292
    },
    {
      "epoch": 0.44632378322402483,
      "grad_norm": 1.7076119184494019,
      "learning_rate": 2e-05,
      "loss": 0.8636,
      "step": 1293
    },
    {
      "epoch": 0.44666896789782534,
      "grad_norm": 1.6717288494110107,
      "learning_rate": 2e-05,
      "loss": 0.8531,
      "step": 1294
    },
    {
      "epoch": 0.4470141525716258,
      "grad_norm": 1.6543817520141602,
      "learning_rate": 2e-05,
      "loss": 0.9017,
      "step": 1295
    },
    {
      "epoch": 0.4473593372454263,
      "grad_norm": 1.5765511989593506,
      "learning_rate": 2e-05,
      "loss": 0.8547,
      "step": 1296
    },
    {
      "epoch": 0.44770452191922677,
      "grad_norm": 1.6306946277618408,
      "learning_rate": 2e-05,
      "loss": 0.8571,
      "step": 1297
    },
    {
      "epoch": 0.4480497065930273,
      "grad_norm": 1.4652988910675049,
      "learning_rate": 2e-05,
      "loss": 0.796,
      "step": 1298
    },
    {
      "epoch": 0.44839489126682774,
      "grad_norm": 1.5727477073669434,
      "learning_rate": 2e-05,
      "loss": 0.8896,
      "step": 1299
    },
    {
      "epoch": 0.44874007594062826,
      "grad_norm": 1.4935866594314575,
      "learning_rate": 2e-05,
      "loss": 0.8276,
      "step": 1300
    },
    {
      "epoch": 0.4490852606144287,
      "grad_norm": 1.6027441024780273,
      "learning_rate": 2e-05,
      "loss": 0.9002,
      "step": 1301
    },
    {
      "epoch": 0.44943044528822923,
      "grad_norm": 1.588456153869629,
      "learning_rate": 2e-05,
      "loss": 0.9446,
      "step": 1302
    },
    {
      "epoch": 0.4497756299620297,
      "grad_norm": 1.7914005517959595,
      "learning_rate": 2e-05,
      "loss": 0.9093,
      "step": 1303
    },
    {
      "epoch": 0.45012081463583015,
      "grad_norm": 1.7133660316467285,
      "learning_rate": 2e-05,
      "loss": 0.9552,
      "step": 1304
    },
    {
      "epoch": 0.45046599930963066,
      "grad_norm": 1.6817291975021362,
      "learning_rate": 2e-05,
      "loss": 0.8996,
      "step": 1305
    },
    {
      "epoch": 0.4508111839834311,
      "grad_norm": 1.5498583316802979,
      "learning_rate": 2e-05,
      "loss": 0.7424,
      "step": 1306
    },
    {
      "epoch": 0.45115636865723163,
      "grad_norm": 1.5671145915985107,
      "learning_rate": 2e-05,
      "loss": 0.8619,
      "step": 1307
    },
    {
      "epoch": 0.4515015533310321,
      "grad_norm": 1.4932435750961304,
      "learning_rate": 2e-05,
      "loss": 0.9024,
      "step": 1308
    },
    {
      "epoch": 0.4518467380048326,
      "grad_norm": 1.5538028478622437,
      "learning_rate": 2e-05,
      "loss": 0.8939,
      "step": 1309
    },
    {
      "epoch": 0.45219192267863306,
      "grad_norm": 1.646746039390564,
      "learning_rate": 2e-05,
      "loss": 0.8703,
      "step": 1310
    },
    {
      "epoch": 0.4525371073524336,
      "grad_norm": 1.7455415725708008,
      "learning_rate": 2e-05,
      "loss": 0.9484,
      "step": 1311
    },
    {
      "epoch": 0.45288229202623403,
      "grad_norm": 1.5008118152618408,
      "learning_rate": 2e-05,
      "loss": 0.8951,
      "step": 1312
    },
    {
      "epoch": 0.4532274767000345,
      "grad_norm": 1.6775434017181396,
      "learning_rate": 2e-05,
      "loss": 0.8978,
      "step": 1313
    },
    {
      "epoch": 0.453572661373835,
      "grad_norm": 1.5526822805404663,
      "learning_rate": 2e-05,
      "loss": 0.8967,
      "step": 1314
    },
    {
      "epoch": 0.45391784604763546,
      "grad_norm": 1.43476140499115,
      "learning_rate": 2e-05,
      "loss": 0.8462,
      "step": 1315
    },
    {
      "epoch": 0.454263030721436,
      "grad_norm": 1.6320091485977173,
      "learning_rate": 2e-05,
      "loss": 0.8056,
      "step": 1316
    },
    {
      "epoch": 0.45460821539523644,
      "grad_norm": 1.5504555702209473,
      "learning_rate": 2e-05,
      "loss": 0.9452,
      "step": 1317
    },
    {
      "epoch": 0.45495340006903695,
      "grad_norm": 1.7051877975463867,
      "learning_rate": 2e-05,
      "loss": 0.9427,
      "step": 1318
    },
    {
      "epoch": 0.4552985847428374,
      "grad_norm": 1.5003734827041626,
      "learning_rate": 2e-05,
      "loss": 0.9098,
      "step": 1319
    },
    {
      "epoch": 0.4556437694166379,
      "grad_norm": 1.5143622159957886,
      "learning_rate": 2e-05,
      "loss": 0.9052,
      "step": 1320
    },
    {
      "epoch": 0.4559889540904384,
      "grad_norm": 1.567170262336731,
      "learning_rate": 2e-05,
      "loss": 0.8761,
      "step": 1321
    },
    {
      "epoch": 0.4563341387642389,
      "grad_norm": 1.527133584022522,
      "learning_rate": 2e-05,
      "loss": 0.8661,
      "step": 1322
    },
    {
      "epoch": 0.45667932343803935,
      "grad_norm": 1.652953028678894,
      "learning_rate": 2e-05,
      "loss": 0.9169,
      "step": 1323
    },
    {
      "epoch": 0.4570245081118398,
      "grad_norm": 1.5251249074935913,
      "learning_rate": 2e-05,
      "loss": 0.8711,
      "step": 1324
    },
    {
      "epoch": 0.4573696927856403,
      "grad_norm": 1.3683321475982666,
      "learning_rate": 2e-05,
      "loss": 0.8766,
      "step": 1325
    },
    {
      "epoch": 0.4577148774594408,
      "grad_norm": 1.586383581161499,
      "learning_rate": 2e-05,
      "loss": 0.9073,
      "step": 1326
    },
    {
      "epoch": 0.4580600621332413,
      "grad_norm": 1.4720702171325684,
      "learning_rate": 2e-05,
      "loss": 0.8412,
      "step": 1327
    },
    {
      "epoch": 0.45840524680704176,
      "grad_norm": 1.6094996929168701,
      "learning_rate": 2e-05,
      "loss": 0.9057,
      "step": 1328
    },
    {
      "epoch": 0.45875043148084227,
      "grad_norm": 1.6328779458999634,
      "learning_rate": 2e-05,
      "loss": 0.8614,
      "step": 1329
    },
    {
      "epoch": 0.4590956161546427,
      "grad_norm": 1.5032554864883423,
      "learning_rate": 2e-05,
      "loss": 0.8739,
      "step": 1330
    },
    {
      "epoch": 0.45944080082844324,
      "grad_norm": 1.5677094459533691,
      "learning_rate": 2e-05,
      "loss": 0.8444,
      "step": 1331
    },
    {
      "epoch": 0.4597859855022437,
      "grad_norm": 1.4752144813537598,
      "learning_rate": 2e-05,
      "loss": 0.8021,
      "step": 1332
    },
    {
      "epoch": 0.46013117017604416,
      "grad_norm": 1.5741044282913208,
      "learning_rate": 2e-05,
      "loss": 0.867,
      "step": 1333
    },
    {
      "epoch": 0.46047635484984467,
      "grad_norm": 1.4561636447906494,
      "learning_rate": 2e-05,
      "loss": 0.9006,
      "step": 1334
    },
    {
      "epoch": 0.46082153952364513,
      "grad_norm": 1.5299917459487915,
      "learning_rate": 2e-05,
      "loss": 0.9512,
      "step": 1335
    },
    {
      "epoch": 0.46116672419744564,
      "grad_norm": 1.6170811653137207,
      "learning_rate": 2e-05,
      "loss": 0.8629,
      "step": 1336
    },
    {
      "epoch": 0.4615119088712461,
      "grad_norm": 1.6810802221298218,
      "learning_rate": 2e-05,
      "loss": 0.8529,
      "step": 1337
    },
    {
      "epoch": 0.4618570935450466,
      "grad_norm": 1.5802619457244873,
      "learning_rate": 2e-05,
      "loss": 0.8832,
      "step": 1338
    },
    {
      "epoch": 0.4622022782188471,
      "grad_norm": 1.5823794603347778,
      "learning_rate": 2e-05,
      "loss": 0.8142,
      "step": 1339
    },
    {
      "epoch": 0.4625474628926476,
      "grad_norm": 1.4040359258651733,
      "learning_rate": 2e-05,
      "loss": 0.8606,
      "step": 1340
    },
    {
      "epoch": 0.46289264756644805,
      "grad_norm": 1.4876127243041992,
      "learning_rate": 2e-05,
      "loss": 0.8519,
      "step": 1341
    },
    {
      "epoch": 0.46323783224024856,
      "grad_norm": 1.4579616785049438,
      "learning_rate": 2e-05,
      "loss": 0.8912,
      "step": 1342
    },
    {
      "epoch": 0.463583016914049,
      "grad_norm": 1.5837653875350952,
      "learning_rate": 2e-05,
      "loss": 0.8981,
      "step": 1343
    },
    {
      "epoch": 0.4639282015878495,
      "grad_norm": 1.5026136636734009,
      "learning_rate": 2e-05,
      "loss": 0.941,
      "step": 1344
    },
    {
      "epoch": 0.46427338626165,
      "grad_norm": 1.5422821044921875,
      "learning_rate": 2e-05,
      "loss": 0.8318,
      "step": 1345
    },
    {
      "epoch": 0.46461857093545045,
      "grad_norm": 1.6372991800308228,
      "learning_rate": 2e-05,
      "loss": 0.902,
      "step": 1346
    },
    {
      "epoch": 0.46496375560925096,
      "grad_norm": 1.7528326511383057,
      "learning_rate": 2e-05,
      "loss": 0.855,
      "step": 1347
    },
    {
      "epoch": 0.4653089402830514,
      "grad_norm": 1.4343539476394653,
      "learning_rate": 2e-05,
      "loss": 0.8495,
      "step": 1348
    },
    {
      "epoch": 0.46565412495685193,
      "grad_norm": 2.916766881942749,
      "learning_rate": 2e-05,
      "loss": 0.9217,
      "step": 1349
    },
    {
      "epoch": 0.4659993096306524,
      "grad_norm": 1.4366520643234253,
      "learning_rate": 2e-05,
      "loss": 0.8326,
      "step": 1350
    },
    {
      "epoch": 0.4663444943044529,
      "grad_norm": 1.4468848705291748,
      "learning_rate": 2e-05,
      "loss": 0.8252,
      "step": 1351
    },
    {
      "epoch": 0.46668967897825336,
      "grad_norm": 1.4506453275680542,
      "learning_rate": 2e-05,
      "loss": 0.9257,
      "step": 1352
    },
    {
      "epoch": 0.4670348636520538,
      "grad_norm": 1.5652216672897339,
      "learning_rate": 2e-05,
      "loss": 0.8688,
      "step": 1353
    },
    {
      "epoch": 0.46738004832585434,
      "grad_norm": 1.699892520904541,
      "learning_rate": 2e-05,
      "loss": 0.875,
      "step": 1354
    },
    {
      "epoch": 0.4677252329996548,
      "grad_norm": 1.6571367979049683,
      "learning_rate": 2e-05,
      "loss": 0.9305,
      "step": 1355
    },
    {
      "epoch": 0.4680704176734553,
      "grad_norm": 1.5331305265426636,
      "learning_rate": 2e-05,
      "loss": 0.8759,
      "step": 1356
    },
    {
      "epoch": 0.46841560234725577,
      "grad_norm": 1.5468311309814453,
      "learning_rate": 2e-05,
      "loss": 0.9604,
      "step": 1357
    },
    {
      "epoch": 0.4687607870210563,
      "grad_norm": 1.500363826751709,
      "learning_rate": 2e-05,
      "loss": 0.9332,
      "step": 1358
    },
    {
      "epoch": 0.46910597169485674,
      "grad_norm": 1.5050033330917358,
      "learning_rate": 2e-05,
      "loss": 0.869,
      "step": 1359
    },
    {
      "epoch": 0.46945115636865725,
      "grad_norm": 1.618589997291565,
      "learning_rate": 2e-05,
      "loss": 0.8153,
      "step": 1360
    },
    {
      "epoch": 0.4697963410424577,
      "grad_norm": 1.5331780910491943,
      "learning_rate": 2e-05,
      "loss": 0.8512,
      "step": 1361
    },
    {
      "epoch": 0.4701415257162582,
      "grad_norm": 1.4553066492080688,
      "learning_rate": 2e-05,
      "loss": 0.8619,
      "step": 1362
    },
    {
      "epoch": 0.4704867103900587,
      "grad_norm": 1.5821285247802734,
      "learning_rate": 2e-05,
      "loss": 0.8859,
      "step": 1363
    },
    {
      "epoch": 0.47083189506385914,
      "grad_norm": 1.8298481702804565,
      "learning_rate": 2e-05,
      "loss": 0.9551,
      "step": 1364
    },
    {
      "epoch": 0.47117707973765965,
      "grad_norm": 1.7624398469924927,
      "learning_rate": 2e-05,
      "loss": 0.9004,
      "step": 1365
    },
    {
      "epoch": 0.4715222644114601,
      "grad_norm": 1.528232216835022,
      "learning_rate": 2e-05,
      "loss": 0.9175,
      "step": 1366
    },
    {
      "epoch": 0.4718674490852606,
      "grad_norm": 1.5109869241714478,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 1367
    },
    {
      "epoch": 0.4722126337590611,
      "grad_norm": 1.422321081161499,
      "learning_rate": 2e-05,
      "loss": 0.8291,
      "step": 1368
    },
    {
      "epoch": 0.4725578184328616,
      "grad_norm": 1.539469599723816,
      "learning_rate": 2e-05,
      "loss": 0.8954,
      "step": 1369
    },
    {
      "epoch": 0.47290300310666206,
      "grad_norm": 1.4587664604187012,
      "learning_rate": 2e-05,
      "loss": 0.8993,
      "step": 1370
    },
    {
      "epoch": 0.47324818778046257,
      "grad_norm": 1.5172282457351685,
      "learning_rate": 2e-05,
      "loss": 0.8625,
      "step": 1371
    },
    {
      "epoch": 0.47359337245426303,
      "grad_norm": 1.6207491159439087,
      "learning_rate": 2e-05,
      "loss": 0.8146,
      "step": 1372
    },
    {
      "epoch": 0.4739385571280635,
      "grad_norm": 1.5110738277435303,
      "learning_rate": 2e-05,
      "loss": 0.9111,
      "step": 1373
    },
    {
      "epoch": 0.474283741801864,
      "grad_norm": 1.422226071357727,
      "learning_rate": 2e-05,
      "loss": 0.8295,
      "step": 1374
    },
    {
      "epoch": 0.47462892647566446,
      "grad_norm": 1.5130196809768677,
      "learning_rate": 2e-05,
      "loss": 0.8175,
      "step": 1375
    },
    {
      "epoch": 0.474974111149465,
      "grad_norm": 1.3571864366531372,
      "learning_rate": 2e-05,
      "loss": 0.9217,
      "step": 1376
    },
    {
      "epoch": 0.47531929582326543,
      "grad_norm": 1.4675006866455078,
      "learning_rate": 2e-05,
      "loss": 0.864,
      "step": 1377
    },
    {
      "epoch": 0.47566448049706594,
      "grad_norm": 1.9596198797225952,
      "learning_rate": 2e-05,
      "loss": 0.9354,
      "step": 1378
    },
    {
      "epoch": 0.4760096651708664,
      "grad_norm": 1.5285555124282837,
      "learning_rate": 2e-05,
      "loss": 0.8903,
      "step": 1379
    },
    {
      "epoch": 0.4763548498446669,
      "grad_norm": 1.4903606176376343,
      "learning_rate": 2e-05,
      "loss": 0.8616,
      "step": 1380
    },
    {
      "epoch": 0.4767000345184674,
      "grad_norm": 1.4329291582107544,
      "learning_rate": 2e-05,
      "loss": 0.8473,
      "step": 1381
    },
    {
      "epoch": 0.4770452191922679,
      "grad_norm": 1.4919345378875732,
      "learning_rate": 2e-05,
      "loss": 0.9431,
      "step": 1382
    },
    {
      "epoch": 0.47739040386606835,
      "grad_norm": 1.6113063097000122,
      "learning_rate": 2e-05,
      "loss": 0.9737,
      "step": 1383
    },
    {
      "epoch": 0.4777355885398688,
      "grad_norm": 1.5458695888519287,
      "learning_rate": 2e-05,
      "loss": 0.8727,
      "step": 1384
    },
    {
      "epoch": 0.4780807732136693,
      "grad_norm": 1.521809458732605,
      "learning_rate": 2e-05,
      "loss": 0.8711,
      "step": 1385
    },
    {
      "epoch": 0.4784259578874698,
      "grad_norm": 1.4459484815597534,
      "learning_rate": 2e-05,
      "loss": 0.8526,
      "step": 1386
    },
    {
      "epoch": 0.4787711425612703,
      "grad_norm": 1.4809542894363403,
      "learning_rate": 2e-05,
      "loss": 0.8756,
      "step": 1387
    },
    {
      "epoch": 0.47911632723507075,
      "grad_norm": 1.4646003246307373,
      "learning_rate": 2e-05,
      "loss": 0.897,
      "step": 1388
    },
    {
      "epoch": 0.47946151190887126,
      "grad_norm": 1.4642281532287598,
      "learning_rate": 2e-05,
      "loss": 0.8444,
      "step": 1389
    },
    {
      "epoch": 0.4798066965826717,
      "grad_norm": 1.4266818761825562,
      "learning_rate": 2e-05,
      "loss": 0.9402,
      "step": 1390
    },
    {
      "epoch": 0.48015188125647223,
      "grad_norm": 1.488600492477417,
      "learning_rate": 2e-05,
      "loss": 0.7864,
      "step": 1391
    },
    {
      "epoch": 0.4804970659302727,
      "grad_norm": 1.684666633605957,
      "learning_rate": 2e-05,
      "loss": 0.9115,
      "step": 1392
    },
    {
      "epoch": 0.48084225060407315,
      "grad_norm": 1.3900854587554932,
      "learning_rate": 2e-05,
      "loss": 0.885,
      "step": 1393
    },
    {
      "epoch": 0.48118743527787367,
      "grad_norm": 1.3955063819885254,
      "learning_rate": 2e-05,
      "loss": 0.9312,
      "step": 1394
    },
    {
      "epoch": 0.4815326199516741,
      "grad_norm": 1.4632928371429443,
      "learning_rate": 2e-05,
      "loss": 0.8955,
      "step": 1395
    },
    {
      "epoch": 0.48187780462547464,
      "grad_norm": 1.5265498161315918,
      "learning_rate": 2e-05,
      "loss": 0.7972,
      "step": 1396
    },
    {
      "epoch": 0.4822229892992751,
      "grad_norm": 1.5128657817840576,
      "learning_rate": 2e-05,
      "loss": 0.8721,
      "step": 1397
    },
    {
      "epoch": 0.4825681739730756,
      "grad_norm": 1.6238036155700684,
      "learning_rate": 2e-05,
      "loss": 0.8847,
      "step": 1398
    },
    {
      "epoch": 0.48291335864687607,
      "grad_norm": 1.539459228515625,
      "learning_rate": 2e-05,
      "loss": 0.9112,
      "step": 1399
    },
    {
      "epoch": 0.4832585433206766,
      "grad_norm": 1.4937701225280762,
      "learning_rate": 2e-05,
      "loss": 0.9342,
      "step": 1400
    },
    {
      "epoch": 0.48360372799447704,
      "grad_norm": 1.5614895820617676,
      "learning_rate": 2e-05,
      "loss": 0.8671,
      "step": 1401
    },
    {
      "epoch": 0.48394891266827755,
      "grad_norm": 1.571540355682373,
      "learning_rate": 2e-05,
      "loss": 0.8324,
      "step": 1402
    },
    {
      "epoch": 0.484294097342078,
      "grad_norm": 1.5651179552078247,
      "learning_rate": 2e-05,
      "loss": 0.8478,
      "step": 1403
    },
    {
      "epoch": 0.48463928201587847,
      "grad_norm": 1.4880735874176025,
      "learning_rate": 2e-05,
      "loss": 0.8557,
      "step": 1404
    },
    {
      "epoch": 0.484984466689679,
      "grad_norm": 1.6947327852249146,
      "learning_rate": 2e-05,
      "loss": 0.9062,
      "step": 1405
    },
    {
      "epoch": 0.48532965136347944,
      "grad_norm": 1.5933451652526855,
      "learning_rate": 2e-05,
      "loss": 0.9208,
      "step": 1406
    },
    {
      "epoch": 0.48567483603727996,
      "grad_norm": 1.515696406364441,
      "learning_rate": 2e-05,
      "loss": 0.8424,
      "step": 1407
    },
    {
      "epoch": 0.4860200207110804,
      "grad_norm": 1.323258638381958,
      "learning_rate": 2e-05,
      "loss": 0.9082,
      "step": 1408
    },
    {
      "epoch": 0.4863652053848809,
      "grad_norm": 1.5946567058563232,
      "learning_rate": 2e-05,
      "loss": 0.8454,
      "step": 1409
    },
    {
      "epoch": 0.4867103900586814,
      "grad_norm": 1.3945679664611816,
      "learning_rate": 2e-05,
      "loss": 0.8657,
      "step": 1410
    },
    {
      "epoch": 0.4870555747324819,
      "grad_norm": 1.4184705018997192,
      "learning_rate": 2e-05,
      "loss": 0.7877,
      "step": 1411
    },
    {
      "epoch": 0.48740075940628236,
      "grad_norm": 1.5519877672195435,
      "learning_rate": 2e-05,
      "loss": 0.9109,
      "step": 1412
    },
    {
      "epoch": 0.48774594408008287,
      "grad_norm": 1.5602744817733765,
      "learning_rate": 2e-05,
      "loss": 0.826,
      "step": 1413
    },
    {
      "epoch": 0.48809112875388333,
      "grad_norm": 1.5960134267807007,
      "learning_rate": 2e-05,
      "loss": 0.8623,
      "step": 1414
    },
    {
      "epoch": 0.4884363134276838,
      "grad_norm": 1.3542437553405762,
      "learning_rate": 2e-05,
      "loss": 0.9351,
      "step": 1415
    },
    {
      "epoch": 0.4887814981014843,
      "grad_norm": 1.637618899345398,
      "learning_rate": 2e-05,
      "loss": 0.887,
      "step": 1416
    },
    {
      "epoch": 0.48912668277528476,
      "grad_norm": 1.574324131011963,
      "learning_rate": 2e-05,
      "loss": 0.769,
      "step": 1417
    },
    {
      "epoch": 0.4894718674490853,
      "grad_norm": 1.2809466123580933,
      "learning_rate": 2e-05,
      "loss": 0.8199,
      "step": 1418
    },
    {
      "epoch": 0.48981705212288573,
      "grad_norm": 1.6055008172988892,
      "learning_rate": 2e-05,
      "loss": 0.9175,
      "step": 1419
    },
    {
      "epoch": 0.49016223679668625,
      "grad_norm": 1.5078130960464478,
      "learning_rate": 2e-05,
      "loss": 0.8527,
      "step": 1420
    },
    {
      "epoch": 0.4905074214704867,
      "grad_norm": 1.4701236486434937,
      "learning_rate": 2e-05,
      "loss": 0.8146,
      "step": 1421
    },
    {
      "epoch": 0.4908526061442872,
      "grad_norm": 1.497216820716858,
      "learning_rate": 2e-05,
      "loss": 0.9257,
      "step": 1422
    },
    {
      "epoch": 0.4911977908180877,
      "grad_norm": 1.5397017002105713,
      "learning_rate": 2e-05,
      "loss": 0.9743,
      "step": 1423
    },
    {
      "epoch": 0.49154297549188813,
      "grad_norm": 1.5078736543655396,
      "learning_rate": 2e-05,
      "loss": 0.8649,
      "step": 1424
    },
    {
      "epoch": 0.49188816016568865,
      "grad_norm": 1.4346872568130493,
      "learning_rate": 2e-05,
      "loss": 0.8427,
      "step": 1425
    },
    {
      "epoch": 0.4922333448394891,
      "grad_norm": 1.4730638265609741,
      "learning_rate": 2e-05,
      "loss": 0.8587,
      "step": 1426
    },
    {
      "epoch": 0.4925785295132896,
      "grad_norm": 1.4370352029800415,
      "learning_rate": 2e-05,
      "loss": 0.8853,
      "step": 1427
    },
    {
      "epoch": 0.4929237141870901,
      "grad_norm": 1.6620509624481201,
      "learning_rate": 2e-05,
      "loss": 0.8522,
      "step": 1428
    },
    {
      "epoch": 0.4932688988608906,
      "grad_norm": 1.5198088884353638,
      "learning_rate": 2e-05,
      "loss": 0.8968,
      "step": 1429
    },
    {
      "epoch": 0.49361408353469105,
      "grad_norm": 1.4387377500534058,
      "learning_rate": 2e-05,
      "loss": 0.8679,
      "step": 1430
    },
    {
      "epoch": 0.49395926820849156,
      "grad_norm": 1.5299164056777954,
      "learning_rate": 2e-05,
      "loss": 0.8867,
      "step": 1431
    },
    {
      "epoch": 0.494304452882292,
      "grad_norm": 1.690758228302002,
      "learning_rate": 2e-05,
      "loss": 0.9082,
      "step": 1432
    },
    {
      "epoch": 0.49464963755609254,
      "grad_norm": 1.5753259658813477,
      "learning_rate": 2e-05,
      "loss": 0.8243,
      "step": 1433
    },
    {
      "epoch": 0.494994822229893,
      "grad_norm": 1.5771384239196777,
      "learning_rate": 2e-05,
      "loss": 0.8264,
      "step": 1434
    },
    {
      "epoch": 0.49534000690369345,
      "grad_norm": 1.7135297060012817,
      "learning_rate": 2e-05,
      "loss": 0.8929,
      "step": 1435
    },
    {
      "epoch": 0.49568519157749397,
      "grad_norm": 1.5725829601287842,
      "learning_rate": 2e-05,
      "loss": 0.9439,
      "step": 1436
    },
    {
      "epoch": 0.4960303762512944,
      "grad_norm": 1.6398454904556274,
      "learning_rate": 2e-05,
      "loss": 0.8868,
      "step": 1437
    },
    {
      "epoch": 0.49637556092509494,
      "grad_norm": 1.4715303182601929,
      "learning_rate": 2e-05,
      "loss": 0.8433,
      "step": 1438
    },
    {
      "epoch": 0.4967207455988954,
      "grad_norm": 1.5533570051193237,
      "learning_rate": 2e-05,
      "loss": 0.852,
      "step": 1439
    },
    {
      "epoch": 0.4970659302726959,
      "grad_norm": 1.6647237539291382,
      "learning_rate": 2e-05,
      "loss": 0.8977,
      "step": 1440
    },
    {
      "epoch": 0.49741111494649637,
      "grad_norm": 1.5793534517288208,
      "learning_rate": 2e-05,
      "loss": 0.8514,
      "step": 1441
    },
    {
      "epoch": 0.4977562996202969,
      "grad_norm": 1.4928213357925415,
      "learning_rate": 2e-05,
      "loss": 0.8867,
      "step": 1442
    },
    {
      "epoch": 0.49810148429409734,
      "grad_norm": 1.5681231021881104,
      "learning_rate": 2e-05,
      "loss": 0.9194,
      "step": 1443
    },
    {
      "epoch": 0.4984466689678978,
      "grad_norm": 1.5719879865646362,
      "learning_rate": 2e-05,
      "loss": 0.9205,
      "step": 1444
    },
    {
      "epoch": 0.4987918536416983,
      "grad_norm": 1.5186398029327393,
      "learning_rate": 2e-05,
      "loss": 0.9084,
      "step": 1445
    },
    {
      "epoch": 0.49913703831549877,
      "grad_norm": 1.4877660274505615,
      "learning_rate": 2e-05,
      "loss": 0.8105,
      "step": 1446
    },
    {
      "epoch": 0.4994822229892993,
      "grad_norm": 1.5100055932998657,
      "learning_rate": 2e-05,
      "loss": 0.8586,
      "step": 1447
    },
    {
      "epoch": 0.49982740766309974,
      "grad_norm": 1.616215467453003,
      "learning_rate": 2e-05,
      "loss": 0.9015,
      "step": 1448
    },
    {
      "epoch": 0.5001725923369003,
      "grad_norm": 1.7086849212646484,
      "learning_rate": 2e-05,
      "loss": 0.838,
      "step": 1449
    },
    {
      "epoch": 0.5005177770107008,
      "grad_norm": 2.7341291904449463,
      "learning_rate": 2e-05,
      "loss": 0.7529,
      "step": 1450
    },
    {
      "epoch": 0.5008629616845012,
      "grad_norm": 1.6187772750854492,
      "learning_rate": 2e-05,
      "loss": 0.8551,
      "step": 1451
    },
    {
      "epoch": 0.5012081463583017,
      "grad_norm": 1.6128920316696167,
      "learning_rate": 2e-05,
      "loss": 0.9485,
      "step": 1452
    },
    {
      "epoch": 0.5015533310321022,
      "grad_norm": 1.5202072858810425,
      "learning_rate": 2e-05,
      "loss": 0.8485,
      "step": 1453
    },
    {
      "epoch": 0.5018985157059026,
      "grad_norm": 1.8998985290527344,
      "learning_rate": 2e-05,
      "loss": 1.0079,
      "step": 1454
    },
    {
      "epoch": 0.5022437003797031,
      "grad_norm": 1.6146663427352905,
      "learning_rate": 2e-05,
      "loss": 0.8418,
      "step": 1455
    },
    {
      "epoch": 0.5025888850535036,
      "grad_norm": 1.5987886190414429,
      "learning_rate": 2e-05,
      "loss": 0.9168,
      "step": 1456
    },
    {
      "epoch": 0.5029340697273041,
      "grad_norm": 1.4506487846374512,
      "learning_rate": 2e-05,
      "loss": 0.8705,
      "step": 1457
    },
    {
      "epoch": 0.5032792544011045,
      "grad_norm": 1.4604578018188477,
      "learning_rate": 2e-05,
      "loss": 0.9097,
      "step": 1458
    },
    {
      "epoch": 0.5036244390749051,
      "grad_norm": 1.553096890449524,
      "learning_rate": 2e-05,
      "loss": 0.8844,
      "step": 1459
    },
    {
      "epoch": 0.5039696237487056,
      "grad_norm": 1.5685009956359863,
      "learning_rate": 2e-05,
      "loss": 0.8926,
      "step": 1460
    },
    {
      "epoch": 0.5043148084225061,
      "grad_norm": 1.477533221244812,
      "learning_rate": 2e-05,
      "loss": 0.8828,
      "step": 1461
    },
    {
      "epoch": 0.5046599930963065,
      "grad_norm": 1.597626805305481,
      "learning_rate": 2e-05,
      "loss": 0.8805,
      "step": 1462
    },
    {
      "epoch": 0.505005177770107,
      "grad_norm": 1.5424556732177734,
      "learning_rate": 2e-05,
      "loss": 0.913,
      "step": 1463
    },
    {
      "epoch": 0.5053503624439075,
      "grad_norm": 1.5535451173782349,
      "learning_rate": 2e-05,
      "loss": 0.8636,
      "step": 1464
    },
    {
      "epoch": 0.5056955471177079,
      "grad_norm": 1.5086489915847778,
      "learning_rate": 2e-05,
      "loss": 0.8633,
      "step": 1465
    },
    {
      "epoch": 0.5060407317915084,
      "grad_norm": 1.525101900100708,
      "learning_rate": 2e-05,
      "loss": 0.8757,
      "step": 1466
    },
    {
      "epoch": 0.506385916465309,
      "grad_norm": 1.491640567779541,
      "learning_rate": 2e-05,
      "loss": 0.8841,
      "step": 1467
    },
    {
      "epoch": 0.5067311011391095,
      "grad_norm": 1.4185870885849,
      "learning_rate": 2e-05,
      "loss": 0.7893,
      "step": 1468
    },
    {
      "epoch": 0.5070762858129099,
      "grad_norm": 1.5579286813735962,
      "learning_rate": 2e-05,
      "loss": 0.9355,
      "step": 1469
    },
    {
      "epoch": 0.5074214704867104,
      "grad_norm": 1.721177577972412,
      "learning_rate": 2e-05,
      "loss": 0.912,
      "step": 1470
    },
    {
      "epoch": 0.5077666551605109,
      "grad_norm": 1.4903554916381836,
      "learning_rate": 2e-05,
      "loss": 0.8602,
      "step": 1471
    },
    {
      "epoch": 0.5081118398343114,
      "grad_norm": 1.5029051303863525,
      "learning_rate": 2e-05,
      "loss": 0.8893,
      "step": 1472
    },
    {
      "epoch": 0.5084570245081118,
      "grad_norm": 1.5529941320419312,
      "learning_rate": 2e-05,
      "loss": 0.8459,
      "step": 1473
    },
    {
      "epoch": 0.5088022091819123,
      "grad_norm": 1.528403401374817,
      "learning_rate": 2e-05,
      "loss": 0.8653,
      "step": 1474
    },
    {
      "epoch": 0.5091473938557128,
      "grad_norm": 1.5107576847076416,
      "learning_rate": 2e-05,
      "loss": 0.9259,
      "step": 1475
    },
    {
      "epoch": 0.5094925785295132,
      "grad_norm": 1.4650341272354126,
      "learning_rate": 2e-05,
      "loss": 0.9397,
      "step": 1476
    },
    {
      "epoch": 0.5098377632033138,
      "grad_norm": 1.416222333908081,
      "learning_rate": 2e-05,
      "loss": 0.8549,
      "step": 1477
    },
    {
      "epoch": 0.5101829478771143,
      "grad_norm": 1.5826903581619263,
      "learning_rate": 2e-05,
      "loss": 0.8542,
      "step": 1478
    },
    {
      "epoch": 0.5105281325509148,
      "grad_norm": 1.5854918956756592,
      "learning_rate": 2e-05,
      "loss": 0.8677,
      "step": 1479
    },
    {
      "epoch": 0.5108733172247152,
      "grad_norm": 1.4190984964370728,
      "learning_rate": 2e-05,
      "loss": 0.8502,
      "step": 1480
    },
    {
      "epoch": 0.5112185018985157,
      "grad_norm": 1.4236692190170288,
      "learning_rate": 2e-05,
      "loss": 0.8412,
      "step": 1481
    },
    {
      "epoch": 0.5115636865723162,
      "grad_norm": 1.355128288269043,
      "learning_rate": 2e-05,
      "loss": 0.8552,
      "step": 1482
    },
    {
      "epoch": 0.5119088712461167,
      "grad_norm": 1.4601686000823975,
      "learning_rate": 2e-05,
      "loss": 0.8666,
      "step": 1483
    },
    {
      "epoch": 0.5122540559199171,
      "grad_norm": 1.482287049293518,
      "learning_rate": 2e-05,
      "loss": 0.9209,
      "step": 1484
    },
    {
      "epoch": 0.5125992405937176,
      "grad_norm": 1.6046438217163086,
      "learning_rate": 2e-05,
      "loss": 0.8724,
      "step": 1485
    },
    {
      "epoch": 0.5129444252675182,
      "grad_norm": 1.4373265504837036,
      "learning_rate": 2e-05,
      "loss": 0.9436,
      "step": 1486
    },
    {
      "epoch": 0.5132896099413186,
      "grad_norm": 1.53340482711792,
      "learning_rate": 2e-05,
      "loss": 0.8465,
      "step": 1487
    },
    {
      "epoch": 0.5136347946151191,
      "grad_norm": 1.474719762802124,
      "learning_rate": 2e-05,
      "loss": 0.9161,
      "step": 1488
    },
    {
      "epoch": 0.5139799792889196,
      "grad_norm": 1.519263744354248,
      "learning_rate": 2e-05,
      "loss": 0.8883,
      "step": 1489
    },
    {
      "epoch": 0.5143251639627201,
      "grad_norm": 1.4303747415542603,
      "learning_rate": 2e-05,
      "loss": 0.7927,
      "step": 1490
    },
    {
      "epoch": 0.5146703486365205,
      "grad_norm": 1.569844365119934,
      "learning_rate": 2e-05,
      "loss": 0.9176,
      "step": 1491
    },
    {
      "epoch": 0.515015533310321,
      "grad_norm": 1.5709710121154785,
      "learning_rate": 2e-05,
      "loss": 0.8578,
      "step": 1492
    },
    {
      "epoch": 0.5153607179841215,
      "grad_norm": 1.596731185913086,
      "learning_rate": 2e-05,
      "loss": 0.899,
      "step": 1493
    },
    {
      "epoch": 0.5157059026579219,
      "grad_norm": 1.4922312498092651,
      "learning_rate": 2e-05,
      "loss": 0.8703,
      "step": 1494
    },
    {
      "epoch": 0.5160510873317224,
      "grad_norm": 1.5315828323364258,
      "learning_rate": 2e-05,
      "loss": 0.8711,
      "step": 1495
    },
    {
      "epoch": 0.516396272005523,
      "grad_norm": 1.688299536705017,
      "learning_rate": 2e-05,
      "loss": 0.9247,
      "step": 1496
    },
    {
      "epoch": 0.5167414566793235,
      "grad_norm": 1.4955352544784546,
      "learning_rate": 2e-05,
      "loss": 0.86,
      "step": 1497
    },
    {
      "epoch": 0.5170866413531239,
      "grad_norm": 1.595426321029663,
      "learning_rate": 2e-05,
      "loss": 0.8699,
      "step": 1498
    },
    {
      "epoch": 0.5174318260269244,
      "grad_norm": 1.4001996517181396,
      "learning_rate": 2e-05,
      "loss": 0.8539,
      "step": 1499
    },
    {
      "epoch": 0.5177770107007249,
      "grad_norm": 1.5919159650802612,
      "learning_rate": 2e-05,
      "loss": 0.8949,
      "step": 1500
    },
    {
      "epoch": 0.5181221953745254,
      "grad_norm": 1.5165622234344482,
      "learning_rate": 2e-05,
      "loss": 0.8749,
      "step": 1501
    },
    {
      "epoch": 0.5184673800483258,
      "grad_norm": 1.6713242530822754,
      "learning_rate": 2e-05,
      "loss": 0.8614,
      "step": 1502
    },
    {
      "epoch": 0.5188125647221263,
      "grad_norm": 1.632496953010559,
      "learning_rate": 2e-05,
      "loss": 0.8778,
      "step": 1503
    },
    {
      "epoch": 0.5191577493959268,
      "grad_norm": 1.5052059888839722,
      "learning_rate": 2e-05,
      "loss": 0.9556,
      "step": 1504
    },
    {
      "epoch": 0.5195029340697273,
      "grad_norm": 1.529680609703064,
      "learning_rate": 2e-05,
      "loss": 0.8116,
      "step": 1505
    },
    {
      "epoch": 0.5198481187435278,
      "grad_norm": 1.4807442426681519,
      "learning_rate": 2e-05,
      "loss": 0.861,
      "step": 1506
    },
    {
      "epoch": 0.5201933034173283,
      "grad_norm": 1.6791006326675415,
      "learning_rate": 2e-05,
      "loss": 0.8858,
      "step": 1507
    },
    {
      "epoch": 0.5205384880911288,
      "grad_norm": 1.5769582986831665,
      "learning_rate": 2e-05,
      "loss": 0.805,
      "step": 1508
    },
    {
      "epoch": 0.5208836727649292,
      "grad_norm": 1.4344134330749512,
      "learning_rate": 2e-05,
      "loss": 0.8477,
      "step": 1509
    },
    {
      "epoch": 0.5212288574387297,
      "grad_norm": 1.4665086269378662,
      "learning_rate": 2e-05,
      "loss": 0.8862,
      "step": 1510
    },
    {
      "epoch": 0.5215740421125302,
      "grad_norm": 1.5074870586395264,
      "learning_rate": 2e-05,
      "loss": 0.8947,
      "step": 1511
    },
    {
      "epoch": 0.5219192267863307,
      "grad_norm": 1.4515577554702759,
      "learning_rate": 2e-05,
      "loss": 0.8051,
      "step": 1512
    },
    {
      "epoch": 0.5222644114601311,
      "grad_norm": 1.5754237174987793,
      "learning_rate": 2e-05,
      "loss": 0.7992,
      "step": 1513
    },
    {
      "epoch": 0.5226095961339317,
      "grad_norm": 1.520458698272705,
      "learning_rate": 2e-05,
      "loss": 0.8649,
      "step": 1514
    },
    {
      "epoch": 0.5229547808077322,
      "grad_norm": 1.4768767356872559,
      "learning_rate": 2e-05,
      "loss": 0.8808,
      "step": 1515
    },
    {
      "epoch": 0.5232999654815326,
      "grad_norm": 1.5062127113342285,
      "learning_rate": 2e-05,
      "loss": 0.8641,
      "step": 1516
    },
    {
      "epoch": 0.5236451501553331,
      "grad_norm": 1.4652204513549805,
      "learning_rate": 2e-05,
      "loss": 0.9273,
      "step": 1517
    },
    {
      "epoch": 0.5239903348291336,
      "grad_norm": 2.142523765563965,
      "learning_rate": 2e-05,
      "loss": 0.8148,
      "step": 1518
    },
    {
      "epoch": 0.5243355195029341,
      "grad_norm": 1.54977548122406,
      "learning_rate": 2e-05,
      "loss": 0.8844,
      "step": 1519
    },
    {
      "epoch": 0.5246807041767345,
      "grad_norm": 1.399977684020996,
      "learning_rate": 2e-05,
      "loss": 0.854,
      "step": 1520
    },
    {
      "epoch": 0.525025888850535,
      "grad_norm": 1.51853609085083,
      "learning_rate": 2e-05,
      "loss": 0.7962,
      "step": 1521
    },
    {
      "epoch": 0.5253710735243355,
      "grad_norm": 1.4592170715332031,
      "learning_rate": 2e-05,
      "loss": 0.8264,
      "step": 1522
    },
    {
      "epoch": 0.525716258198136,
      "grad_norm": 1.5622276067733765,
      "learning_rate": 2e-05,
      "loss": 0.8099,
      "step": 1523
    },
    {
      "epoch": 0.5260614428719365,
      "grad_norm": 1.516372799873352,
      "learning_rate": 2e-05,
      "loss": 0.9351,
      "step": 1524
    },
    {
      "epoch": 0.526406627545737,
      "grad_norm": 1.6600664854049683,
      "learning_rate": 2e-05,
      "loss": 0.9109,
      "step": 1525
    },
    {
      "epoch": 0.5267518122195375,
      "grad_norm": 1.4740478992462158,
      "learning_rate": 2e-05,
      "loss": 0.8345,
      "step": 1526
    },
    {
      "epoch": 0.5270969968933379,
      "grad_norm": 1.6686525344848633,
      "learning_rate": 2e-05,
      "loss": 0.9229,
      "step": 1527
    },
    {
      "epoch": 0.5274421815671384,
      "grad_norm": 1.4741508960723877,
      "learning_rate": 2e-05,
      "loss": 0.8395,
      "step": 1528
    },
    {
      "epoch": 0.5277873662409389,
      "grad_norm": 1.4847460985183716,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 1529
    },
    {
      "epoch": 0.5281325509147394,
      "grad_norm": 1.4612411260604858,
      "learning_rate": 2e-05,
      "loss": 0.8533,
      "step": 1530
    },
    {
      "epoch": 0.5284777355885398,
      "grad_norm": 1.5418838262557983,
      "learning_rate": 2e-05,
      "loss": 0.8009,
      "step": 1531
    },
    {
      "epoch": 0.5288229202623403,
      "grad_norm": 1.5205823183059692,
      "learning_rate": 2e-05,
      "loss": 0.8469,
      "step": 1532
    },
    {
      "epoch": 0.5291681049361409,
      "grad_norm": 1.4672565460205078,
      "learning_rate": 2e-05,
      "loss": 0.901,
      "step": 1533
    },
    {
      "epoch": 0.5295132896099414,
      "grad_norm": 1.588653326034546,
      "learning_rate": 2e-05,
      "loss": 0.8877,
      "step": 1534
    },
    {
      "epoch": 0.5298584742837418,
      "grad_norm": 1.4028480052947998,
      "learning_rate": 2e-05,
      "loss": 0.8588,
      "step": 1535
    },
    {
      "epoch": 0.5302036589575423,
      "grad_norm": 1.493520736694336,
      "learning_rate": 2e-05,
      "loss": 0.8407,
      "step": 1536
    },
    {
      "epoch": 0.5305488436313428,
      "grad_norm": 1.6010013818740845,
      "learning_rate": 2e-05,
      "loss": 0.8689,
      "step": 1537
    },
    {
      "epoch": 0.5308940283051432,
      "grad_norm": 1.4516597986221313,
      "learning_rate": 2e-05,
      "loss": 0.8819,
      "step": 1538
    },
    {
      "epoch": 0.5312392129789437,
      "grad_norm": 1.5433706045150757,
      "learning_rate": 2e-05,
      "loss": 0.8894,
      "step": 1539
    },
    {
      "epoch": 0.5315843976527442,
      "grad_norm": 1.5245108604431152,
      "learning_rate": 2e-05,
      "loss": 0.8759,
      "step": 1540
    },
    {
      "epoch": 0.5319295823265447,
      "grad_norm": 1.4363203048706055,
      "learning_rate": 2e-05,
      "loss": 0.8588,
      "step": 1541
    },
    {
      "epoch": 0.5322747670003452,
      "grad_norm": 1.6140433549880981,
      "learning_rate": 2e-05,
      "loss": 0.8033,
      "step": 1542
    },
    {
      "epoch": 0.5326199516741457,
      "grad_norm": 2.327500104904175,
      "learning_rate": 2e-05,
      "loss": 0.895,
      "step": 1543
    },
    {
      "epoch": 0.5329651363479462,
      "grad_norm": 1.5939421653747559,
      "learning_rate": 2e-05,
      "loss": 0.8628,
      "step": 1544
    },
    {
      "epoch": 0.5333103210217466,
      "grad_norm": 1.3893932104110718,
      "learning_rate": 2e-05,
      "loss": 0.887,
      "step": 1545
    },
    {
      "epoch": 0.5336555056955471,
      "grad_norm": 1.3902634382247925,
      "learning_rate": 2e-05,
      "loss": 0.8672,
      "step": 1546
    },
    {
      "epoch": 0.5340006903693476,
      "grad_norm": 1.497912049293518,
      "learning_rate": 2e-05,
      "loss": 0.819,
      "step": 1547
    },
    {
      "epoch": 0.5343458750431481,
      "grad_norm": 1.5076748132705688,
      "learning_rate": 2e-05,
      "loss": 0.9031,
      "step": 1548
    },
    {
      "epoch": 0.5346910597169485,
      "grad_norm": 1.6647396087646484,
      "learning_rate": 2e-05,
      "loss": 0.8639,
      "step": 1549
    },
    {
      "epoch": 0.535036244390749,
      "grad_norm": 1.4571062326431274,
      "learning_rate": 2e-05,
      "loss": 0.9362,
      "step": 1550
    },
    {
      "epoch": 0.5353814290645496,
      "grad_norm": 1.488547921180725,
      "learning_rate": 2e-05,
      "loss": 0.8191,
      "step": 1551
    },
    {
      "epoch": 0.5357266137383501,
      "grad_norm": 1.4894813299179077,
      "learning_rate": 2e-05,
      "loss": 0.8283,
      "step": 1552
    },
    {
      "epoch": 0.5360717984121505,
      "grad_norm": 1.5509148836135864,
      "learning_rate": 2e-05,
      "loss": 0.9355,
      "step": 1553
    },
    {
      "epoch": 0.536416983085951,
      "grad_norm": 1.6688835620880127,
      "learning_rate": 2e-05,
      "loss": 0.8533,
      "step": 1554
    },
    {
      "epoch": 0.5367621677597515,
      "grad_norm": 1.372092843055725,
      "learning_rate": 2e-05,
      "loss": 0.8859,
      "step": 1555
    },
    {
      "epoch": 0.5371073524335519,
      "grad_norm": 1.5269259214401245,
      "learning_rate": 2e-05,
      "loss": 0.8634,
      "step": 1556
    },
    {
      "epoch": 0.5374525371073524,
      "grad_norm": 1.637324571609497,
      "learning_rate": 2e-05,
      "loss": 0.9349,
      "step": 1557
    },
    {
      "epoch": 0.5377977217811529,
      "grad_norm": 1.5894970893859863,
      "learning_rate": 2e-05,
      "loss": 0.8569,
      "step": 1558
    },
    {
      "epoch": 0.5381429064549534,
      "grad_norm": 1.4607994556427002,
      "learning_rate": 2e-05,
      "loss": 0.8841,
      "step": 1559
    },
    {
      "epoch": 0.5384880911287538,
      "grad_norm": 1.5657976865768433,
      "learning_rate": 2e-05,
      "loss": 0.8572,
      "step": 1560
    },
    {
      "epoch": 0.5388332758025544,
      "grad_norm": 1.399186134338379,
      "learning_rate": 2e-05,
      "loss": 0.86,
      "step": 1561
    },
    {
      "epoch": 0.5391784604763549,
      "grad_norm": 1.436023473739624,
      "learning_rate": 2e-05,
      "loss": 0.8111,
      "step": 1562
    },
    {
      "epoch": 0.5395236451501554,
      "grad_norm": 1.5551540851593018,
      "learning_rate": 2e-05,
      "loss": 0.7909,
      "step": 1563
    },
    {
      "epoch": 0.5398688298239558,
      "grad_norm": 1.39789617061615,
      "learning_rate": 2e-05,
      "loss": 0.8365,
      "step": 1564
    },
    {
      "epoch": 0.5402140144977563,
      "grad_norm": 1.5327658653259277,
      "learning_rate": 2e-05,
      "loss": 0.8473,
      "step": 1565
    },
    {
      "epoch": 0.5405591991715568,
      "grad_norm": 1.5089339017868042,
      "learning_rate": 2e-05,
      "loss": 0.8593,
      "step": 1566
    },
    {
      "epoch": 0.5409043838453572,
      "grad_norm": 1.6059603691101074,
      "learning_rate": 2e-05,
      "loss": 0.8275,
      "step": 1567
    },
    {
      "epoch": 0.5412495685191577,
      "grad_norm": 1.6641713380813599,
      "learning_rate": 2e-05,
      "loss": 0.9156,
      "step": 1568
    },
    {
      "epoch": 0.5415947531929582,
      "grad_norm": 1.4000176191329956,
      "learning_rate": 2e-05,
      "loss": 0.8521,
      "step": 1569
    },
    {
      "epoch": 0.5419399378667588,
      "grad_norm": 1.5350258350372314,
      "learning_rate": 2e-05,
      "loss": 0.9375,
      "step": 1570
    },
    {
      "epoch": 0.5422851225405592,
      "grad_norm": 1.6309318542480469,
      "learning_rate": 2e-05,
      "loss": 0.9181,
      "step": 1571
    },
    {
      "epoch": 0.5426303072143597,
      "grad_norm": 1.4565937519073486,
      "learning_rate": 2e-05,
      "loss": 0.8014,
      "step": 1572
    },
    {
      "epoch": 0.5429754918881602,
      "grad_norm": 1.3723300695419312,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 1573
    },
    {
      "epoch": 0.5433206765619607,
      "grad_norm": 1.4829671382904053,
      "learning_rate": 2e-05,
      "loss": 0.8768,
      "step": 1574
    },
    {
      "epoch": 0.5436658612357611,
      "grad_norm": 1.6113433837890625,
      "learning_rate": 2e-05,
      "loss": 0.8557,
      "step": 1575
    },
    {
      "epoch": 0.5440110459095616,
      "grad_norm": 1.4924010038375854,
      "learning_rate": 2e-05,
      "loss": 0.8471,
      "step": 1576
    },
    {
      "epoch": 0.5443562305833621,
      "grad_norm": 1.4316158294677734,
      "learning_rate": 2e-05,
      "loss": 0.8438,
      "step": 1577
    },
    {
      "epoch": 0.5447014152571625,
      "grad_norm": 1.5328303575515747,
      "learning_rate": 2e-05,
      "loss": 0.8461,
      "step": 1578
    },
    {
      "epoch": 0.545046599930963,
      "grad_norm": 1.7388062477111816,
      "learning_rate": 2e-05,
      "loss": 0.8541,
      "step": 1579
    },
    {
      "epoch": 0.5453917846047636,
      "grad_norm": 1.4981379508972168,
      "learning_rate": 2e-05,
      "loss": 0.8478,
      "step": 1580
    },
    {
      "epoch": 0.5457369692785641,
      "grad_norm": 1.4861994981765747,
      "learning_rate": 2e-05,
      "loss": 0.8487,
      "step": 1581
    },
    {
      "epoch": 0.5460821539523645,
      "grad_norm": 1.4392346143722534,
      "learning_rate": 2e-05,
      "loss": 0.8488,
      "step": 1582
    },
    {
      "epoch": 0.546427338626165,
      "grad_norm": 1.4462296962738037,
      "learning_rate": 2e-05,
      "loss": 0.83,
      "step": 1583
    },
    {
      "epoch": 0.5467725232999655,
      "grad_norm": 1.61910879611969,
      "learning_rate": 2e-05,
      "loss": 0.8508,
      "step": 1584
    },
    {
      "epoch": 0.5471177079737659,
      "grad_norm": 1.579559087753296,
      "learning_rate": 2e-05,
      "loss": 0.8225,
      "step": 1585
    },
    {
      "epoch": 0.5474628926475664,
      "grad_norm": 1.5242763757705688,
      "learning_rate": 2e-05,
      "loss": 0.8985,
      "step": 1586
    },
    {
      "epoch": 0.5478080773213669,
      "grad_norm": 1.540773868560791,
      "learning_rate": 2e-05,
      "loss": 0.8363,
      "step": 1587
    },
    {
      "epoch": 0.5481532619951675,
      "grad_norm": 1.5411888360977173,
      "learning_rate": 2e-05,
      "loss": 0.852,
      "step": 1588
    },
    {
      "epoch": 0.5484984466689679,
      "grad_norm": 1.443499207496643,
      "learning_rate": 2e-05,
      "loss": 0.9149,
      "step": 1589
    },
    {
      "epoch": 0.5488436313427684,
      "grad_norm": 1.455376148223877,
      "learning_rate": 2e-05,
      "loss": 0.9638,
      "step": 1590
    },
    {
      "epoch": 0.5491888160165689,
      "grad_norm": 1.6554831266403198,
      "learning_rate": 2e-05,
      "loss": 0.8614,
      "step": 1591
    },
    {
      "epoch": 0.5495340006903694,
      "grad_norm": 1.6546441316604614,
      "learning_rate": 2e-05,
      "loss": 0.8923,
      "step": 1592
    },
    {
      "epoch": 0.5498791853641698,
      "grad_norm": 1.6536006927490234,
      "learning_rate": 2e-05,
      "loss": 0.9056,
      "step": 1593
    },
    {
      "epoch": 0.5502243700379703,
      "grad_norm": 1.4539146423339844,
      "learning_rate": 2e-05,
      "loss": 0.8461,
      "step": 1594
    },
    {
      "epoch": 0.5505695547117708,
      "grad_norm": 1.4127588272094727,
      "learning_rate": 2e-05,
      "loss": 0.8252,
      "step": 1595
    },
    {
      "epoch": 0.5509147393855712,
      "grad_norm": 1.4345245361328125,
      "learning_rate": 2e-05,
      "loss": 0.8908,
      "step": 1596
    },
    {
      "epoch": 0.5512599240593717,
      "grad_norm": 1.3559852838516235,
      "learning_rate": 2e-05,
      "loss": 0.7862,
      "step": 1597
    },
    {
      "epoch": 0.5516051087331723,
      "grad_norm": 1.5229995250701904,
      "learning_rate": 2e-05,
      "loss": 0.8245,
      "step": 1598
    },
    {
      "epoch": 0.5519502934069728,
      "grad_norm": 1.589345932006836,
      "learning_rate": 2e-05,
      "loss": 0.8379,
      "step": 1599
    },
    {
      "epoch": 0.5522954780807732,
      "grad_norm": 1.4538509845733643,
      "learning_rate": 2e-05,
      "loss": 0.9292,
      "step": 1600
    },
    {
      "epoch": 0.5526406627545737,
      "grad_norm": 1.5109566450119019,
      "learning_rate": 2e-05,
      "loss": 0.9168,
      "step": 1601
    },
    {
      "epoch": 0.5529858474283742,
      "grad_norm": 1.6599149703979492,
      "learning_rate": 2e-05,
      "loss": 0.9676,
      "step": 1602
    },
    {
      "epoch": 0.5533310321021747,
      "grad_norm": 1.5900269746780396,
      "learning_rate": 2e-05,
      "loss": 0.9217,
      "step": 1603
    },
    {
      "epoch": 0.5536762167759751,
      "grad_norm": 1.5273160934448242,
      "learning_rate": 2e-05,
      "loss": 0.931,
      "step": 1604
    },
    {
      "epoch": 0.5540214014497756,
      "grad_norm": 1.248348355293274,
      "learning_rate": 2e-05,
      "loss": 0.8867,
      "step": 1605
    },
    {
      "epoch": 0.5543665861235761,
      "grad_norm": 1.6108160018920898,
      "learning_rate": 2e-05,
      "loss": 0.8799,
      "step": 1606
    },
    {
      "epoch": 0.5547117707973765,
      "grad_norm": 1.5462720394134521,
      "learning_rate": 2e-05,
      "loss": 0.89,
      "step": 1607
    },
    {
      "epoch": 0.5550569554711771,
      "grad_norm": 1.4194971323013306,
      "learning_rate": 2e-05,
      "loss": 0.873,
      "step": 1608
    },
    {
      "epoch": 0.5554021401449776,
      "grad_norm": 1.5270010232925415,
      "learning_rate": 2e-05,
      "loss": 0.8715,
      "step": 1609
    },
    {
      "epoch": 0.5557473248187781,
      "grad_norm": 1.60272216796875,
      "learning_rate": 2e-05,
      "loss": 0.8835,
      "step": 1610
    },
    {
      "epoch": 0.5560925094925785,
      "grad_norm": 1.4427331686019897,
      "learning_rate": 2e-05,
      "loss": 0.8766,
      "step": 1611
    },
    {
      "epoch": 0.556437694166379,
      "grad_norm": 1.5833396911621094,
      "learning_rate": 2e-05,
      "loss": 0.9043,
      "step": 1612
    },
    {
      "epoch": 0.5567828788401795,
      "grad_norm": 1.4032530784606934,
      "learning_rate": 2e-05,
      "loss": 0.8857,
      "step": 1613
    },
    {
      "epoch": 0.55712806351398,
      "grad_norm": 1.5308725833892822,
      "learning_rate": 2e-05,
      "loss": 0.8297,
      "step": 1614
    },
    {
      "epoch": 0.5574732481877804,
      "grad_norm": 1.5004854202270508,
      "learning_rate": 2e-05,
      "loss": 0.8368,
      "step": 1615
    },
    {
      "epoch": 0.557818432861581,
      "grad_norm": 1.4916425943374634,
      "learning_rate": 2e-05,
      "loss": 0.8853,
      "step": 1616
    },
    {
      "epoch": 0.5581636175353815,
      "grad_norm": 1.5634130239486694,
      "learning_rate": 2e-05,
      "loss": 0.8229,
      "step": 1617
    },
    {
      "epoch": 0.5585088022091819,
      "grad_norm": 1.58212411403656,
      "learning_rate": 2e-05,
      "loss": 0.8731,
      "step": 1618
    },
    {
      "epoch": 0.5588539868829824,
      "grad_norm": 1.5048140287399292,
      "learning_rate": 2e-05,
      "loss": 0.8786,
      "step": 1619
    },
    {
      "epoch": 0.5591991715567829,
      "grad_norm": 1.5149537324905396,
      "learning_rate": 2e-05,
      "loss": 0.887,
      "step": 1620
    },
    {
      "epoch": 0.5595443562305834,
      "grad_norm": 1.6334768533706665,
      "learning_rate": 2e-05,
      "loss": 0.8543,
      "step": 1621
    },
    {
      "epoch": 0.5598895409043838,
      "grad_norm": 1.5199270248413086,
      "learning_rate": 2e-05,
      "loss": 0.9106,
      "step": 1622
    },
    {
      "epoch": 0.5602347255781843,
      "grad_norm": 1.4660162925720215,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 1623
    },
    {
      "epoch": 0.5605799102519848,
      "grad_norm": 1.5280219316482544,
      "learning_rate": 2e-05,
      "loss": 0.8374,
      "step": 1624
    },
    {
      "epoch": 0.5609250949257854,
      "grad_norm": 1.595401406288147,
      "learning_rate": 2e-05,
      "loss": 0.8851,
      "step": 1625
    },
    {
      "epoch": 0.5612702795995858,
      "grad_norm": 1.606848955154419,
      "learning_rate": 2e-05,
      "loss": 0.7985,
      "step": 1626
    },
    {
      "epoch": 0.5616154642733863,
      "grad_norm": 1.4046485424041748,
      "learning_rate": 2e-05,
      "loss": 0.8404,
      "step": 1627
    },
    {
      "epoch": 0.5619606489471868,
      "grad_norm": 1.4738988876342773,
      "learning_rate": 2e-05,
      "loss": 0.8612,
      "step": 1628
    },
    {
      "epoch": 0.5623058336209872,
      "grad_norm": 1.4505903720855713,
      "learning_rate": 2e-05,
      "loss": 0.8319,
      "step": 1629
    },
    {
      "epoch": 0.5626510182947877,
      "grad_norm": 1.6346704959869385,
      "learning_rate": 2e-05,
      "loss": 0.8324,
      "step": 1630
    },
    {
      "epoch": 0.5629962029685882,
      "grad_norm": 1.551700234413147,
      "learning_rate": 2e-05,
      "loss": 0.9273,
      "step": 1631
    },
    {
      "epoch": 0.5633413876423887,
      "grad_norm": 1.5957953929901123,
      "learning_rate": 2e-05,
      "loss": 0.9031,
      "step": 1632
    },
    {
      "epoch": 0.5636865723161891,
      "grad_norm": 1.5516537427902222,
      "learning_rate": 2e-05,
      "loss": 0.8224,
      "step": 1633
    },
    {
      "epoch": 0.5640317569899896,
      "grad_norm": 1.5297613143920898,
      "learning_rate": 2e-05,
      "loss": 0.9412,
      "step": 1634
    },
    {
      "epoch": 0.5643769416637902,
      "grad_norm": 1.4831953048706055,
      "learning_rate": 2e-05,
      "loss": 0.8743,
      "step": 1635
    },
    {
      "epoch": 0.5647221263375906,
      "grad_norm": 1.4180048704147339,
      "learning_rate": 2e-05,
      "loss": 0.7887,
      "step": 1636
    },
    {
      "epoch": 0.5650673110113911,
      "grad_norm": 1.509697437286377,
      "learning_rate": 2e-05,
      "loss": 0.9048,
      "step": 1637
    },
    {
      "epoch": 0.5654124956851916,
      "grad_norm": 1.5425740480422974,
      "learning_rate": 2e-05,
      "loss": 0.8656,
      "step": 1638
    },
    {
      "epoch": 0.5657576803589921,
      "grad_norm": 1.3940156698226929,
      "learning_rate": 2e-05,
      "loss": 0.8913,
      "step": 1639
    },
    {
      "epoch": 0.5661028650327925,
      "grad_norm": 1.490288496017456,
      "learning_rate": 2e-05,
      "loss": 0.8069,
      "step": 1640
    },
    {
      "epoch": 0.566448049706593,
      "grad_norm": 1.5284477472305298,
      "learning_rate": 2e-05,
      "loss": 0.8664,
      "step": 1641
    },
    {
      "epoch": 0.5667932343803935,
      "grad_norm": 1.4974958896636963,
      "learning_rate": 2e-05,
      "loss": 0.9375,
      "step": 1642
    },
    {
      "epoch": 0.567138419054194,
      "grad_norm": 1.615695595741272,
      "learning_rate": 2e-05,
      "loss": 0.9154,
      "step": 1643
    },
    {
      "epoch": 0.5674836037279944,
      "grad_norm": 1.6137460470199585,
      "learning_rate": 2e-05,
      "loss": 0.883,
      "step": 1644
    },
    {
      "epoch": 0.567828788401795,
      "grad_norm": 1.5381969213485718,
      "learning_rate": 2e-05,
      "loss": 0.7916,
      "step": 1645
    },
    {
      "epoch": 0.5681739730755955,
      "grad_norm": 1.5016134977340698,
      "learning_rate": 2e-05,
      "loss": 0.9038,
      "step": 1646
    },
    {
      "epoch": 0.5685191577493959,
      "grad_norm": 1.505098819732666,
      "learning_rate": 2e-05,
      "loss": 0.8774,
      "step": 1647
    },
    {
      "epoch": 0.5688643424231964,
      "grad_norm": 1.4216322898864746,
      "learning_rate": 2e-05,
      "loss": 0.8762,
      "step": 1648
    },
    {
      "epoch": 0.5692095270969969,
      "grad_norm": 1.5024113655090332,
      "learning_rate": 2e-05,
      "loss": 0.8138,
      "step": 1649
    },
    {
      "epoch": 0.5695547117707974,
      "grad_norm": 1.534290075302124,
      "learning_rate": 2e-05,
      "loss": 0.8854,
      "step": 1650
    },
    {
      "epoch": 0.5698998964445978,
      "grad_norm": 1.4808244705200195,
      "learning_rate": 2e-05,
      "loss": 0.8238,
      "step": 1651
    },
    {
      "epoch": 0.5702450811183983,
      "grad_norm": 1.6088496446609497,
      "learning_rate": 2e-05,
      "loss": 0.8566,
      "step": 1652
    },
    {
      "epoch": 0.5705902657921988,
      "grad_norm": 1.5444903373718262,
      "learning_rate": 2e-05,
      "loss": 0.8292,
      "step": 1653
    },
    {
      "epoch": 0.5709354504659994,
      "grad_norm": 1.4859501123428345,
      "learning_rate": 2e-05,
      "loss": 0.8379,
      "step": 1654
    },
    {
      "epoch": 0.5712806351397998,
      "grad_norm": 1.386613368988037,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 1655
    },
    {
      "epoch": 0.5716258198136003,
      "grad_norm": 1.4609479904174805,
      "learning_rate": 2e-05,
      "loss": 0.9044,
      "step": 1656
    },
    {
      "epoch": 0.5719710044874008,
      "grad_norm": 1.559581995010376,
      "learning_rate": 2e-05,
      "loss": 0.9111,
      "step": 1657
    },
    {
      "epoch": 0.5723161891612012,
      "grad_norm": 1.462342619895935,
      "learning_rate": 2e-05,
      "loss": 0.7535,
      "step": 1658
    },
    {
      "epoch": 0.5726613738350017,
      "grad_norm": 1.376842737197876,
      "learning_rate": 2e-05,
      "loss": 0.7971,
      "step": 1659
    },
    {
      "epoch": 0.5730065585088022,
      "grad_norm": 1.4797723293304443,
      "learning_rate": 2e-05,
      "loss": 0.8696,
      "step": 1660
    },
    {
      "epoch": 0.5733517431826027,
      "grad_norm": 1.5312302112579346,
      "learning_rate": 2e-05,
      "loss": 0.9046,
      "step": 1661
    },
    {
      "epoch": 0.5736969278564031,
      "grad_norm": 1.6430928707122803,
      "learning_rate": 2e-05,
      "loss": 0.8124,
      "step": 1662
    },
    {
      "epoch": 0.5740421125302037,
      "grad_norm": 1.458174705505371,
      "learning_rate": 2e-05,
      "loss": 0.8565,
      "step": 1663
    },
    {
      "epoch": 0.5743872972040042,
      "grad_norm": 1.5277459621429443,
      "learning_rate": 2e-05,
      "loss": 0.8809,
      "step": 1664
    },
    {
      "epoch": 0.5747324818778047,
      "grad_norm": 1.5384302139282227,
      "learning_rate": 2e-05,
      "loss": 0.8638,
      "step": 1665
    },
    {
      "epoch": 0.5750776665516051,
      "grad_norm": 1.4934154748916626,
      "learning_rate": 2e-05,
      "loss": 0.8601,
      "step": 1666
    },
    {
      "epoch": 0.5754228512254056,
      "grad_norm": 1.4930038452148438,
      "learning_rate": 2e-05,
      "loss": 0.8888,
      "step": 1667
    },
    {
      "epoch": 0.5757680358992061,
      "grad_norm": 1.630851149559021,
      "learning_rate": 2e-05,
      "loss": 0.9003,
      "step": 1668
    },
    {
      "epoch": 0.5761132205730065,
      "grad_norm": 1.4760167598724365,
      "learning_rate": 2e-05,
      "loss": 0.8237,
      "step": 1669
    },
    {
      "epoch": 0.576458405246807,
      "grad_norm": 1.5290287733078003,
      "learning_rate": 2e-05,
      "loss": 0.8533,
      "step": 1670
    },
    {
      "epoch": 0.5768035899206075,
      "grad_norm": 1.513398289680481,
      "learning_rate": 2e-05,
      "loss": 0.8732,
      "step": 1671
    },
    {
      "epoch": 0.577148774594408,
      "grad_norm": 1.6938879489898682,
      "learning_rate": 2e-05,
      "loss": 0.9612,
      "step": 1672
    },
    {
      "epoch": 0.5774939592682085,
      "grad_norm": 1.5745307207107544,
      "learning_rate": 2e-05,
      "loss": 0.9415,
      "step": 1673
    },
    {
      "epoch": 0.577839143942009,
      "grad_norm": 1.5194038152694702,
      "learning_rate": 2e-05,
      "loss": 0.806,
      "step": 1674
    },
    {
      "epoch": 0.5781843286158095,
      "grad_norm": 1.4672555923461914,
      "learning_rate": 2e-05,
      "loss": 0.7767,
      "step": 1675
    },
    {
      "epoch": 0.5785295132896099,
      "grad_norm": 1.6657425165176392,
      "learning_rate": 2e-05,
      "loss": 0.8645,
      "step": 1676
    },
    {
      "epoch": 0.5788746979634104,
      "grad_norm": 1.5414749383926392,
      "learning_rate": 2e-05,
      "loss": 0.8722,
      "step": 1677
    },
    {
      "epoch": 0.5792198826372109,
      "grad_norm": 1.4264047145843506,
      "learning_rate": 2e-05,
      "loss": 0.9029,
      "step": 1678
    },
    {
      "epoch": 0.5795650673110114,
      "grad_norm": 1.5712471008300781,
      "learning_rate": 2e-05,
      "loss": 0.9157,
      "step": 1679
    },
    {
      "epoch": 0.5799102519848118,
      "grad_norm": 1.5260716676712036,
      "learning_rate": 2e-05,
      "loss": 0.8077,
      "step": 1680
    },
    {
      "epoch": 0.5802554366586123,
      "grad_norm": 1.3557616472244263,
      "learning_rate": 2e-05,
      "loss": 0.7926,
      "step": 1681
    },
    {
      "epoch": 0.5806006213324129,
      "grad_norm": 1.5177688598632812,
      "learning_rate": 2e-05,
      "loss": 0.932,
      "step": 1682
    },
    {
      "epoch": 0.5809458060062134,
      "grad_norm": 1.4339641332626343,
      "learning_rate": 2e-05,
      "loss": 0.8074,
      "step": 1683
    },
    {
      "epoch": 0.5812909906800138,
      "grad_norm": 1.4476910829544067,
      "learning_rate": 2e-05,
      "loss": 0.8846,
      "step": 1684
    },
    {
      "epoch": 0.5816361753538143,
      "grad_norm": 1.7181825637817383,
      "learning_rate": 2e-05,
      "loss": 0.9362,
      "step": 1685
    },
    {
      "epoch": 0.5819813600276148,
      "grad_norm": 1.4211126565933228,
      "learning_rate": 2e-05,
      "loss": 0.8541,
      "step": 1686
    },
    {
      "epoch": 0.5823265447014152,
      "grad_norm": 1.573185920715332,
      "learning_rate": 2e-05,
      "loss": 0.8495,
      "step": 1687
    },
    {
      "epoch": 0.5826717293752157,
      "grad_norm": 1.4491548538208008,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 1688
    },
    {
      "epoch": 0.5830169140490162,
      "grad_norm": 1.3870333433151245,
      "learning_rate": 2e-05,
      "loss": 0.8879,
      "step": 1689
    },
    {
      "epoch": 0.5833620987228167,
      "grad_norm": 1.4935771226882935,
      "learning_rate": 2e-05,
      "loss": 0.8954,
      "step": 1690
    },
    {
      "epoch": 0.5837072833966171,
      "grad_norm": 1.539039969444275,
      "learning_rate": 2e-05,
      "loss": 0.9151,
      "step": 1691
    },
    {
      "epoch": 0.5840524680704177,
      "grad_norm": 1.4647421836853027,
      "learning_rate": 2e-05,
      "loss": 0.8586,
      "step": 1692
    },
    {
      "epoch": 0.5843976527442182,
      "grad_norm": 1.3772886991500854,
      "learning_rate": 2e-05,
      "loss": 0.9201,
      "step": 1693
    },
    {
      "epoch": 0.5847428374180187,
      "grad_norm": 1.42388117313385,
      "learning_rate": 2e-05,
      "loss": 0.8228,
      "step": 1694
    },
    {
      "epoch": 0.5850880220918191,
      "grad_norm": 1.3975049257278442,
      "learning_rate": 2e-05,
      "loss": 0.8253,
      "step": 1695
    },
    {
      "epoch": 0.5854332067656196,
      "grad_norm": 1.450014352798462,
      "learning_rate": 2e-05,
      "loss": 0.8627,
      "step": 1696
    },
    {
      "epoch": 0.5857783914394201,
      "grad_norm": 1.4834017753601074,
      "learning_rate": 2e-05,
      "loss": 0.9254,
      "step": 1697
    },
    {
      "epoch": 0.5861235761132205,
      "grad_norm": 1.5255000591278076,
      "learning_rate": 2e-05,
      "loss": 0.9185,
      "step": 1698
    },
    {
      "epoch": 0.586468760787021,
      "grad_norm": 1.489214301109314,
      "learning_rate": 2e-05,
      "loss": 0.8962,
      "step": 1699
    },
    {
      "epoch": 0.5868139454608216,
      "grad_norm": 1.5686233043670654,
      "learning_rate": 2e-05,
      "loss": 0.8365,
      "step": 1700
    },
    {
      "epoch": 0.5871591301346221,
      "grad_norm": 1.4846551418304443,
      "learning_rate": 2e-05,
      "loss": 0.8883,
      "step": 1701
    },
    {
      "epoch": 0.5875043148084225,
      "grad_norm": 1.480815052986145,
      "learning_rate": 2e-05,
      "loss": 0.8684,
      "step": 1702
    },
    {
      "epoch": 0.587849499482223,
      "grad_norm": 1.429726481437683,
      "learning_rate": 2e-05,
      "loss": 0.8226,
      "step": 1703
    },
    {
      "epoch": 0.5881946841560235,
      "grad_norm": 1.4617931842803955,
      "learning_rate": 2e-05,
      "loss": 0.8289,
      "step": 1704
    },
    {
      "epoch": 0.588539868829824,
      "grad_norm": 1.513938546180725,
      "learning_rate": 2e-05,
      "loss": 0.871,
      "step": 1705
    },
    {
      "epoch": 0.5888850535036244,
      "grad_norm": 1.5342226028442383,
      "learning_rate": 2e-05,
      "loss": 0.8336,
      "step": 1706
    },
    {
      "epoch": 0.5892302381774249,
      "grad_norm": 1.4589037895202637,
      "learning_rate": 2e-05,
      "loss": 0.8362,
      "step": 1707
    },
    {
      "epoch": 0.5895754228512254,
      "grad_norm": 1.4990307092666626,
      "learning_rate": 2e-05,
      "loss": 0.9529,
      "step": 1708
    },
    {
      "epoch": 0.5899206075250258,
      "grad_norm": 1.3415559530258179,
      "learning_rate": 2e-05,
      "loss": 0.8598,
      "step": 1709
    },
    {
      "epoch": 0.5902657921988264,
      "grad_norm": 1.4236457347869873,
      "learning_rate": 2e-05,
      "loss": 0.7789,
      "step": 1710
    },
    {
      "epoch": 0.5906109768726269,
      "grad_norm": 1.508378505706787,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 1711
    },
    {
      "epoch": 0.5909561615464274,
      "grad_norm": 1.7019846439361572,
      "learning_rate": 2e-05,
      "loss": 0.8966,
      "step": 1712
    },
    {
      "epoch": 0.5913013462202278,
      "grad_norm": 1.464469075202942,
      "learning_rate": 2e-05,
      "loss": 0.8198,
      "step": 1713
    },
    {
      "epoch": 0.5916465308940283,
      "grad_norm": 1.3682355880737305,
      "learning_rate": 2e-05,
      "loss": 0.7939,
      "step": 1714
    },
    {
      "epoch": 0.5919917155678288,
      "grad_norm": 1.6123884916305542,
      "learning_rate": 2e-05,
      "loss": 0.875,
      "step": 1715
    },
    {
      "epoch": 0.5923369002416292,
      "grad_norm": 2.4076642990112305,
      "learning_rate": 2e-05,
      "loss": 0.9177,
      "step": 1716
    },
    {
      "epoch": 0.5926820849154297,
      "grad_norm": 1.6245877742767334,
      "learning_rate": 2e-05,
      "loss": 0.8411,
      "step": 1717
    },
    {
      "epoch": 0.5930272695892302,
      "grad_norm": 1.3694157600402832,
      "learning_rate": 2e-05,
      "loss": 0.8614,
      "step": 1718
    },
    {
      "epoch": 0.5933724542630308,
      "grad_norm": 1.4434304237365723,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 1719
    },
    {
      "epoch": 0.5937176389368312,
      "grad_norm": 1.5386053323745728,
      "learning_rate": 2e-05,
      "loss": 0.8983,
      "step": 1720
    },
    {
      "epoch": 0.5940628236106317,
      "grad_norm": 1.5044821500778198,
      "learning_rate": 2e-05,
      "loss": 0.9612,
      "step": 1721
    },
    {
      "epoch": 0.5944080082844322,
      "grad_norm": 1.53877854347229,
      "learning_rate": 2e-05,
      "loss": 0.865,
      "step": 1722
    },
    {
      "epoch": 0.5947531929582327,
      "grad_norm": 1.4594600200653076,
      "learning_rate": 2e-05,
      "loss": 0.8938,
      "step": 1723
    },
    {
      "epoch": 0.5950983776320331,
      "grad_norm": 1.5543256998062134,
      "learning_rate": 2e-05,
      "loss": 0.9174,
      "step": 1724
    },
    {
      "epoch": 0.5954435623058336,
      "grad_norm": 1.3607900142669678,
      "learning_rate": 2e-05,
      "loss": 0.8114,
      "step": 1725
    },
    {
      "epoch": 0.5957887469796341,
      "grad_norm": 1.339639663696289,
      "learning_rate": 2e-05,
      "loss": 0.8765,
      "step": 1726
    },
    {
      "epoch": 0.5961339316534345,
      "grad_norm": 1.4261831045150757,
      "learning_rate": 2e-05,
      "loss": 0.83,
      "step": 1727
    },
    {
      "epoch": 0.596479116327235,
      "grad_norm": 1.5099936723709106,
      "learning_rate": 2e-05,
      "loss": 0.9286,
      "step": 1728
    },
    {
      "epoch": 0.5968243010010356,
      "grad_norm": 1.3080222606658936,
      "learning_rate": 2e-05,
      "loss": 0.8525,
      "step": 1729
    },
    {
      "epoch": 0.5971694856748361,
      "grad_norm": 1.498849630355835,
      "learning_rate": 2e-05,
      "loss": 0.8752,
      "step": 1730
    },
    {
      "epoch": 0.5975146703486365,
      "grad_norm": 1.6179444789886475,
      "learning_rate": 2e-05,
      "loss": 0.8782,
      "step": 1731
    },
    {
      "epoch": 0.597859855022437,
      "grad_norm": 1.5649731159210205,
      "learning_rate": 2e-05,
      "loss": 0.8372,
      "step": 1732
    },
    {
      "epoch": 0.5982050396962375,
      "grad_norm": 1.514600157737732,
      "learning_rate": 2e-05,
      "loss": 0.8555,
      "step": 1733
    },
    {
      "epoch": 0.598550224370038,
      "grad_norm": 1.477260947227478,
      "learning_rate": 2e-05,
      "loss": 0.8643,
      "step": 1734
    },
    {
      "epoch": 0.5988954090438384,
      "grad_norm": 1.3950591087341309,
      "learning_rate": 2e-05,
      "loss": 0.8688,
      "step": 1735
    },
    {
      "epoch": 0.5992405937176389,
      "grad_norm": 1.4549236297607422,
      "learning_rate": 2e-05,
      "loss": 0.8563,
      "step": 1736
    },
    {
      "epoch": 0.5995857783914395,
      "grad_norm": 1.4108965396881104,
      "learning_rate": 2e-05,
      "loss": 0.8049,
      "step": 1737
    },
    {
      "epoch": 0.5999309630652399,
      "grad_norm": 1.4172656536102295,
      "learning_rate": 2e-05,
      "loss": 0.8702,
      "step": 1738
    },
    {
      "epoch": 0.6002761477390404,
      "grad_norm": 1.6389451026916504,
      "learning_rate": 2e-05,
      "loss": 0.8725,
      "step": 1739
    },
    {
      "epoch": 0.6006213324128409,
      "grad_norm": 1.5346778631210327,
      "learning_rate": 2e-05,
      "loss": 0.8812,
      "step": 1740
    },
    {
      "epoch": 0.6009665170866414,
      "grad_norm": 1.4963688850402832,
      "learning_rate": 2e-05,
      "loss": 0.8073,
      "step": 1741
    },
    {
      "epoch": 0.6013117017604418,
      "grad_norm": 1.3608808517456055,
      "learning_rate": 2e-05,
      "loss": 0.8009,
      "step": 1742
    },
    {
      "epoch": 0.6016568864342423,
      "grad_norm": 1.5076179504394531,
      "learning_rate": 2e-05,
      "loss": 0.9138,
      "step": 1743
    },
    {
      "epoch": 0.6020020711080428,
      "grad_norm": 1.4641270637512207,
      "learning_rate": 2e-05,
      "loss": 0.8118,
      "step": 1744
    },
    {
      "epoch": 0.6023472557818433,
      "grad_norm": 1.5663038492202759,
      "learning_rate": 2e-05,
      "loss": 0.9114,
      "step": 1745
    },
    {
      "epoch": 0.6026924404556437,
      "grad_norm": 1.534487247467041,
      "learning_rate": 2e-05,
      "loss": 0.8917,
      "step": 1746
    },
    {
      "epoch": 0.6030376251294443,
      "grad_norm": 1.5907204151153564,
      "learning_rate": 2e-05,
      "loss": 0.8005,
      "step": 1747
    },
    {
      "epoch": 0.6033828098032448,
      "grad_norm": 1.5403715372085571,
      "learning_rate": 2e-05,
      "loss": 0.8678,
      "step": 1748
    },
    {
      "epoch": 0.6037279944770452,
      "grad_norm": 1.438338041305542,
      "learning_rate": 2e-05,
      "loss": 0.8181,
      "step": 1749
    },
    {
      "epoch": 0.6040731791508457,
      "grad_norm": 1.8855770826339722,
      "learning_rate": 2e-05,
      "loss": 0.9638,
      "step": 1750
    },
    {
      "epoch": 0.6044183638246462,
      "grad_norm": 1.6426136493682861,
      "learning_rate": 2e-05,
      "loss": 0.8189,
      "step": 1751
    },
    {
      "epoch": 0.6047635484984467,
      "grad_norm": 1.5174566507339478,
      "learning_rate": 2e-05,
      "loss": 0.9014,
      "step": 1752
    },
    {
      "epoch": 0.6051087331722471,
      "grad_norm": 1.4580028057098389,
      "learning_rate": 2e-05,
      "loss": 0.8275,
      "step": 1753
    },
    {
      "epoch": 0.6054539178460476,
      "grad_norm": 1.4446879625320435,
      "learning_rate": 2e-05,
      "loss": 0.869,
      "step": 1754
    },
    {
      "epoch": 0.6057991025198481,
      "grad_norm": 2.011549711227417,
      "learning_rate": 2e-05,
      "loss": 0.8157,
      "step": 1755
    },
    {
      "epoch": 0.6061442871936487,
      "grad_norm": 1.4311549663543701,
      "learning_rate": 2e-05,
      "loss": 0.857,
      "step": 1756
    },
    {
      "epoch": 0.6064894718674491,
      "grad_norm": 1.5078638792037964,
      "learning_rate": 2e-05,
      "loss": 0.867,
      "step": 1757
    },
    {
      "epoch": 0.6068346565412496,
      "grad_norm": 1.4413434267044067,
      "learning_rate": 2e-05,
      "loss": 0.8261,
      "step": 1758
    },
    {
      "epoch": 0.6071798412150501,
      "grad_norm": 1.4100316762924194,
      "learning_rate": 2e-05,
      "loss": 0.9294,
      "step": 1759
    },
    {
      "epoch": 0.6075250258888505,
      "grad_norm": 1.48714017868042,
      "learning_rate": 2e-05,
      "loss": 0.9166,
      "step": 1760
    },
    {
      "epoch": 0.607870210562651,
      "grad_norm": 1.4716459512710571,
      "learning_rate": 2e-05,
      "loss": 0.7936,
      "step": 1761
    },
    {
      "epoch": 0.6082153952364515,
      "grad_norm": 1.4394155740737915,
      "learning_rate": 2e-05,
      "loss": 0.8228,
      "step": 1762
    },
    {
      "epoch": 0.608560579910252,
      "grad_norm": 1.439845323562622,
      "learning_rate": 2e-05,
      "loss": 0.8982,
      "step": 1763
    },
    {
      "epoch": 0.6089057645840524,
      "grad_norm": 1.4565080404281616,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 1764
    },
    {
      "epoch": 0.609250949257853,
      "grad_norm": 1.4007846117019653,
      "learning_rate": 2e-05,
      "loss": 0.8593,
      "step": 1765
    },
    {
      "epoch": 0.6095961339316535,
      "grad_norm": 1.3402667045593262,
      "learning_rate": 2e-05,
      "loss": 0.833,
      "step": 1766
    },
    {
      "epoch": 0.6099413186054539,
      "grad_norm": 1.449887752532959,
      "learning_rate": 2e-05,
      "loss": 0.8792,
      "step": 1767
    },
    {
      "epoch": 0.6102865032792544,
      "grad_norm": 1.6096948385238647,
      "learning_rate": 2e-05,
      "loss": 0.9363,
      "step": 1768
    },
    {
      "epoch": 0.6106316879530549,
      "grad_norm": 1.343047857284546,
      "learning_rate": 2e-05,
      "loss": 0.819,
      "step": 1769
    },
    {
      "epoch": 0.6109768726268554,
      "grad_norm": 1.4072998762130737,
      "learning_rate": 2e-05,
      "loss": 0.8871,
      "step": 1770
    },
    {
      "epoch": 0.6113220573006558,
      "grad_norm": 1.4353457689285278,
      "learning_rate": 2e-05,
      "loss": 0.8543,
      "step": 1771
    },
    {
      "epoch": 0.6116672419744563,
      "grad_norm": 1.4769783020019531,
      "learning_rate": 2e-05,
      "loss": 0.7754,
      "step": 1772
    },
    {
      "epoch": 0.6120124266482568,
      "grad_norm": 1.403017282485962,
      "learning_rate": 2e-05,
      "loss": 0.8024,
      "step": 1773
    },
    {
      "epoch": 0.6123576113220573,
      "grad_norm": 1.6209064722061157,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 1774
    },
    {
      "epoch": 0.6127027959958578,
      "grad_norm": 1.5815309286117554,
      "learning_rate": 2e-05,
      "loss": 0.8919,
      "step": 1775
    },
    {
      "epoch": 0.6130479806696583,
      "grad_norm": 1.5375515222549438,
      "learning_rate": 2e-05,
      "loss": 0.8612,
      "step": 1776
    },
    {
      "epoch": 0.6133931653434588,
      "grad_norm": 1.4265576601028442,
      "learning_rate": 2e-05,
      "loss": 0.7822,
      "step": 1777
    },
    {
      "epoch": 0.6137383500172592,
      "grad_norm": 1.3840746879577637,
      "learning_rate": 2e-05,
      "loss": 0.825,
      "step": 1778
    },
    {
      "epoch": 0.6140835346910597,
      "grad_norm": 1.3715530633926392,
      "learning_rate": 2e-05,
      "loss": 0.9393,
      "step": 1779
    },
    {
      "epoch": 0.6144287193648602,
      "grad_norm": 1.5135680437088013,
      "learning_rate": 2e-05,
      "loss": 0.847,
      "step": 1780
    },
    {
      "epoch": 0.6147739040386607,
      "grad_norm": 1.511473298072815,
      "learning_rate": 2e-05,
      "loss": 0.9001,
      "step": 1781
    },
    {
      "epoch": 0.6151190887124611,
      "grad_norm": 1.5882409811019897,
      "learning_rate": 2e-05,
      "loss": 0.9031,
      "step": 1782
    },
    {
      "epoch": 0.6154642733862616,
      "grad_norm": 1.4924358129501343,
      "learning_rate": 2e-05,
      "loss": 0.7795,
      "step": 1783
    },
    {
      "epoch": 0.6158094580600622,
      "grad_norm": 1.3894368410110474,
      "learning_rate": 2e-05,
      "loss": 0.8636,
      "step": 1784
    },
    {
      "epoch": 0.6161546427338627,
      "grad_norm": 1.5986369848251343,
      "learning_rate": 2e-05,
      "loss": 0.8445,
      "step": 1785
    },
    {
      "epoch": 0.6164998274076631,
      "grad_norm": 1.4315098524093628,
      "learning_rate": 2e-05,
      "loss": 0.9135,
      "step": 1786
    },
    {
      "epoch": 0.6168450120814636,
      "grad_norm": 1.6446669101715088,
      "learning_rate": 2e-05,
      "loss": 0.9303,
      "step": 1787
    },
    {
      "epoch": 0.6171901967552641,
      "grad_norm": 1.392844319343567,
      "learning_rate": 2e-05,
      "loss": 0.7804,
      "step": 1788
    },
    {
      "epoch": 0.6175353814290645,
      "grad_norm": 1.6325699090957642,
      "learning_rate": 2e-05,
      "loss": 0.8198,
      "step": 1789
    },
    {
      "epoch": 0.617880566102865,
      "grad_norm": 1.6069564819335938,
      "learning_rate": 2e-05,
      "loss": 0.8714,
      "step": 1790
    },
    {
      "epoch": 0.6182257507766655,
      "grad_norm": 1.4875376224517822,
      "learning_rate": 2e-05,
      "loss": 0.8384,
      "step": 1791
    },
    {
      "epoch": 0.618570935450466,
      "grad_norm": 1.5367077589035034,
      "learning_rate": 2e-05,
      "loss": 0.8938,
      "step": 1792
    },
    {
      "epoch": 0.6189161201242664,
      "grad_norm": 1.3861089944839478,
      "learning_rate": 2e-05,
      "loss": 0.8114,
      "step": 1793
    },
    {
      "epoch": 0.619261304798067,
      "grad_norm": 1.4611183404922485,
      "learning_rate": 2e-05,
      "loss": 0.7661,
      "step": 1794
    },
    {
      "epoch": 0.6196064894718675,
      "grad_norm": 1.4825217723846436,
      "learning_rate": 2e-05,
      "loss": 0.8494,
      "step": 1795
    },
    {
      "epoch": 0.619951674145668,
      "grad_norm": 1.5274244546890259,
      "learning_rate": 2e-05,
      "loss": 0.8757,
      "step": 1796
    },
    {
      "epoch": 0.6202968588194684,
      "grad_norm": 1.4330458641052246,
      "learning_rate": 2e-05,
      "loss": 0.8505,
      "step": 1797
    },
    {
      "epoch": 0.6206420434932689,
      "grad_norm": 1.6558325290679932,
      "learning_rate": 2e-05,
      "loss": 0.8771,
      "step": 1798
    },
    {
      "epoch": 0.6209872281670694,
      "grad_norm": 1.608462929725647,
      "learning_rate": 2e-05,
      "loss": 0.9074,
      "step": 1799
    },
    {
      "epoch": 0.6213324128408698,
      "grad_norm": 1.5370808839797974,
      "learning_rate": 2e-05,
      "loss": 0.9145,
      "step": 1800
    },
    {
      "epoch": 0.6216775975146703,
      "grad_norm": 1.4980448484420776,
      "learning_rate": 2e-05,
      "loss": 0.7906,
      "step": 1801
    },
    {
      "epoch": 0.6220227821884708,
      "grad_norm": 1.4219104051589966,
      "learning_rate": 2e-05,
      "loss": 0.9105,
      "step": 1802
    },
    {
      "epoch": 0.6223679668622714,
      "grad_norm": 1.4780189990997314,
      "learning_rate": 2e-05,
      "loss": 0.8434,
      "step": 1803
    },
    {
      "epoch": 0.6227131515360718,
      "grad_norm": 1.39195716381073,
      "learning_rate": 2e-05,
      "loss": 0.8497,
      "step": 1804
    },
    {
      "epoch": 0.6230583362098723,
      "grad_norm": 1.4971699714660645,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 1805
    },
    {
      "epoch": 0.6234035208836728,
      "grad_norm": 1.4818803071975708,
      "learning_rate": 2e-05,
      "loss": 0.793,
      "step": 1806
    },
    {
      "epoch": 0.6237487055574732,
      "grad_norm": 1.4348334074020386,
      "learning_rate": 2e-05,
      "loss": 0.8249,
      "step": 1807
    },
    {
      "epoch": 0.6240938902312737,
      "grad_norm": 1.4892843961715698,
      "learning_rate": 2e-05,
      "loss": 0.9315,
      "step": 1808
    },
    {
      "epoch": 0.6244390749050742,
      "grad_norm": 1.5051491260528564,
      "learning_rate": 2e-05,
      "loss": 0.8536,
      "step": 1809
    },
    {
      "epoch": 0.6247842595788747,
      "grad_norm": 1.6145176887512207,
      "learning_rate": 2e-05,
      "loss": 0.9593,
      "step": 1810
    },
    {
      "epoch": 0.6251294442526751,
      "grad_norm": 1.476608395576477,
      "learning_rate": 2e-05,
      "loss": 0.8637,
      "step": 1811
    },
    {
      "epoch": 0.6254746289264757,
      "grad_norm": 1.3665350675582886,
      "learning_rate": 2e-05,
      "loss": 0.8321,
      "step": 1812
    },
    {
      "epoch": 0.6258198136002762,
      "grad_norm": 1.3655027151107788,
      "learning_rate": 2e-05,
      "loss": 0.8373,
      "step": 1813
    },
    {
      "epoch": 0.6261649982740767,
      "grad_norm": 1.448413610458374,
      "learning_rate": 2e-05,
      "loss": 0.7663,
      "step": 1814
    },
    {
      "epoch": 0.6265101829478771,
      "grad_norm": 1.4350241422653198,
      "learning_rate": 2e-05,
      "loss": 0.8346,
      "step": 1815
    },
    {
      "epoch": 0.6268553676216776,
      "grad_norm": 1.4670308828353882,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 1816
    },
    {
      "epoch": 0.6272005522954781,
      "grad_norm": 1.4171937704086304,
      "learning_rate": 2e-05,
      "loss": 0.7655,
      "step": 1817
    },
    {
      "epoch": 0.6275457369692785,
      "grad_norm": 1.554121732711792,
      "learning_rate": 2e-05,
      "loss": 0.864,
      "step": 1818
    },
    {
      "epoch": 0.627890921643079,
      "grad_norm": 1.4974135160446167,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 1819
    },
    {
      "epoch": 0.6282361063168795,
      "grad_norm": 1.3687899112701416,
      "learning_rate": 2e-05,
      "loss": 0.8761,
      "step": 1820
    },
    {
      "epoch": 0.62858129099068,
      "grad_norm": 1.4858605861663818,
      "learning_rate": 2e-05,
      "loss": 0.9105,
      "step": 1821
    },
    {
      "epoch": 0.6289264756644805,
      "grad_norm": 1.3668016195297241,
      "learning_rate": 2e-05,
      "loss": 0.7863,
      "step": 1822
    },
    {
      "epoch": 0.629271660338281,
      "grad_norm": 1.4479196071624756,
      "learning_rate": 2e-05,
      "loss": 0.8713,
      "step": 1823
    },
    {
      "epoch": 0.6296168450120815,
      "grad_norm": 1.4068000316619873,
      "learning_rate": 2e-05,
      "loss": 0.8168,
      "step": 1824
    },
    {
      "epoch": 0.629962029685882,
      "grad_norm": 1.4309145212173462,
      "learning_rate": 2e-05,
      "loss": 0.8505,
      "step": 1825
    },
    {
      "epoch": 0.6303072143596824,
      "grad_norm": 1.4566209316253662,
      "learning_rate": 2e-05,
      "loss": 0.8705,
      "step": 1826
    },
    {
      "epoch": 0.6306523990334829,
      "grad_norm": 1.5272679328918457,
      "learning_rate": 2e-05,
      "loss": 0.8604,
      "step": 1827
    },
    {
      "epoch": 0.6309975837072834,
      "grad_norm": 1.6191438436508179,
      "learning_rate": 2e-05,
      "loss": 0.8767,
      "step": 1828
    },
    {
      "epoch": 0.6313427683810838,
      "grad_norm": 1.366065263748169,
      "learning_rate": 2e-05,
      "loss": 0.8658,
      "step": 1829
    },
    {
      "epoch": 0.6316879530548843,
      "grad_norm": 1.555343747138977,
      "learning_rate": 2e-05,
      "loss": 0.8881,
      "step": 1830
    },
    {
      "epoch": 0.6320331377286849,
      "grad_norm": 1.6108105182647705,
      "learning_rate": 2e-05,
      "loss": 0.8021,
      "step": 1831
    },
    {
      "epoch": 0.6323783224024854,
      "grad_norm": 1.5870782136917114,
      "learning_rate": 2e-05,
      "loss": 0.8285,
      "step": 1832
    },
    {
      "epoch": 0.6327235070762858,
      "grad_norm": 1.6762135028839111,
      "learning_rate": 2e-05,
      "loss": 0.8393,
      "step": 1833
    },
    {
      "epoch": 0.6330686917500863,
      "grad_norm": 1.4748597145080566,
      "learning_rate": 2e-05,
      "loss": 0.8332,
      "step": 1834
    },
    {
      "epoch": 0.6334138764238868,
      "grad_norm": 1.5827678442001343,
      "learning_rate": 2e-05,
      "loss": 0.9868,
      "step": 1835
    },
    {
      "epoch": 0.6337590610976873,
      "grad_norm": 1.6569079160690308,
      "learning_rate": 2e-05,
      "loss": 0.8295,
      "step": 1836
    },
    {
      "epoch": 0.6341042457714877,
      "grad_norm": 1.5431572198867798,
      "learning_rate": 2e-05,
      "loss": 0.8341,
      "step": 1837
    },
    {
      "epoch": 0.6344494304452882,
      "grad_norm": 1.593333125114441,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 1838
    },
    {
      "epoch": 0.6347946151190887,
      "grad_norm": 1.5005879402160645,
      "learning_rate": 2e-05,
      "loss": 0.7565,
      "step": 1839
    },
    {
      "epoch": 0.6351397997928891,
      "grad_norm": 1.4632999897003174,
      "learning_rate": 2e-05,
      "loss": 0.8574,
      "step": 1840
    },
    {
      "epoch": 0.6354849844666897,
      "grad_norm": 1.4926018714904785,
      "learning_rate": 2e-05,
      "loss": 0.754,
      "step": 1841
    },
    {
      "epoch": 0.6358301691404902,
      "grad_norm": 1.378830075263977,
      "learning_rate": 2e-05,
      "loss": 0.7829,
      "step": 1842
    },
    {
      "epoch": 0.6361753538142907,
      "grad_norm": 1.5645078420639038,
      "learning_rate": 2e-05,
      "loss": 0.8917,
      "step": 1843
    },
    {
      "epoch": 0.6365205384880911,
      "grad_norm": 1.5230685472488403,
      "learning_rate": 2e-05,
      "loss": 0.9218,
      "step": 1844
    },
    {
      "epoch": 0.6368657231618916,
      "grad_norm": 1.387251377105713,
      "learning_rate": 2e-05,
      "loss": 0.8277,
      "step": 1845
    },
    {
      "epoch": 0.6372109078356921,
      "grad_norm": 1.5258654356002808,
      "learning_rate": 2e-05,
      "loss": 0.8833,
      "step": 1846
    },
    {
      "epoch": 0.6375560925094926,
      "grad_norm": 1.5021984577178955,
      "learning_rate": 2e-05,
      "loss": 0.8055,
      "step": 1847
    },
    {
      "epoch": 0.637901277183293,
      "grad_norm": 1.4623361825942993,
      "learning_rate": 2e-05,
      "loss": 0.9002,
      "step": 1848
    },
    {
      "epoch": 0.6382464618570935,
      "grad_norm": 1.3704720735549927,
      "learning_rate": 2e-05,
      "loss": 0.8449,
      "step": 1849
    },
    {
      "epoch": 0.6385916465308941,
      "grad_norm": 1.4211698770523071,
      "learning_rate": 2e-05,
      "loss": 0.8038,
      "step": 1850
    },
    {
      "epoch": 0.6389368312046945,
      "grad_norm": 1.5603007078170776,
      "learning_rate": 2e-05,
      "loss": 0.8645,
      "step": 1851
    },
    {
      "epoch": 0.639282015878495,
      "grad_norm": 1.5526496171951294,
      "learning_rate": 2e-05,
      "loss": 0.8885,
      "step": 1852
    },
    {
      "epoch": 0.6396272005522955,
      "grad_norm": 1.5606153011322021,
      "learning_rate": 2e-05,
      "loss": 0.8129,
      "step": 1853
    },
    {
      "epoch": 0.639972385226096,
      "grad_norm": 1.419851303100586,
      "learning_rate": 2e-05,
      "loss": 0.8363,
      "step": 1854
    },
    {
      "epoch": 0.6403175698998964,
      "grad_norm": 1.5311888456344604,
      "learning_rate": 2e-05,
      "loss": 0.8792,
      "step": 1855
    },
    {
      "epoch": 0.6406627545736969,
      "grad_norm": 1.5301824808120728,
      "learning_rate": 2e-05,
      "loss": 0.8396,
      "step": 1856
    },
    {
      "epoch": 0.6410079392474974,
      "grad_norm": 1.3968536853790283,
      "learning_rate": 2e-05,
      "loss": 0.8353,
      "step": 1857
    },
    {
      "epoch": 0.6413531239212978,
      "grad_norm": 1.5803054571151733,
      "learning_rate": 2e-05,
      "loss": 0.8718,
      "step": 1858
    },
    {
      "epoch": 0.6416983085950984,
      "grad_norm": 1.6183758974075317,
      "learning_rate": 2e-05,
      "loss": 0.8366,
      "step": 1859
    },
    {
      "epoch": 0.6420434932688989,
      "grad_norm": 1.3652011156082153,
      "learning_rate": 2e-05,
      "loss": 0.8393,
      "step": 1860
    },
    {
      "epoch": 0.6423886779426994,
      "grad_norm": 1.4834471940994263,
      "learning_rate": 2e-05,
      "loss": 0.8633,
      "step": 1861
    },
    {
      "epoch": 0.6427338626164998,
      "grad_norm": 1.4348500967025757,
      "learning_rate": 2e-05,
      "loss": 0.7898,
      "step": 1862
    },
    {
      "epoch": 0.6430790472903003,
      "grad_norm": 1.4505746364593506,
      "learning_rate": 2e-05,
      "loss": 0.8467,
      "step": 1863
    },
    {
      "epoch": 0.6434242319641008,
      "grad_norm": 1.4606562852859497,
      "learning_rate": 2e-05,
      "loss": 0.8935,
      "step": 1864
    },
    {
      "epoch": 0.6437694166379013,
      "grad_norm": 1.5457866191864014,
      "learning_rate": 2e-05,
      "loss": 0.9238,
      "step": 1865
    },
    {
      "epoch": 0.6441146013117017,
      "grad_norm": 1.419822096824646,
      "learning_rate": 2e-05,
      "loss": 0.8526,
      "step": 1866
    },
    {
      "epoch": 0.6444597859855022,
      "grad_norm": 1.3346892595291138,
      "learning_rate": 2e-05,
      "loss": 0.7665,
      "step": 1867
    },
    {
      "epoch": 0.6448049706593028,
      "grad_norm": 1.5830979347229004,
      "learning_rate": 2e-05,
      "loss": 0.878,
      "step": 1868
    },
    {
      "epoch": 0.6451501553331032,
      "grad_norm": 1.3587926626205444,
      "learning_rate": 2e-05,
      "loss": 0.834,
      "step": 1869
    },
    {
      "epoch": 0.6454953400069037,
      "grad_norm": 1.4288649559020996,
      "learning_rate": 2e-05,
      "loss": 0.825,
      "step": 1870
    },
    {
      "epoch": 0.6458405246807042,
      "grad_norm": 1.4283580780029297,
      "learning_rate": 2e-05,
      "loss": 0.8277,
      "step": 1871
    },
    {
      "epoch": 0.6461857093545047,
      "grad_norm": 1.5467394590377808,
      "learning_rate": 2e-05,
      "loss": 0.8554,
      "step": 1872
    },
    {
      "epoch": 0.6465308940283051,
      "grad_norm": 1.4504711627960205,
      "learning_rate": 2e-05,
      "loss": 0.8613,
      "step": 1873
    },
    {
      "epoch": 0.6468760787021056,
      "grad_norm": 1.6207042932510376,
      "learning_rate": 2e-05,
      "loss": 0.8567,
      "step": 1874
    },
    {
      "epoch": 0.6472212633759061,
      "grad_norm": 1.4630727767944336,
      "learning_rate": 2e-05,
      "loss": 0.7969,
      "step": 1875
    },
    {
      "epoch": 0.6475664480497066,
      "grad_norm": 1.4201456308364868,
      "learning_rate": 2e-05,
      "loss": 0.8694,
      "step": 1876
    },
    {
      "epoch": 0.647911632723507,
      "grad_norm": 1.3680998086929321,
      "learning_rate": 2e-05,
      "loss": 0.8365,
      "step": 1877
    },
    {
      "epoch": 0.6482568173973076,
      "grad_norm": 1.2708547115325928,
      "learning_rate": 2e-05,
      "loss": 0.8575,
      "step": 1878
    },
    {
      "epoch": 0.6486020020711081,
      "grad_norm": 1.4450918436050415,
      "learning_rate": 2e-05,
      "loss": 0.8097,
      "step": 1879
    },
    {
      "epoch": 0.6489471867449085,
      "grad_norm": 1.3347735404968262,
      "learning_rate": 2e-05,
      "loss": 0.8166,
      "step": 1880
    },
    {
      "epoch": 0.649292371418709,
      "grad_norm": 1.680853009223938,
      "learning_rate": 2e-05,
      "loss": 0.837,
      "step": 1881
    },
    {
      "epoch": 0.6496375560925095,
      "grad_norm": 1.407870888710022,
      "learning_rate": 2e-05,
      "loss": 0.8644,
      "step": 1882
    },
    {
      "epoch": 0.64998274076631,
      "grad_norm": 1.6451884508132935,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 1883
    },
    {
      "epoch": 0.6503279254401104,
      "grad_norm": 1.4703787565231323,
      "learning_rate": 2e-05,
      "loss": 0.8611,
      "step": 1884
    },
    {
      "epoch": 0.6506731101139109,
      "grad_norm": 1.4634755849838257,
      "learning_rate": 2e-05,
      "loss": 0.8557,
      "step": 1885
    },
    {
      "epoch": 0.6510182947877114,
      "grad_norm": 1.4680510759353638,
      "learning_rate": 2e-05,
      "loss": 0.8769,
      "step": 1886
    },
    {
      "epoch": 0.651363479461512,
      "grad_norm": 1.7891960144042969,
      "learning_rate": 2e-05,
      "loss": 0.8728,
      "step": 1887
    },
    {
      "epoch": 0.6517086641353124,
      "grad_norm": 1.3473957777023315,
      "learning_rate": 2e-05,
      "loss": 0.7901,
      "step": 1888
    },
    {
      "epoch": 0.6520538488091129,
      "grad_norm": 1.5245442390441895,
      "learning_rate": 2e-05,
      "loss": 0.8856,
      "step": 1889
    },
    {
      "epoch": 0.6523990334829134,
      "grad_norm": 1.3781709671020508,
      "learning_rate": 2e-05,
      "loss": 0.8111,
      "step": 1890
    },
    {
      "epoch": 0.6527442181567138,
      "grad_norm": 1.3647587299346924,
      "learning_rate": 2e-05,
      "loss": 0.8118,
      "step": 1891
    },
    {
      "epoch": 0.6530894028305143,
      "grad_norm": 1.3020131587982178,
      "learning_rate": 2e-05,
      "loss": 0.8348,
      "step": 1892
    },
    {
      "epoch": 0.6534345875043148,
      "grad_norm": 1.4908369779586792,
      "learning_rate": 2e-05,
      "loss": 0.855,
      "step": 1893
    },
    {
      "epoch": 0.6537797721781153,
      "grad_norm": 1.354004144668579,
      "learning_rate": 2e-05,
      "loss": 0.8569,
      "step": 1894
    },
    {
      "epoch": 0.6541249568519157,
      "grad_norm": 1.569145917892456,
      "learning_rate": 2e-05,
      "loss": 0.8593,
      "step": 1895
    },
    {
      "epoch": 0.6544701415257163,
      "grad_norm": 1.5188720226287842,
      "learning_rate": 2e-05,
      "loss": 0.8468,
      "step": 1896
    },
    {
      "epoch": 0.6548153261995168,
      "grad_norm": 1.6279382705688477,
      "learning_rate": 2e-05,
      "loss": 0.928,
      "step": 1897
    },
    {
      "epoch": 0.6551605108733172,
      "grad_norm": 1.3748031854629517,
      "learning_rate": 2e-05,
      "loss": 0.862,
      "step": 1898
    },
    {
      "epoch": 0.6555056955471177,
      "grad_norm": 1.466531753540039,
      "learning_rate": 2e-05,
      "loss": 0.808,
      "step": 1899
    },
    {
      "epoch": 0.6558508802209182,
      "grad_norm": 1.5042625665664673,
      "learning_rate": 2e-05,
      "loss": 0.8591,
      "step": 1900
    },
    {
      "epoch": 0.6561960648947187,
      "grad_norm": 1.561767339706421,
      "learning_rate": 2e-05,
      "loss": 0.7649,
      "step": 1901
    },
    {
      "epoch": 0.6565412495685191,
      "grad_norm": 1.4775686264038086,
      "learning_rate": 2e-05,
      "loss": 0.8954,
      "step": 1902
    },
    {
      "epoch": 0.6568864342423196,
      "grad_norm": 1.3814221620559692,
      "learning_rate": 2e-05,
      "loss": 0.8314,
      "step": 1903
    },
    {
      "epoch": 0.6572316189161201,
      "grad_norm": 1.607469916343689,
      "learning_rate": 2e-05,
      "loss": 0.8191,
      "step": 1904
    },
    {
      "epoch": 0.6575768035899207,
      "grad_norm": 1.4529218673706055,
      "learning_rate": 2e-05,
      "loss": 0.8401,
      "step": 1905
    },
    {
      "epoch": 0.6579219882637211,
      "grad_norm": 1.4693787097930908,
      "learning_rate": 2e-05,
      "loss": 0.8705,
      "step": 1906
    },
    {
      "epoch": 0.6582671729375216,
      "grad_norm": 1.3208246231079102,
      "learning_rate": 2e-05,
      "loss": 0.8102,
      "step": 1907
    },
    {
      "epoch": 0.6586123576113221,
      "grad_norm": 1.3656742572784424,
      "learning_rate": 2e-05,
      "loss": 0.8653,
      "step": 1908
    },
    {
      "epoch": 0.6589575422851225,
      "grad_norm": 1.5363532304763794,
      "learning_rate": 2e-05,
      "loss": 0.8759,
      "step": 1909
    },
    {
      "epoch": 0.659302726958923,
      "grad_norm": 1.5494394302368164,
      "learning_rate": 2e-05,
      "loss": 0.8397,
      "step": 1910
    },
    {
      "epoch": 0.6596479116327235,
      "grad_norm": 1.5465357303619385,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 1911
    },
    {
      "epoch": 0.659993096306524,
      "grad_norm": 1.4830421209335327,
      "learning_rate": 2e-05,
      "loss": 0.8559,
      "step": 1912
    },
    {
      "epoch": 0.6603382809803244,
      "grad_norm": 1.3294469118118286,
      "learning_rate": 2e-05,
      "loss": 0.8733,
      "step": 1913
    },
    {
      "epoch": 0.660683465654125,
      "grad_norm": 1.583045482635498,
      "learning_rate": 2e-05,
      "loss": 0.8538,
      "step": 1914
    },
    {
      "epoch": 0.6610286503279255,
      "grad_norm": 1.3938724994659424,
      "learning_rate": 2e-05,
      "loss": 0.8468,
      "step": 1915
    },
    {
      "epoch": 0.661373835001726,
      "grad_norm": 1.3280558586120605,
      "learning_rate": 2e-05,
      "loss": 0.854,
      "step": 1916
    },
    {
      "epoch": 0.6617190196755264,
      "grad_norm": 1.4310359954833984,
      "learning_rate": 2e-05,
      "loss": 0.7852,
      "step": 1917
    },
    {
      "epoch": 0.6620642043493269,
      "grad_norm": 1.3773996829986572,
      "learning_rate": 2e-05,
      "loss": 0.7629,
      "step": 1918
    },
    {
      "epoch": 0.6624093890231274,
      "grad_norm": 1.4940450191497803,
      "learning_rate": 2e-05,
      "loss": 0.8202,
      "step": 1919
    },
    {
      "epoch": 0.6627545736969278,
      "grad_norm": 1.352609395980835,
      "learning_rate": 2e-05,
      "loss": 0.7902,
      "step": 1920
    },
    {
      "epoch": 0.6630997583707283,
      "grad_norm": 1.4640060663223267,
      "learning_rate": 2e-05,
      "loss": 0.8051,
      "step": 1921
    },
    {
      "epoch": 0.6634449430445288,
      "grad_norm": 1.4188419580459595,
      "learning_rate": 2e-05,
      "loss": 0.8085,
      "step": 1922
    },
    {
      "epoch": 0.6637901277183293,
      "grad_norm": 1.3911188840866089,
      "learning_rate": 2e-05,
      "loss": 0.9162,
      "step": 1923
    },
    {
      "epoch": 0.6641353123921298,
      "grad_norm": 1.3670439720153809,
      "learning_rate": 2e-05,
      "loss": 0.8447,
      "step": 1924
    },
    {
      "epoch": 0.6644804970659303,
      "grad_norm": 1.58881676197052,
      "learning_rate": 2e-05,
      "loss": 0.8142,
      "step": 1925
    },
    {
      "epoch": 0.6648256817397308,
      "grad_norm": 1.4218168258666992,
      "learning_rate": 2e-05,
      "loss": 0.8444,
      "step": 1926
    },
    {
      "epoch": 0.6651708664135313,
      "grad_norm": 1.4424667358398438,
      "learning_rate": 2e-05,
      "loss": 0.754,
      "step": 1927
    },
    {
      "epoch": 0.6655160510873317,
      "grad_norm": 1.3621973991394043,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 1928
    },
    {
      "epoch": 0.6658612357611322,
      "grad_norm": 1.5858827829360962,
      "learning_rate": 2e-05,
      "loss": 0.834,
      "step": 1929
    },
    {
      "epoch": 0.6662064204349327,
      "grad_norm": 1.3991895914077759,
      "learning_rate": 2e-05,
      "loss": 0.8018,
      "step": 1930
    },
    {
      "epoch": 0.6665516051087331,
      "grad_norm": 1.2977067232131958,
      "learning_rate": 2e-05,
      "loss": 0.8239,
      "step": 1931
    },
    {
      "epoch": 0.6668967897825336,
      "grad_norm": 1.479429841041565,
      "learning_rate": 2e-05,
      "loss": 0.7726,
      "step": 1932
    },
    {
      "epoch": 0.6672419744563342,
      "grad_norm": 1.4092533588409424,
      "learning_rate": 2e-05,
      "loss": 0.863,
      "step": 1933
    },
    {
      "epoch": 0.6675871591301347,
      "grad_norm": 1.3967161178588867,
      "learning_rate": 2e-05,
      "loss": 0.8244,
      "step": 1934
    },
    {
      "epoch": 0.6679323438039351,
      "grad_norm": 1.3463435173034668,
      "learning_rate": 2e-05,
      "loss": 0.8984,
      "step": 1935
    },
    {
      "epoch": 0.6682775284777356,
      "grad_norm": 1.4784640073776245,
      "learning_rate": 2e-05,
      "loss": 0.8123,
      "step": 1936
    },
    {
      "epoch": 0.6686227131515361,
      "grad_norm": 1.431867241859436,
      "learning_rate": 2e-05,
      "loss": 0.8707,
      "step": 1937
    },
    {
      "epoch": 0.6689678978253366,
      "grad_norm": 1.427194595336914,
      "learning_rate": 2e-05,
      "loss": 0.9015,
      "step": 1938
    },
    {
      "epoch": 0.669313082499137,
      "grad_norm": 1.4785770177841187,
      "learning_rate": 2e-05,
      "loss": 0.8456,
      "step": 1939
    },
    {
      "epoch": 0.6696582671729375,
      "grad_norm": 1.4433376789093018,
      "learning_rate": 2e-05,
      "loss": 0.8639,
      "step": 1940
    },
    {
      "epoch": 0.670003451846738,
      "grad_norm": 1.384158730506897,
      "learning_rate": 2e-05,
      "loss": 0.8241,
      "step": 1941
    },
    {
      "epoch": 0.6703486365205384,
      "grad_norm": 4.9498209953308105,
      "learning_rate": 2e-05,
      "loss": 0.8901,
      "step": 1942
    },
    {
      "epoch": 0.670693821194339,
      "grad_norm": 1.307857871055603,
      "learning_rate": 2e-05,
      "loss": 0.8715,
      "step": 1943
    },
    {
      "epoch": 0.6710390058681395,
      "grad_norm": 1.4123470783233643,
      "learning_rate": 2e-05,
      "loss": 0.8968,
      "step": 1944
    },
    {
      "epoch": 0.67138419054194,
      "grad_norm": 1.2683181762695312,
      "learning_rate": 2e-05,
      "loss": 0.7981,
      "step": 1945
    },
    {
      "epoch": 0.6717293752157404,
      "grad_norm": 1.503236174583435,
      "learning_rate": 2e-05,
      "loss": 0.8165,
      "step": 1946
    },
    {
      "epoch": 0.6720745598895409,
      "grad_norm": 1.5056778192520142,
      "learning_rate": 2e-05,
      "loss": 0.8497,
      "step": 1947
    },
    {
      "epoch": 0.6724197445633414,
      "grad_norm": 1.420041561126709,
      "learning_rate": 2e-05,
      "loss": 0.8899,
      "step": 1948
    },
    {
      "epoch": 0.6727649292371418,
      "grad_norm": 1.5133198499679565,
      "learning_rate": 2e-05,
      "loss": 0.927,
      "step": 1949
    },
    {
      "epoch": 0.6731101139109423,
      "grad_norm": 1.484230875968933,
      "learning_rate": 2e-05,
      "loss": 0.7483,
      "step": 1950
    },
    {
      "epoch": 0.6734552985847428,
      "grad_norm": 1.3868217468261719,
      "learning_rate": 2e-05,
      "loss": 0.8635,
      "step": 1951
    },
    {
      "epoch": 0.6738004832585434,
      "grad_norm": 1.4767365455627441,
      "learning_rate": 2e-05,
      "loss": 0.7963,
      "step": 1952
    },
    {
      "epoch": 0.6741456679323438,
      "grad_norm": 1.5617077350616455,
      "learning_rate": 2e-05,
      "loss": 0.9485,
      "step": 1953
    },
    {
      "epoch": 0.6744908526061443,
      "grad_norm": 1.378186583518982,
      "learning_rate": 2e-05,
      "loss": 0.8491,
      "step": 1954
    },
    {
      "epoch": 0.6748360372799448,
      "grad_norm": 1.4194579124450684,
      "learning_rate": 2e-05,
      "loss": 0.8621,
      "step": 1955
    },
    {
      "epoch": 0.6751812219537453,
      "grad_norm": 1.332121729850769,
      "learning_rate": 2e-05,
      "loss": 0.8735,
      "step": 1956
    },
    {
      "epoch": 0.6755264066275457,
      "grad_norm": 1.4865448474884033,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 1957
    },
    {
      "epoch": 0.6758715913013462,
      "grad_norm": 1.4508066177368164,
      "learning_rate": 2e-05,
      "loss": 0.8982,
      "step": 1958
    },
    {
      "epoch": 0.6762167759751467,
      "grad_norm": 1.4131454229354858,
      "learning_rate": 2e-05,
      "loss": 0.8244,
      "step": 1959
    },
    {
      "epoch": 0.6765619606489471,
      "grad_norm": 1.4509025812149048,
      "learning_rate": 2e-05,
      "loss": 0.8863,
      "step": 1960
    },
    {
      "epoch": 0.6769071453227476,
      "grad_norm": 1.4438878297805786,
      "learning_rate": 2e-05,
      "loss": 0.8917,
      "step": 1961
    },
    {
      "epoch": 0.6772523299965482,
      "grad_norm": 1.309280514717102,
      "learning_rate": 2e-05,
      "loss": 0.8241,
      "step": 1962
    },
    {
      "epoch": 0.6775975146703487,
      "grad_norm": 1.3203887939453125,
      "learning_rate": 2e-05,
      "loss": 0.8088,
      "step": 1963
    },
    {
      "epoch": 0.6779426993441491,
      "grad_norm": 1.4798178672790527,
      "learning_rate": 2e-05,
      "loss": 0.8122,
      "step": 1964
    },
    {
      "epoch": 0.6782878840179496,
      "grad_norm": 1.3787981271743774,
      "learning_rate": 2e-05,
      "loss": 0.9058,
      "step": 1965
    },
    {
      "epoch": 0.6786330686917501,
      "grad_norm": 1.3736672401428223,
      "learning_rate": 2e-05,
      "loss": 0.8881,
      "step": 1966
    },
    {
      "epoch": 0.6789782533655506,
      "grad_norm": 1.4416965246200562,
      "learning_rate": 2e-05,
      "loss": 0.8552,
      "step": 1967
    },
    {
      "epoch": 0.679323438039351,
      "grad_norm": 1.3176002502441406,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 1968
    },
    {
      "epoch": 0.6796686227131515,
      "grad_norm": 1.5460203886032104,
      "learning_rate": 2e-05,
      "loss": 0.8036,
      "step": 1969
    },
    {
      "epoch": 0.680013807386952,
      "grad_norm": 1.6315728425979614,
      "learning_rate": 2e-05,
      "loss": 0.7869,
      "step": 1970
    },
    {
      "epoch": 0.6803589920607525,
      "grad_norm": 1.4329735040664673,
      "learning_rate": 2e-05,
      "loss": 0.8809,
      "step": 1971
    },
    {
      "epoch": 0.680704176734553,
      "grad_norm": 1.4735169410705566,
      "learning_rate": 2e-05,
      "loss": 0.9085,
      "step": 1972
    },
    {
      "epoch": 0.6810493614083535,
      "grad_norm": 1.5166964530944824,
      "learning_rate": 2e-05,
      "loss": 0.8002,
      "step": 1973
    },
    {
      "epoch": 0.681394546082154,
      "grad_norm": 1.4126782417297363,
      "learning_rate": 2e-05,
      "loss": 0.8413,
      "step": 1974
    },
    {
      "epoch": 0.6817397307559544,
      "grad_norm": 1.5260039567947388,
      "learning_rate": 2e-05,
      "loss": 0.8499,
      "step": 1975
    },
    {
      "epoch": 0.6820849154297549,
      "grad_norm": 1.3725435733795166,
      "learning_rate": 2e-05,
      "loss": 0.8549,
      "step": 1976
    },
    {
      "epoch": 0.6824301001035554,
      "grad_norm": 1.400605320930481,
      "learning_rate": 2e-05,
      "loss": 0.8679,
      "step": 1977
    },
    {
      "epoch": 0.6827752847773559,
      "grad_norm": 1.3898992538452148,
      "learning_rate": 2e-05,
      "loss": 0.7775,
      "step": 1978
    },
    {
      "epoch": 0.6831204694511563,
      "grad_norm": 1.6139012575149536,
      "learning_rate": 2e-05,
      "loss": 0.8246,
      "step": 1979
    },
    {
      "epoch": 0.6834656541249569,
      "grad_norm": 1.4733483791351318,
      "learning_rate": 2e-05,
      "loss": 0.807,
      "step": 1980
    },
    {
      "epoch": 0.6838108387987574,
      "grad_norm": 1.462896704673767,
      "learning_rate": 2e-05,
      "loss": 0.8464,
      "step": 1981
    },
    {
      "epoch": 0.6841560234725578,
      "grad_norm": 1.3758314847946167,
      "learning_rate": 2e-05,
      "loss": 0.739,
      "step": 1982
    },
    {
      "epoch": 0.6845012081463583,
      "grad_norm": 1.4957334995269775,
      "learning_rate": 2e-05,
      "loss": 0.8058,
      "step": 1983
    },
    {
      "epoch": 0.6848463928201588,
      "grad_norm": 1.4420403242111206,
      "learning_rate": 2e-05,
      "loss": 0.862,
      "step": 1984
    },
    {
      "epoch": 0.6851915774939593,
      "grad_norm": 1.3656843900680542,
      "learning_rate": 2e-05,
      "loss": 0.7972,
      "step": 1985
    },
    {
      "epoch": 0.6855367621677597,
      "grad_norm": 1.4025840759277344,
      "learning_rate": 2e-05,
      "loss": 0.8084,
      "step": 1986
    },
    {
      "epoch": 0.6858819468415602,
      "grad_norm": 1.3612439632415771,
      "learning_rate": 2e-05,
      "loss": 0.8328,
      "step": 1987
    },
    {
      "epoch": 0.6862271315153607,
      "grad_norm": 1.4155888557434082,
      "learning_rate": 2e-05,
      "loss": 0.818,
      "step": 1988
    },
    {
      "epoch": 0.6865723161891611,
      "grad_norm": 1.2868297100067139,
      "learning_rate": 2e-05,
      "loss": 0.8508,
      "step": 1989
    },
    {
      "epoch": 0.6869175008629617,
      "grad_norm": 1.4192852973937988,
      "learning_rate": 2e-05,
      "loss": 0.8276,
      "step": 1990
    },
    {
      "epoch": 0.6872626855367622,
      "grad_norm": 1.46303391456604,
      "learning_rate": 2e-05,
      "loss": 0.8575,
      "step": 1991
    },
    {
      "epoch": 0.6876078702105627,
      "grad_norm": 1.445085883140564,
      "learning_rate": 2e-05,
      "loss": 0.791,
      "step": 1992
    },
    {
      "epoch": 0.6879530548843631,
      "grad_norm": 1.5046213865280151,
      "learning_rate": 2e-05,
      "loss": 0.7695,
      "step": 1993
    },
    {
      "epoch": 0.6882982395581636,
      "grad_norm": 1.6426713466644287,
      "learning_rate": 2e-05,
      "loss": 0.8521,
      "step": 1994
    },
    {
      "epoch": 0.6886434242319641,
      "grad_norm": 1.4739179611206055,
      "learning_rate": 2e-05,
      "loss": 0.8206,
      "step": 1995
    },
    {
      "epoch": 0.6889886089057646,
      "grad_norm": 1.3657130002975464,
      "learning_rate": 2e-05,
      "loss": 0.9091,
      "step": 1996
    },
    {
      "epoch": 0.689333793579565,
      "grad_norm": 1.4000606536865234,
      "learning_rate": 2e-05,
      "loss": 0.8947,
      "step": 1997
    },
    {
      "epoch": 0.6896789782533655,
      "grad_norm": 1.3962515592575073,
      "learning_rate": 2e-05,
      "loss": 0.8142,
      "step": 1998
    },
    {
      "epoch": 0.6900241629271661,
      "grad_norm": 1.5118430852890015,
      "learning_rate": 2e-05,
      "loss": 0.8561,
      "step": 1999
    },
    {
      "epoch": 0.6903693476009665,
      "grad_norm": 1.3880658149719238,
      "learning_rate": 2e-05,
      "loss": 0.7714,
      "step": 2000
    },
    {
      "epoch": 0.690714532274767,
      "grad_norm": 1.2779494524002075,
      "learning_rate": 2e-05,
      "loss": 0.8306,
      "step": 2001
    },
    {
      "epoch": 0.6910597169485675,
      "grad_norm": 1.3804038763046265,
      "learning_rate": 2e-05,
      "loss": 0.8399,
      "step": 2002
    },
    {
      "epoch": 0.691404901622368,
      "grad_norm": 1.4848177433013916,
      "learning_rate": 2e-05,
      "loss": 0.8655,
      "step": 2003
    },
    {
      "epoch": 0.6917500862961684,
      "grad_norm": 1.3335546255111694,
      "learning_rate": 2e-05,
      "loss": 0.768,
      "step": 2004
    },
    {
      "epoch": 0.6920952709699689,
      "grad_norm": 1.3827664852142334,
      "learning_rate": 2e-05,
      "loss": 0.8526,
      "step": 2005
    },
    {
      "epoch": 0.6924404556437694,
      "grad_norm": 1.495176911354065,
      "learning_rate": 2e-05,
      "loss": 0.8849,
      "step": 2006
    },
    {
      "epoch": 0.69278564031757,
      "grad_norm": 1.4663234949111938,
      "learning_rate": 2e-05,
      "loss": 0.8461,
      "step": 2007
    },
    {
      "epoch": 0.6931308249913704,
      "grad_norm": 1.6130558252334595,
      "learning_rate": 2e-05,
      "loss": 0.8351,
      "step": 2008
    },
    {
      "epoch": 0.6934760096651709,
      "grad_norm": 1.3110578060150146,
      "learning_rate": 2e-05,
      "loss": 0.7932,
      "step": 2009
    },
    {
      "epoch": 0.6938211943389714,
      "grad_norm": 1.386589765548706,
      "learning_rate": 2e-05,
      "loss": 0.972,
      "step": 2010
    },
    {
      "epoch": 0.6941663790127718,
      "grad_norm": 1.594356894493103,
      "learning_rate": 2e-05,
      "loss": 0.8987,
      "step": 2011
    },
    {
      "epoch": 0.6945115636865723,
      "grad_norm": 1.4747726917266846,
      "learning_rate": 2e-05,
      "loss": 0.827,
      "step": 2012
    },
    {
      "epoch": 0.6948567483603728,
      "grad_norm": 1.5386276245117188,
      "learning_rate": 2e-05,
      "loss": 0.8451,
      "step": 2013
    },
    {
      "epoch": 0.6952019330341733,
      "grad_norm": 1.4822418689727783,
      "learning_rate": 2e-05,
      "loss": 0.8995,
      "step": 2014
    },
    {
      "epoch": 0.6955471177079737,
      "grad_norm": 1.3099080324172974,
      "learning_rate": 2e-05,
      "loss": 0.7873,
      "step": 2015
    },
    {
      "epoch": 0.6958923023817742,
      "grad_norm": 1.6207081079483032,
      "learning_rate": 2e-05,
      "loss": 0.9171,
      "step": 2016
    },
    {
      "epoch": 0.6962374870555748,
      "grad_norm": 1.422300934791565,
      "learning_rate": 2e-05,
      "loss": 0.8156,
      "step": 2017
    },
    {
      "epoch": 0.6965826717293753,
      "grad_norm": 1.5695608854293823,
      "learning_rate": 2e-05,
      "loss": 0.8952,
      "step": 2018
    },
    {
      "epoch": 0.6969278564031757,
      "grad_norm": 1.5287162065505981,
      "learning_rate": 2e-05,
      "loss": 0.8996,
      "step": 2019
    },
    {
      "epoch": 0.6972730410769762,
      "grad_norm": 1.5194437503814697,
      "learning_rate": 2e-05,
      "loss": 0.8302,
      "step": 2020
    },
    {
      "epoch": 0.6976182257507767,
      "grad_norm": 1.5163722038269043,
      "learning_rate": 2e-05,
      "loss": 0.8103,
      "step": 2021
    },
    {
      "epoch": 0.6979634104245771,
      "grad_norm": 1.3650977611541748,
      "learning_rate": 2e-05,
      "loss": 0.8615,
      "step": 2022
    },
    {
      "epoch": 0.6983085950983776,
      "grad_norm": 1.4719257354736328,
      "learning_rate": 2e-05,
      "loss": 0.8591,
      "step": 2023
    },
    {
      "epoch": 0.6986537797721781,
      "grad_norm": 1.436424732208252,
      "learning_rate": 2e-05,
      "loss": 0.8726,
      "step": 2024
    },
    {
      "epoch": 0.6989989644459786,
      "grad_norm": 1.452649474143982,
      "learning_rate": 2e-05,
      "loss": 0.8023,
      "step": 2025
    },
    {
      "epoch": 0.699344149119779,
      "grad_norm": 1.3497849702835083,
      "learning_rate": 2e-05,
      "loss": 0.8377,
      "step": 2026
    },
    {
      "epoch": 0.6996893337935796,
      "grad_norm": 1.416914463043213,
      "learning_rate": 2e-05,
      "loss": 0.8069,
      "step": 2027
    },
    {
      "epoch": 0.7000345184673801,
      "grad_norm": 1.3175020217895508,
      "learning_rate": 2e-05,
      "loss": 0.781,
      "step": 2028
    },
    {
      "epoch": 0.7003797031411805,
      "grad_norm": 1.4155608415603638,
      "learning_rate": 2e-05,
      "loss": 0.866,
      "step": 2029
    },
    {
      "epoch": 0.700724887814981,
      "grad_norm": 1.3320101499557495,
      "learning_rate": 2e-05,
      "loss": 0.8132,
      "step": 2030
    },
    {
      "epoch": 0.7010700724887815,
      "grad_norm": 1.5143011808395386,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 2031
    },
    {
      "epoch": 0.701415257162582,
      "grad_norm": 1.3908056020736694,
      "learning_rate": 2e-05,
      "loss": 0.9149,
      "step": 2032
    },
    {
      "epoch": 0.7017604418363824,
      "grad_norm": 1.4960238933563232,
      "learning_rate": 2e-05,
      "loss": 0.8476,
      "step": 2033
    },
    {
      "epoch": 0.7021056265101829,
      "grad_norm": 1.4701018333435059,
      "learning_rate": 2e-05,
      "loss": 0.8577,
      "step": 2034
    },
    {
      "epoch": 0.7024508111839834,
      "grad_norm": 1.495768666267395,
      "learning_rate": 2e-05,
      "loss": 0.8462,
      "step": 2035
    },
    {
      "epoch": 0.702795995857784,
      "grad_norm": 1.5582586526870728,
      "learning_rate": 2e-05,
      "loss": 0.8644,
      "step": 2036
    },
    {
      "epoch": 0.7031411805315844,
      "grad_norm": 1.413165807723999,
      "learning_rate": 2e-05,
      "loss": 0.8209,
      "step": 2037
    },
    {
      "epoch": 0.7034863652053849,
      "grad_norm": 1.302000880241394,
      "learning_rate": 2e-05,
      "loss": 0.8093,
      "step": 2038
    },
    {
      "epoch": 0.7038315498791854,
      "grad_norm": 1.522545576095581,
      "learning_rate": 2e-05,
      "loss": 0.9352,
      "step": 2039
    },
    {
      "epoch": 0.7041767345529858,
      "grad_norm": 1.334641456604004,
      "learning_rate": 2e-05,
      "loss": 0.908,
      "step": 2040
    },
    {
      "epoch": 0.7045219192267863,
      "grad_norm": 1.5199342966079712,
      "learning_rate": 2e-05,
      "loss": 0.7829,
      "step": 2041
    },
    {
      "epoch": 0.7048671039005868,
      "grad_norm": 1.433461308479309,
      "learning_rate": 2e-05,
      "loss": 0.8308,
      "step": 2042
    },
    {
      "epoch": 0.7052122885743873,
      "grad_norm": 1.4736562967300415,
      "learning_rate": 2e-05,
      "loss": 0.8047,
      "step": 2043
    },
    {
      "epoch": 0.7055574732481877,
      "grad_norm": 1.4639570713043213,
      "learning_rate": 2e-05,
      "loss": 0.8441,
      "step": 2044
    },
    {
      "epoch": 0.7059026579219883,
      "grad_norm": 1.3228296041488647,
      "learning_rate": 2e-05,
      "loss": 0.8458,
      "step": 2045
    },
    {
      "epoch": 0.7062478425957888,
      "grad_norm": 1.5432075262069702,
      "learning_rate": 2e-05,
      "loss": 0.8486,
      "step": 2046
    },
    {
      "epoch": 0.7065930272695893,
      "grad_norm": 1.4010401964187622,
      "learning_rate": 2e-05,
      "loss": 0.8148,
      "step": 2047
    },
    {
      "epoch": 0.7069382119433897,
      "grad_norm": 1.4901936054229736,
      "learning_rate": 2e-05,
      "loss": 0.8892,
      "step": 2048
    },
    {
      "epoch": 0.7072833966171902,
      "grad_norm": 1.4741902351379395,
      "learning_rate": 2e-05,
      "loss": 0.8114,
      "step": 2049
    },
    {
      "epoch": 0.7076285812909907,
      "grad_norm": 1.3958640098571777,
      "learning_rate": 2e-05,
      "loss": 0.7784,
      "step": 2050
    },
    {
      "epoch": 0.7079737659647911,
      "grad_norm": 1.3490016460418701,
      "learning_rate": 2e-05,
      "loss": 0.8594,
      "step": 2051
    },
    {
      "epoch": 0.7083189506385916,
      "grad_norm": 1.5714068412780762,
      "learning_rate": 2e-05,
      "loss": 0.8673,
      "step": 2052
    },
    {
      "epoch": 0.7086641353123921,
      "grad_norm": 1.6326420307159424,
      "learning_rate": 2e-05,
      "loss": 0.9316,
      "step": 2053
    },
    {
      "epoch": 0.7090093199861927,
      "grad_norm": 1.316461205482483,
      "learning_rate": 2e-05,
      "loss": 0.7975,
      "step": 2054
    },
    {
      "epoch": 0.7093545046599931,
      "grad_norm": 1.4299781322479248,
      "learning_rate": 2e-05,
      "loss": 0.848,
      "step": 2055
    },
    {
      "epoch": 0.7096996893337936,
      "grad_norm": 1.4033660888671875,
      "learning_rate": 2e-05,
      "loss": 0.8574,
      "step": 2056
    },
    {
      "epoch": 0.7100448740075941,
      "grad_norm": 1.4901971817016602,
      "learning_rate": 2e-05,
      "loss": 0.7753,
      "step": 2057
    },
    {
      "epoch": 0.7103900586813946,
      "grad_norm": 1.5269098281860352,
      "learning_rate": 2e-05,
      "loss": 0.9075,
      "step": 2058
    },
    {
      "epoch": 0.710735243355195,
      "grad_norm": 1.3287854194641113,
      "learning_rate": 2e-05,
      "loss": 0.8567,
      "step": 2059
    },
    {
      "epoch": 0.7110804280289955,
      "grad_norm": 1.4023994207382202,
      "learning_rate": 2e-05,
      "loss": 0.7871,
      "step": 2060
    },
    {
      "epoch": 0.711425612702796,
      "grad_norm": 1.2964110374450684,
      "learning_rate": 2e-05,
      "loss": 0.8271,
      "step": 2061
    },
    {
      "epoch": 0.7117707973765964,
      "grad_norm": 1.4788486957550049,
      "learning_rate": 2e-05,
      "loss": 0.9247,
      "step": 2062
    },
    {
      "epoch": 0.712115982050397,
      "grad_norm": 1.3380295038223267,
      "learning_rate": 2e-05,
      "loss": 0.8206,
      "step": 2063
    },
    {
      "epoch": 0.7124611667241975,
      "grad_norm": 1.3674893379211426,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 2064
    },
    {
      "epoch": 0.712806351397998,
      "grad_norm": 1.3643980026245117,
      "learning_rate": 2e-05,
      "loss": 0.8517,
      "step": 2065
    },
    {
      "epoch": 0.7131515360717984,
      "grad_norm": 1.5594216585159302,
      "learning_rate": 2e-05,
      "loss": 0.8588,
      "step": 2066
    },
    {
      "epoch": 0.7134967207455989,
      "grad_norm": 1.3518229722976685,
      "learning_rate": 2e-05,
      "loss": 0.8123,
      "step": 2067
    },
    {
      "epoch": 0.7138419054193994,
      "grad_norm": 1.509379267692566,
      "learning_rate": 2e-05,
      "loss": 0.8958,
      "step": 2068
    },
    {
      "epoch": 0.7141870900931999,
      "grad_norm": 1.4550458192825317,
      "learning_rate": 2e-05,
      "loss": 0.8664,
      "step": 2069
    },
    {
      "epoch": 0.7145322747670003,
      "grad_norm": 1.3847055435180664,
      "learning_rate": 2e-05,
      "loss": 0.8656,
      "step": 2070
    },
    {
      "epoch": 0.7148774594408008,
      "grad_norm": 1.5140255689620972,
      "learning_rate": 2e-05,
      "loss": 0.8442,
      "step": 2071
    },
    {
      "epoch": 0.7152226441146013,
      "grad_norm": 1.3413900136947632,
      "learning_rate": 2e-05,
      "loss": 0.8701,
      "step": 2072
    },
    {
      "epoch": 0.7155678287884017,
      "grad_norm": 1.4537826776504517,
      "learning_rate": 2e-05,
      "loss": 0.8891,
      "step": 2073
    },
    {
      "epoch": 0.7159130134622023,
      "grad_norm": 1.3895390033721924,
      "learning_rate": 2e-05,
      "loss": 0.8109,
      "step": 2074
    },
    {
      "epoch": 0.7162581981360028,
      "grad_norm": 1.5754975080490112,
      "learning_rate": 2e-05,
      "loss": 0.966,
      "step": 2075
    },
    {
      "epoch": 0.7166033828098033,
      "grad_norm": 1.3440412282943726,
      "learning_rate": 2e-05,
      "loss": 0.7635,
      "step": 2076
    },
    {
      "epoch": 0.7169485674836037,
      "grad_norm": 1.4474713802337646,
      "learning_rate": 2e-05,
      "loss": 0.8426,
      "step": 2077
    },
    {
      "epoch": 0.7172937521574042,
      "grad_norm": 1.5146147012710571,
      "learning_rate": 2e-05,
      "loss": 0.8474,
      "step": 2078
    },
    {
      "epoch": 0.7176389368312047,
      "grad_norm": 2.059077024459839,
      "learning_rate": 2e-05,
      "loss": 0.8846,
      "step": 2079
    },
    {
      "epoch": 0.7179841215050051,
      "grad_norm": 1.5750004053115845,
      "learning_rate": 2e-05,
      "loss": 0.8785,
      "step": 2080
    },
    {
      "epoch": 0.7183293061788056,
      "grad_norm": 1.384331464767456,
      "learning_rate": 2e-05,
      "loss": 0.8321,
      "step": 2081
    },
    {
      "epoch": 0.7186744908526062,
      "grad_norm": 1.613763689994812,
      "learning_rate": 2e-05,
      "loss": 0.8812,
      "step": 2082
    },
    {
      "epoch": 0.7190196755264067,
      "grad_norm": 1.3282169103622437,
      "learning_rate": 2e-05,
      "loss": 0.8144,
      "step": 2083
    },
    {
      "epoch": 0.7193648602002071,
      "grad_norm": 1.481997013092041,
      "learning_rate": 2e-05,
      "loss": 0.8566,
      "step": 2084
    },
    {
      "epoch": 0.7197100448740076,
      "grad_norm": 1.535848617553711,
      "learning_rate": 2e-05,
      "loss": 0.8366,
      "step": 2085
    },
    {
      "epoch": 0.7200552295478081,
      "grad_norm": 1.4956179857254028,
      "learning_rate": 2e-05,
      "loss": 0.8479,
      "step": 2086
    },
    {
      "epoch": 0.7204004142216086,
      "grad_norm": 1.3578195571899414,
      "learning_rate": 2e-05,
      "loss": 0.9027,
      "step": 2087
    },
    {
      "epoch": 0.720745598895409,
      "grad_norm": 1.4540374279022217,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 2088
    },
    {
      "epoch": 0.7210907835692095,
      "grad_norm": 1.3853124380111694,
      "learning_rate": 2e-05,
      "loss": 0.8717,
      "step": 2089
    },
    {
      "epoch": 0.72143596824301,
      "grad_norm": 1.337607741355896,
      "learning_rate": 2e-05,
      "loss": 0.8124,
      "step": 2090
    },
    {
      "epoch": 0.7217811529168104,
      "grad_norm": 1.4865728616714478,
      "learning_rate": 2e-05,
      "loss": 0.7616,
      "step": 2091
    },
    {
      "epoch": 0.722126337590611,
      "grad_norm": 1.4888030290603638,
      "learning_rate": 2e-05,
      "loss": 0.8238,
      "step": 2092
    },
    {
      "epoch": 0.7224715222644115,
      "grad_norm": 1.3129926919937134,
      "learning_rate": 2e-05,
      "loss": 0.9005,
      "step": 2093
    },
    {
      "epoch": 0.722816706938212,
      "grad_norm": 1.5307796001434326,
      "learning_rate": 2e-05,
      "loss": 0.8973,
      "step": 2094
    },
    {
      "epoch": 0.7231618916120124,
      "grad_norm": 2.5397045612335205,
      "learning_rate": 2e-05,
      "loss": 0.8853,
      "step": 2095
    },
    {
      "epoch": 0.7235070762858129,
      "grad_norm": 1.3676769733428955,
      "learning_rate": 2e-05,
      "loss": 0.8673,
      "step": 2096
    },
    {
      "epoch": 0.7238522609596134,
      "grad_norm": 1.4700711965560913,
      "learning_rate": 2e-05,
      "loss": 0.7918,
      "step": 2097
    },
    {
      "epoch": 0.7241974456334139,
      "grad_norm": 1.263520359992981,
      "learning_rate": 2e-05,
      "loss": 0.8563,
      "step": 2098
    },
    {
      "epoch": 0.7245426303072143,
      "grad_norm": 1.552203893661499,
      "learning_rate": 2e-05,
      "loss": 0.8231,
      "step": 2099
    },
    {
      "epoch": 0.7248878149810148,
      "grad_norm": 1.2848929166793823,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 2100
    },
    {
      "epoch": 0.7252329996548154,
      "grad_norm": 1.2884777784347534,
      "learning_rate": 2e-05,
      "loss": 0.8175,
      "step": 2101
    },
    {
      "epoch": 0.7255781843286158,
      "grad_norm": 1.5004884004592896,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 2102
    },
    {
      "epoch": 0.7259233690024163,
      "grad_norm": 1.418176531791687,
      "learning_rate": 2e-05,
      "loss": 0.8498,
      "step": 2103
    },
    {
      "epoch": 0.7262685536762168,
      "grad_norm": 1.5172665119171143,
      "learning_rate": 2e-05,
      "loss": 0.8002,
      "step": 2104
    },
    {
      "epoch": 0.7266137383500173,
      "grad_norm": 1.5342113971710205,
      "learning_rate": 2e-05,
      "loss": 0.7563,
      "step": 2105
    },
    {
      "epoch": 0.7269589230238177,
      "grad_norm": 1.4247896671295166,
      "learning_rate": 2e-05,
      "loss": 0.9368,
      "step": 2106
    },
    {
      "epoch": 0.7273041076976182,
      "grad_norm": 1.4253793954849243,
      "learning_rate": 2e-05,
      "loss": 0.9091,
      "step": 2107
    },
    {
      "epoch": 0.7276492923714187,
      "grad_norm": 1.5390582084655762,
      "learning_rate": 2e-05,
      "loss": 0.7862,
      "step": 2108
    },
    {
      "epoch": 0.7279944770452192,
      "grad_norm": 1.4311130046844482,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 2109
    },
    {
      "epoch": 0.7283396617190196,
      "grad_norm": 1.4366612434387207,
      "learning_rate": 2e-05,
      "loss": 0.8094,
      "step": 2110
    },
    {
      "epoch": 0.7286848463928202,
      "grad_norm": 1.4500943422317505,
      "learning_rate": 2e-05,
      "loss": 0.8486,
      "step": 2111
    },
    {
      "epoch": 0.7290300310666207,
      "grad_norm": 1.3817780017852783,
      "learning_rate": 2e-05,
      "loss": 0.7772,
      "step": 2112
    },
    {
      "epoch": 0.7293752157404211,
      "grad_norm": 1.4112577438354492,
      "learning_rate": 2e-05,
      "loss": 0.8343,
      "step": 2113
    },
    {
      "epoch": 0.7297204004142216,
      "grad_norm": 1.258771538734436,
      "learning_rate": 2e-05,
      "loss": 0.8472,
      "step": 2114
    },
    {
      "epoch": 0.7300655850880221,
      "grad_norm": 1.3678042888641357,
      "learning_rate": 2e-05,
      "loss": 0.902,
      "step": 2115
    },
    {
      "epoch": 0.7304107697618226,
      "grad_norm": 1.3738726377487183,
      "learning_rate": 2e-05,
      "loss": 0.8491,
      "step": 2116
    },
    {
      "epoch": 0.730755954435623,
      "grad_norm": 1.4252959489822388,
      "learning_rate": 2e-05,
      "loss": 0.8716,
      "step": 2117
    },
    {
      "epoch": 0.7311011391094235,
      "grad_norm": 1.3491097688674927,
      "learning_rate": 2e-05,
      "loss": 0.7775,
      "step": 2118
    },
    {
      "epoch": 0.731446323783224,
      "grad_norm": 1.4606719017028809,
      "learning_rate": 2e-05,
      "loss": 0.8198,
      "step": 2119
    },
    {
      "epoch": 0.7317915084570245,
      "grad_norm": 1.3142571449279785,
      "learning_rate": 2e-05,
      "loss": 0.8161,
      "step": 2120
    },
    {
      "epoch": 0.732136693130825,
      "grad_norm": 1.4161421060562134,
      "learning_rate": 2e-05,
      "loss": 0.8749,
      "step": 2121
    },
    {
      "epoch": 0.7324818778046255,
      "grad_norm": 1.4785650968551636,
      "learning_rate": 2e-05,
      "loss": 0.8272,
      "step": 2122
    },
    {
      "epoch": 0.732827062478426,
      "grad_norm": 1.3839223384857178,
      "learning_rate": 2e-05,
      "loss": 0.7594,
      "step": 2123
    },
    {
      "epoch": 0.7331722471522264,
      "grad_norm": 1.3908289670944214,
      "learning_rate": 2e-05,
      "loss": 0.8092,
      "step": 2124
    },
    {
      "epoch": 0.7335174318260269,
      "grad_norm": 1.4077038764953613,
      "learning_rate": 2e-05,
      "loss": 0.8314,
      "step": 2125
    },
    {
      "epoch": 0.7338626164998274,
      "grad_norm": 1.4449232816696167,
      "learning_rate": 2e-05,
      "loss": 0.8617,
      "step": 2126
    },
    {
      "epoch": 0.7342078011736279,
      "grad_norm": 1.2625751495361328,
      "learning_rate": 2e-05,
      "loss": 0.8359,
      "step": 2127
    },
    {
      "epoch": 0.7345529858474283,
      "grad_norm": 1.4660125970840454,
      "learning_rate": 2e-05,
      "loss": 0.8449,
      "step": 2128
    },
    {
      "epoch": 0.7348981705212289,
      "grad_norm": 1.5163072347640991,
      "learning_rate": 2e-05,
      "loss": 0.8354,
      "step": 2129
    },
    {
      "epoch": 0.7352433551950294,
      "grad_norm": 1.5369740724563599,
      "learning_rate": 2e-05,
      "loss": 0.8433,
      "step": 2130
    },
    {
      "epoch": 0.7355885398688298,
      "grad_norm": 1.4045240879058838,
      "learning_rate": 2e-05,
      "loss": 0.8647,
      "step": 2131
    },
    {
      "epoch": 0.7359337245426303,
      "grad_norm": 1.5043359994888306,
      "learning_rate": 2e-05,
      "loss": 0.8251,
      "step": 2132
    },
    {
      "epoch": 0.7362789092164308,
      "grad_norm": 1.5192863941192627,
      "learning_rate": 2e-05,
      "loss": 0.8999,
      "step": 2133
    },
    {
      "epoch": 0.7366240938902313,
      "grad_norm": 1.470906376838684,
      "learning_rate": 2e-05,
      "loss": 0.825,
      "step": 2134
    },
    {
      "epoch": 0.7369692785640317,
      "grad_norm": 1.3269622325897217,
      "learning_rate": 2e-05,
      "loss": 0.8321,
      "step": 2135
    },
    {
      "epoch": 0.7373144632378322,
      "grad_norm": 1.5111223459243774,
      "learning_rate": 2e-05,
      "loss": 0.7884,
      "step": 2136
    },
    {
      "epoch": 0.7376596479116327,
      "grad_norm": 1.3957995176315308,
      "learning_rate": 2e-05,
      "loss": 0.8329,
      "step": 2137
    },
    {
      "epoch": 0.7380048325854333,
      "grad_norm": 1.318767786026001,
      "learning_rate": 2e-05,
      "loss": 0.8011,
      "step": 2138
    },
    {
      "epoch": 0.7383500172592337,
      "grad_norm": 1.4511665105819702,
      "learning_rate": 2e-05,
      "loss": 0.8423,
      "step": 2139
    },
    {
      "epoch": 0.7386952019330342,
      "grad_norm": 1.3784351348876953,
      "learning_rate": 2e-05,
      "loss": 0.7967,
      "step": 2140
    },
    {
      "epoch": 0.7390403866068347,
      "grad_norm": 1.469902753829956,
      "learning_rate": 2e-05,
      "loss": 0.7653,
      "step": 2141
    },
    {
      "epoch": 0.7393855712806351,
      "grad_norm": 1.2671760320663452,
      "learning_rate": 2e-05,
      "loss": 0.8915,
      "step": 2142
    },
    {
      "epoch": 0.7397307559544356,
      "grad_norm": 1.5957874059677124,
      "learning_rate": 2e-05,
      "loss": 0.7901,
      "step": 2143
    },
    {
      "epoch": 0.7400759406282361,
      "grad_norm": 1.4147545099258423,
      "learning_rate": 2e-05,
      "loss": 0.8081,
      "step": 2144
    },
    {
      "epoch": 0.7404211253020366,
      "grad_norm": 1.4282740354537964,
      "learning_rate": 2e-05,
      "loss": 0.8698,
      "step": 2145
    },
    {
      "epoch": 0.740766309975837,
      "grad_norm": 1.4146188497543335,
      "learning_rate": 2e-05,
      "loss": 0.8595,
      "step": 2146
    },
    {
      "epoch": 0.7411114946496375,
      "grad_norm": 1.3537160158157349,
      "learning_rate": 2e-05,
      "loss": 0.8319,
      "step": 2147
    },
    {
      "epoch": 0.7414566793234381,
      "grad_norm": 1.4007381200790405,
      "learning_rate": 2e-05,
      "loss": 0.8075,
      "step": 2148
    },
    {
      "epoch": 0.7418018639972386,
      "grad_norm": 1.337759256362915,
      "learning_rate": 2e-05,
      "loss": 0.8433,
      "step": 2149
    },
    {
      "epoch": 0.742147048671039,
      "grad_norm": 1.398254156112671,
      "learning_rate": 2e-05,
      "loss": 0.8327,
      "step": 2150
    },
    {
      "epoch": 0.7424922333448395,
      "grad_norm": 1.392372965812683,
      "learning_rate": 2e-05,
      "loss": 0.8764,
      "step": 2151
    },
    {
      "epoch": 0.74283741801864,
      "grad_norm": 1.38683021068573,
      "learning_rate": 2e-05,
      "loss": 0.8063,
      "step": 2152
    },
    {
      "epoch": 0.7431826026924404,
      "grad_norm": 1.6858103275299072,
      "learning_rate": 2e-05,
      "loss": 0.8389,
      "step": 2153
    },
    {
      "epoch": 0.7435277873662409,
      "grad_norm": 1.4974998235702515,
      "learning_rate": 2e-05,
      "loss": 0.8141,
      "step": 2154
    },
    {
      "epoch": 0.7438729720400414,
      "grad_norm": 1.3603814840316772,
      "learning_rate": 2e-05,
      "loss": 0.761,
      "step": 2155
    },
    {
      "epoch": 0.744218156713842,
      "grad_norm": 1.563507080078125,
      "learning_rate": 2e-05,
      "loss": 0.8181,
      "step": 2156
    },
    {
      "epoch": 0.7445633413876424,
      "grad_norm": 1.2584996223449707,
      "learning_rate": 2e-05,
      "loss": 0.8262,
      "step": 2157
    },
    {
      "epoch": 0.7449085260614429,
      "grad_norm": 1.3244572877883911,
      "learning_rate": 2e-05,
      "loss": 0.8116,
      "step": 2158
    },
    {
      "epoch": 0.7452537107352434,
      "grad_norm": 1.3787657022476196,
      "learning_rate": 2e-05,
      "loss": 0.876,
      "step": 2159
    },
    {
      "epoch": 0.7455988954090439,
      "grad_norm": 1.323119044303894,
      "learning_rate": 2e-05,
      "loss": 0.8451,
      "step": 2160
    },
    {
      "epoch": 0.7459440800828443,
      "grad_norm": 1.2781875133514404,
      "learning_rate": 2e-05,
      "loss": 0.7917,
      "step": 2161
    },
    {
      "epoch": 0.7462892647566448,
      "grad_norm": 1.3349205255508423,
      "learning_rate": 2e-05,
      "loss": 0.7933,
      "step": 2162
    },
    {
      "epoch": 0.7466344494304453,
      "grad_norm": 1.6403604745864868,
      "learning_rate": 2e-05,
      "loss": 0.8442,
      "step": 2163
    },
    {
      "epoch": 0.7469796341042457,
      "grad_norm": 1.487917423248291,
      "learning_rate": 2e-05,
      "loss": 0.8452,
      "step": 2164
    },
    {
      "epoch": 0.7473248187780462,
      "grad_norm": 1.3837130069732666,
      "learning_rate": 2e-05,
      "loss": 0.84,
      "step": 2165
    },
    {
      "epoch": 0.7476700034518468,
      "grad_norm": 1.4895621538162231,
      "learning_rate": 2e-05,
      "loss": 0.7787,
      "step": 2166
    },
    {
      "epoch": 0.7480151881256473,
      "grad_norm": 1.4700547456741333,
      "learning_rate": 2e-05,
      "loss": 0.9451,
      "step": 2167
    },
    {
      "epoch": 0.7483603727994477,
      "grad_norm": 1.283241868019104,
      "learning_rate": 2e-05,
      "loss": 0.9129,
      "step": 2168
    },
    {
      "epoch": 0.7487055574732482,
      "grad_norm": 1.4548897743225098,
      "learning_rate": 2e-05,
      "loss": 0.8518,
      "step": 2169
    },
    {
      "epoch": 0.7490507421470487,
      "grad_norm": 1.5109691619873047,
      "learning_rate": 2e-05,
      "loss": 0.8704,
      "step": 2170
    },
    {
      "epoch": 0.7493959268208491,
      "grad_norm": 1.368470549583435,
      "learning_rate": 2e-05,
      "loss": 0.8292,
      "step": 2171
    },
    {
      "epoch": 0.7497411114946496,
      "grad_norm": 1.523231029510498,
      "learning_rate": 2e-05,
      "loss": 0.8049,
      "step": 2172
    },
    {
      "epoch": 0.7500862961684501,
      "grad_norm": 1.5915071964263916,
      "learning_rate": 2e-05,
      "loss": 0.8476,
      "step": 2173
    },
    {
      "epoch": 0.7504314808422506,
      "grad_norm": 1.3959661722183228,
      "learning_rate": 2e-05,
      "loss": 0.9276,
      "step": 2174
    },
    {
      "epoch": 0.750776665516051,
      "grad_norm": 1.3538753986358643,
      "learning_rate": 2e-05,
      "loss": 0.8213,
      "step": 2175
    },
    {
      "epoch": 0.7511218501898516,
      "grad_norm": 1.4216461181640625,
      "learning_rate": 2e-05,
      "loss": 0.9037,
      "step": 2176
    },
    {
      "epoch": 0.7514670348636521,
      "grad_norm": 1.39342200756073,
      "learning_rate": 2e-05,
      "loss": 0.9589,
      "step": 2177
    },
    {
      "epoch": 0.7518122195374526,
      "grad_norm": 1.4822584390640259,
      "learning_rate": 2e-05,
      "loss": 0.8099,
      "step": 2178
    },
    {
      "epoch": 0.752157404211253,
      "grad_norm": 1.3008794784545898,
      "learning_rate": 2e-05,
      "loss": 0.8187,
      "step": 2179
    },
    {
      "epoch": 0.7525025888850535,
      "grad_norm": 1.3606480360031128,
      "learning_rate": 2e-05,
      "loss": 0.7535,
      "step": 2180
    },
    {
      "epoch": 0.752847773558854,
      "grad_norm": 1.524195671081543,
      "learning_rate": 2e-05,
      "loss": 0.8639,
      "step": 2181
    },
    {
      "epoch": 0.7531929582326544,
      "grad_norm": 1.2874104976654053,
      "learning_rate": 2e-05,
      "loss": 0.8142,
      "step": 2182
    },
    {
      "epoch": 0.7535381429064549,
      "grad_norm": 1.375707745552063,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 2183
    },
    {
      "epoch": 0.7538833275802554,
      "grad_norm": 1.3974382877349854,
      "learning_rate": 2e-05,
      "loss": 0.8068,
      "step": 2184
    },
    {
      "epoch": 0.754228512254056,
      "grad_norm": 1.2188167572021484,
      "learning_rate": 2e-05,
      "loss": 0.7854,
      "step": 2185
    },
    {
      "epoch": 0.7545736969278564,
      "grad_norm": 1.3297754526138306,
      "learning_rate": 2e-05,
      "loss": 0.7625,
      "step": 2186
    },
    {
      "epoch": 0.7549188816016569,
      "grad_norm": 1.5062601566314697,
      "learning_rate": 2e-05,
      "loss": 0.9075,
      "step": 2187
    },
    {
      "epoch": 0.7552640662754574,
      "grad_norm": 1.4234848022460938,
      "learning_rate": 2e-05,
      "loss": 0.8629,
      "step": 2188
    },
    {
      "epoch": 0.7556092509492579,
      "grad_norm": 1.366922378540039,
      "learning_rate": 2e-05,
      "loss": 0.8179,
      "step": 2189
    },
    {
      "epoch": 0.7559544356230583,
      "grad_norm": 1.5521550178527832,
      "learning_rate": 2e-05,
      "loss": 0.8817,
      "step": 2190
    },
    {
      "epoch": 0.7562996202968588,
      "grad_norm": 1.3161239624023438,
      "learning_rate": 2e-05,
      "loss": 0.7784,
      "step": 2191
    },
    {
      "epoch": 0.7566448049706593,
      "grad_norm": 1.3375959396362305,
      "learning_rate": 2e-05,
      "loss": 0.8851,
      "step": 2192
    },
    {
      "epoch": 0.7569899896444597,
      "grad_norm": 1.4381060600280762,
      "learning_rate": 2e-05,
      "loss": 0.7945,
      "step": 2193
    },
    {
      "epoch": 0.7573351743182603,
      "grad_norm": 1.3836603164672852,
      "learning_rate": 2e-05,
      "loss": 0.8433,
      "step": 2194
    },
    {
      "epoch": 0.7576803589920608,
      "grad_norm": 1.3603061437606812,
      "learning_rate": 2e-05,
      "loss": 0.7868,
      "step": 2195
    },
    {
      "epoch": 0.7580255436658613,
      "grad_norm": 1.5307178497314453,
      "learning_rate": 2e-05,
      "loss": 0.8597,
      "step": 2196
    },
    {
      "epoch": 0.7583707283396617,
      "grad_norm": 1.5731744766235352,
      "learning_rate": 2e-05,
      "loss": 0.7233,
      "step": 2197
    },
    {
      "epoch": 0.7587159130134622,
      "grad_norm": 1.4764485359191895,
      "learning_rate": 2e-05,
      "loss": 0.757,
      "step": 2198
    },
    {
      "epoch": 0.7590610976872627,
      "grad_norm": 1.620389461517334,
      "learning_rate": 2e-05,
      "loss": 0.8206,
      "step": 2199
    },
    {
      "epoch": 0.7594062823610632,
      "grad_norm": 1.5323951244354248,
      "learning_rate": 2e-05,
      "loss": 0.8461,
      "step": 2200
    },
    {
      "epoch": 0.7597514670348636,
      "grad_norm": 1.3428846597671509,
      "learning_rate": 2e-05,
      "loss": 0.8284,
      "step": 2201
    },
    {
      "epoch": 0.7600966517086641,
      "grad_norm": 1.5418682098388672,
      "learning_rate": 2e-05,
      "loss": 0.9217,
      "step": 2202
    },
    {
      "epoch": 0.7604418363824647,
      "grad_norm": 1.4435102939605713,
      "learning_rate": 2e-05,
      "loss": 0.8022,
      "step": 2203
    },
    {
      "epoch": 0.7607870210562651,
      "grad_norm": 1.4406369924545288,
      "learning_rate": 2e-05,
      "loss": 0.8375,
      "step": 2204
    },
    {
      "epoch": 0.7611322057300656,
      "grad_norm": 1.4896341562271118,
      "learning_rate": 2e-05,
      "loss": 0.8722,
      "step": 2205
    },
    {
      "epoch": 0.7614773904038661,
      "grad_norm": 1.3864567279815674,
      "learning_rate": 2e-05,
      "loss": 0.9158,
      "step": 2206
    },
    {
      "epoch": 0.7618225750776666,
      "grad_norm": 1.4483132362365723,
      "learning_rate": 2e-05,
      "loss": 0.83,
      "step": 2207
    },
    {
      "epoch": 0.762167759751467,
      "grad_norm": 1.4834012985229492,
      "learning_rate": 2e-05,
      "loss": 0.7885,
      "step": 2208
    },
    {
      "epoch": 0.7625129444252675,
      "grad_norm": 1.3259834051132202,
      "learning_rate": 2e-05,
      "loss": 0.8468,
      "step": 2209
    },
    {
      "epoch": 0.762858129099068,
      "grad_norm": 1.4916729927062988,
      "learning_rate": 2e-05,
      "loss": 0.8382,
      "step": 2210
    },
    {
      "epoch": 0.7632033137728684,
      "grad_norm": 1.4281799793243408,
      "learning_rate": 2e-05,
      "loss": 0.8504,
      "step": 2211
    },
    {
      "epoch": 0.7635484984466689,
      "grad_norm": 1.5371750593185425,
      "learning_rate": 2e-05,
      "loss": 0.8646,
      "step": 2212
    },
    {
      "epoch": 0.7638936831204695,
      "grad_norm": 1.4321218729019165,
      "learning_rate": 2e-05,
      "loss": 0.82,
      "step": 2213
    },
    {
      "epoch": 0.76423886779427,
      "grad_norm": 1.3272647857666016,
      "learning_rate": 2e-05,
      "loss": 0.7908,
      "step": 2214
    },
    {
      "epoch": 0.7645840524680704,
      "grad_norm": 1.4723803997039795,
      "learning_rate": 2e-05,
      "loss": 0.81,
      "step": 2215
    },
    {
      "epoch": 0.7649292371418709,
      "grad_norm": 1.362514615058899,
      "learning_rate": 2e-05,
      "loss": 0.8483,
      "step": 2216
    },
    {
      "epoch": 0.7652744218156714,
      "grad_norm": 1.4976495504379272,
      "learning_rate": 2e-05,
      "loss": 0.8027,
      "step": 2217
    },
    {
      "epoch": 0.7656196064894719,
      "grad_norm": 1.4003922939300537,
      "learning_rate": 2e-05,
      "loss": 0.8181,
      "step": 2218
    },
    {
      "epoch": 0.7659647911632723,
      "grad_norm": 1.6026121377944946,
      "learning_rate": 2e-05,
      "loss": 0.8601,
      "step": 2219
    },
    {
      "epoch": 0.7663099758370728,
      "grad_norm": 1.522925615310669,
      "learning_rate": 2e-05,
      "loss": 0.8086,
      "step": 2220
    },
    {
      "epoch": 0.7666551605108733,
      "grad_norm": 1.4403166770935059,
      "learning_rate": 2e-05,
      "loss": 0.9161,
      "step": 2221
    },
    {
      "epoch": 0.7670003451846737,
      "grad_norm": 1.5156103372573853,
      "learning_rate": 2e-05,
      "loss": 0.8997,
      "step": 2222
    },
    {
      "epoch": 0.7673455298584743,
      "grad_norm": 1.4223453998565674,
      "learning_rate": 2e-05,
      "loss": 0.8364,
      "step": 2223
    },
    {
      "epoch": 0.7676907145322748,
      "grad_norm": 1.324187994003296,
      "learning_rate": 2e-05,
      "loss": 0.797,
      "step": 2224
    },
    {
      "epoch": 0.7680358992060753,
      "grad_norm": 1.3470097780227661,
      "learning_rate": 2e-05,
      "loss": 0.8771,
      "step": 2225
    },
    {
      "epoch": 0.7683810838798757,
      "grad_norm": 2.0147862434387207,
      "learning_rate": 2e-05,
      "loss": 0.8366,
      "step": 2226
    },
    {
      "epoch": 0.7687262685536762,
      "grad_norm": 1.4138555526733398,
      "learning_rate": 2e-05,
      "loss": 0.8564,
      "step": 2227
    },
    {
      "epoch": 0.7690714532274767,
      "grad_norm": 1.3307900428771973,
      "learning_rate": 2e-05,
      "loss": 0.7862,
      "step": 2228
    },
    {
      "epoch": 0.7694166379012772,
      "grad_norm": 1.327303409576416,
      "learning_rate": 2e-05,
      "loss": 0.8322,
      "step": 2229
    },
    {
      "epoch": 0.7697618225750776,
      "grad_norm": 1.4254167079925537,
      "learning_rate": 2e-05,
      "loss": 0.8641,
      "step": 2230
    },
    {
      "epoch": 0.7701070072488782,
      "grad_norm": 1.5729788541793823,
      "learning_rate": 2e-05,
      "loss": 0.7937,
      "step": 2231
    },
    {
      "epoch": 0.7704521919226787,
      "grad_norm": 1.4343115091323853,
      "learning_rate": 2e-05,
      "loss": 0.8904,
      "step": 2232
    },
    {
      "epoch": 0.7707973765964791,
      "grad_norm": 1.3631569147109985,
      "learning_rate": 2e-05,
      "loss": 0.7369,
      "step": 2233
    },
    {
      "epoch": 0.7711425612702796,
      "grad_norm": 1.3692741394042969,
      "learning_rate": 2e-05,
      "loss": 0.8329,
      "step": 2234
    },
    {
      "epoch": 0.7714877459440801,
      "grad_norm": 1.5487444400787354,
      "learning_rate": 2e-05,
      "loss": 0.8157,
      "step": 2235
    },
    {
      "epoch": 0.7718329306178806,
      "grad_norm": 1.408035397529602,
      "learning_rate": 2e-05,
      "loss": 0.7262,
      "step": 2236
    },
    {
      "epoch": 0.772178115291681,
      "grad_norm": 1.4992563724517822,
      "learning_rate": 2e-05,
      "loss": 0.873,
      "step": 2237
    },
    {
      "epoch": 0.7725232999654815,
      "grad_norm": 1.4132755994796753,
      "learning_rate": 2e-05,
      "loss": 0.8063,
      "step": 2238
    },
    {
      "epoch": 0.772868484639282,
      "grad_norm": 1.4903472661972046,
      "learning_rate": 2e-05,
      "loss": 0.8011,
      "step": 2239
    },
    {
      "epoch": 0.7732136693130826,
      "grad_norm": 1.4709060192108154,
      "learning_rate": 2e-05,
      "loss": 0.8275,
      "step": 2240
    },
    {
      "epoch": 0.773558853986883,
      "grad_norm": 1.2823508977890015,
      "learning_rate": 2e-05,
      "loss": 0.7973,
      "step": 2241
    },
    {
      "epoch": 0.7739040386606835,
      "grad_norm": 1.3397822380065918,
      "learning_rate": 2e-05,
      "loss": 0.8063,
      "step": 2242
    },
    {
      "epoch": 0.774249223334484,
      "grad_norm": 1.4219980239868164,
      "learning_rate": 2e-05,
      "loss": 0.871,
      "step": 2243
    },
    {
      "epoch": 0.7745944080082844,
      "grad_norm": 1.4081069231033325,
      "learning_rate": 2e-05,
      "loss": 0.8255,
      "step": 2244
    },
    {
      "epoch": 0.7749395926820849,
      "grad_norm": 1.4134513139724731,
      "learning_rate": 2e-05,
      "loss": 0.8054,
      "step": 2245
    },
    {
      "epoch": 0.7752847773558854,
      "grad_norm": 1.385749340057373,
      "learning_rate": 2e-05,
      "loss": 0.8127,
      "step": 2246
    },
    {
      "epoch": 0.7756299620296859,
      "grad_norm": 1.386881947517395,
      "learning_rate": 2e-05,
      "loss": 0.8803,
      "step": 2247
    },
    {
      "epoch": 0.7759751467034863,
      "grad_norm": 1.4517711400985718,
      "learning_rate": 2e-05,
      "loss": 0.8409,
      "step": 2248
    },
    {
      "epoch": 0.7763203313772868,
      "grad_norm": 1.5139418840408325,
      "learning_rate": 2e-05,
      "loss": 0.8253,
      "step": 2249
    },
    {
      "epoch": 0.7766655160510874,
      "grad_norm": 1.4253664016723633,
      "learning_rate": 2e-05,
      "loss": 0.8245,
      "step": 2250
    },
    {
      "epoch": 0.7770107007248878,
      "grad_norm": 1.4325642585754395,
      "learning_rate": 2e-05,
      "loss": 0.8262,
      "step": 2251
    },
    {
      "epoch": 0.7773558853986883,
      "grad_norm": 1.599292516708374,
      "learning_rate": 2e-05,
      "loss": 0.8959,
      "step": 2252
    },
    {
      "epoch": 0.7777010700724888,
      "grad_norm": 1.357649803161621,
      "learning_rate": 2e-05,
      "loss": 0.872,
      "step": 2253
    },
    {
      "epoch": 0.7780462547462893,
      "grad_norm": 1.3994947671890259,
      "learning_rate": 2e-05,
      "loss": 0.9089,
      "step": 2254
    },
    {
      "epoch": 0.7783914394200897,
      "grad_norm": 1.3786523342132568,
      "learning_rate": 2e-05,
      "loss": 0.7803,
      "step": 2255
    },
    {
      "epoch": 0.7787366240938902,
      "grad_norm": 1.3357040882110596,
      "learning_rate": 2e-05,
      "loss": 0.8139,
      "step": 2256
    },
    {
      "epoch": 0.7790818087676907,
      "grad_norm": 1.4000144004821777,
      "learning_rate": 2e-05,
      "loss": 0.8051,
      "step": 2257
    },
    {
      "epoch": 0.7794269934414912,
      "grad_norm": 1.5406728982925415,
      "learning_rate": 2e-05,
      "loss": 0.877,
      "step": 2258
    },
    {
      "epoch": 0.7797721781152916,
      "grad_norm": 1.475003957748413,
      "learning_rate": 2e-05,
      "loss": 0.7776,
      "step": 2259
    },
    {
      "epoch": 0.7801173627890922,
      "grad_norm": 1.3565196990966797,
      "learning_rate": 2e-05,
      "loss": 0.8041,
      "step": 2260
    },
    {
      "epoch": 0.7804625474628927,
      "grad_norm": 1.338234543800354,
      "learning_rate": 2e-05,
      "loss": 0.778,
      "step": 2261
    },
    {
      "epoch": 0.7808077321366931,
      "grad_norm": 1.378197431564331,
      "learning_rate": 2e-05,
      "loss": 0.8471,
      "step": 2262
    },
    {
      "epoch": 0.7811529168104936,
      "grad_norm": 1.4740206003189087,
      "learning_rate": 2e-05,
      "loss": 0.8275,
      "step": 2263
    },
    {
      "epoch": 0.7814981014842941,
      "grad_norm": 1.3871369361877441,
      "learning_rate": 2e-05,
      "loss": 0.812,
      "step": 2264
    },
    {
      "epoch": 0.7818432861580946,
      "grad_norm": 1.3616995811462402,
      "learning_rate": 2e-05,
      "loss": 0.8351,
      "step": 2265
    },
    {
      "epoch": 0.782188470831895,
      "grad_norm": 1.346744179725647,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 2266
    },
    {
      "epoch": 0.7825336555056955,
      "grad_norm": 1.4710978269577026,
      "learning_rate": 2e-05,
      "loss": 0.8227,
      "step": 2267
    },
    {
      "epoch": 0.782878840179496,
      "grad_norm": 1.3874878883361816,
      "learning_rate": 2e-05,
      "loss": 0.8372,
      "step": 2268
    },
    {
      "epoch": 0.7832240248532966,
      "grad_norm": 1.3678854703903198,
      "learning_rate": 2e-05,
      "loss": 0.8482,
      "step": 2269
    },
    {
      "epoch": 0.783569209527097,
      "grad_norm": 1.2294304370880127,
      "learning_rate": 2e-05,
      "loss": 0.7736,
      "step": 2270
    },
    {
      "epoch": 0.7839143942008975,
      "grad_norm": 1.3975523710250854,
      "learning_rate": 2e-05,
      "loss": 0.7707,
      "step": 2271
    },
    {
      "epoch": 0.784259578874698,
      "grad_norm": 1.4813884496688843,
      "learning_rate": 2e-05,
      "loss": 0.7978,
      "step": 2272
    },
    {
      "epoch": 0.7846047635484984,
      "grad_norm": 1.3851038217544556,
      "learning_rate": 2e-05,
      "loss": 0.8395,
      "step": 2273
    },
    {
      "epoch": 0.7849499482222989,
      "grad_norm": 1.3671321868896484,
      "learning_rate": 2e-05,
      "loss": 0.8343,
      "step": 2274
    },
    {
      "epoch": 0.7852951328960994,
      "grad_norm": 1.3141160011291504,
      "learning_rate": 2e-05,
      "loss": 0.8781,
      "step": 2275
    },
    {
      "epoch": 0.7856403175698999,
      "grad_norm": 1.3758879899978638,
      "learning_rate": 2e-05,
      "loss": 0.8193,
      "step": 2276
    },
    {
      "epoch": 0.7859855022437003,
      "grad_norm": 1.3955602645874023,
      "learning_rate": 2e-05,
      "loss": 0.7874,
      "step": 2277
    },
    {
      "epoch": 0.7863306869175009,
      "grad_norm": 1.3421586751937866,
      "learning_rate": 2e-05,
      "loss": 0.8016,
      "step": 2278
    },
    {
      "epoch": 0.7866758715913014,
      "grad_norm": 1.3171775341033936,
      "learning_rate": 2e-05,
      "loss": 0.8794,
      "step": 2279
    },
    {
      "epoch": 0.7870210562651019,
      "grad_norm": 1.522780418395996,
      "learning_rate": 2e-05,
      "loss": 0.7735,
      "step": 2280
    },
    {
      "epoch": 0.7873662409389023,
      "grad_norm": 1.401655673980713,
      "learning_rate": 2e-05,
      "loss": 0.888,
      "step": 2281
    },
    {
      "epoch": 0.7877114256127028,
      "grad_norm": 1.3908207416534424,
      "learning_rate": 2e-05,
      "loss": 0.8119,
      "step": 2282
    },
    {
      "epoch": 0.7880566102865033,
      "grad_norm": 1.4392529726028442,
      "learning_rate": 2e-05,
      "loss": 0.8815,
      "step": 2283
    },
    {
      "epoch": 0.7884017949603037,
      "grad_norm": 1.2800414562225342,
      "learning_rate": 2e-05,
      "loss": 0.8004,
      "step": 2284
    },
    {
      "epoch": 0.7887469796341042,
      "grad_norm": 1.4461135864257812,
      "learning_rate": 2e-05,
      "loss": 0.7971,
      "step": 2285
    },
    {
      "epoch": 0.7890921643079047,
      "grad_norm": 1.499677300453186,
      "learning_rate": 2e-05,
      "loss": 0.8495,
      "step": 2286
    },
    {
      "epoch": 0.7894373489817053,
      "grad_norm": 1.3674896955490112,
      "learning_rate": 2e-05,
      "loss": 0.8214,
      "step": 2287
    },
    {
      "epoch": 0.7897825336555057,
      "grad_norm": 1.4086817502975464,
      "learning_rate": 2e-05,
      "loss": 0.847,
      "step": 2288
    },
    {
      "epoch": 0.7901277183293062,
      "grad_norm": 1.3835854530334473,
      "learning_rate": 2e-05,
      "loss": 0.8007,
      "step": 2289
    },
    {
      "epoch": 0.7904729030031067,
      "grad_norm": 1.316448450088501,
      "learning_rate": 2e-05,
      "loss": 0.8111,
      "step": 2290
    },
    {
      "epoch": 0.7908180876769072,
      "grad_norm": 1.5340385437011719,
      "learning_rate": 2e-05,
      "loss": 0.8346,
      "step": 2291
    },
    {
      "epoch": 0.7911632723507076,
      "grad_norm": 1.4054789543151855,
      "learning_rate": 2e-05,
      "loss": 0.7943,
      "step": 2292
    },
    {
      "epoch": 0.7915084570245081,
      "grad_norm": 1.6822915077209473,
      "learning_rate": 2e-05,
      "loss": 0.7935,
      "step": 2293
    },
    {
      "epoch": 0.7918536416983086,
      "grad_norm": 1.450269341468811,
      "learning_rate": 2e-05,
      "loss": 0.9129,
      "step": 2294
    },
    {
      "epoch": 0.792198826372109,
      "grad_norm": 1.5208581686019897,
      "learning_rate": 2e-05,
      "loss": 0.8918,
      "step": 2295
    },
    {
      "epoch": 0.7925440110459095,
      "grad_norm": 1.5162917375564575,
      "learning_rate": 2e-05,
      "loss": 0.857,
      "step": 2296
    },
    {
      "epoch": 0.7928891957197101,
      "grad_norm": 1.3913596868515015,
      "learning_rate": 2e-05,
      "loss": 0.8131,
      "step": 2297
    },
    {
      "epoch": 0.7932343803935106,
      "grad_norm": 1.372370958328247,
      "learning_rate": 2e-05,
      "loss": 0.809,
      "step": 2298
    },
    {
      "epoch": 0.793579565067311,
      "grad_norm": 4.624123573303223,
      "learning_rate": 2e-05,
      "loss": 0.8132,
      "step": 2299
    },
    {
      "epoch": 0.7939247497411115,
      "grad_norm": 1.4683879613876343,
      "learning_rate": 2e-05,
      "loss": 0.8528,
      "step": 2300
    },
    {
      "epoch": 0.794269934414912,
      "grad_norm": 1.4015775918960571,
      "learning_rate": 2e-05,
      "loss": 0.8392,
      "step": 2301
    },
    {
      "epoch": 0.7946151190887124,
      "grad_norm": 1.3109846115112305,
      "learning_rate": 2e-05,
      "loss": 0.8248,
      "step": 2302
    },
    {
      "epoch": 0.7949603037625129,
      "grad_norm": 1.4777586460113525,
      "learning_rate": 2e-05,
      "loss": 0.79,
      "step": 2303
    },
    {
      "epoch": 0.7953054884363134,
      "grad_norm": 1.4341164827346802,
      "learning_rate": 2e-05,
      "loss": 0.9025,
      "step": 2304
    },
    {
      "epoch": 0.795650673110114,
      "grad_norm": 1.4243566989898682,
      "learning_rate": 2e-05,
      "loss": 0.865,
      "step": 2305
    },
    {
      "epoch": 0.7959958577839144,
      "grad_norm": 1.4245532751083374,
      "learning_rate": 2e-05,
      "loss": 0.7868,
      "step": 2306
    },
    {
      "epoch": 0.7963410424577149,
      "grad_norm": 1.3750752210617065,
      "learning_rate": 2e-05,
      "loss": 0.8571,
      "step": 2307
    },
    {
      "epoch": 0.7966862271315154,
      "grad_norm": 1.516660213470459,
      "learning_rate": 2e-05,
      "loss": 0.8446,
      "step": 2308
    },
    {
      "epoch": 0.7970314118053159,
      "grad_norm": 1.3883023262023926,
      "learning_rate": 2e-05,
      "loss": 0.8195,
      "step": 2309
    },
    {
      "epoch": 0.7973765964791163,
      "grad_norm": 1.5125656127929688,
      "learning_rate": 2e-05,
      "loss": 0.8582,
      "step": 2310
    },
    {
      "epoch": 0.7977217811529168,
      "grad_norm": 1.403124213218689,
      "learning_rate": 2e-05,
      "loss": 0.7924,
      "step": 2311
    },
    {
      "epoch": 0.7980669658267173,
      "grad_norm": 1.4329122304916382,
      "learning_rate": 2e-05,
      "loss": 0.7797,
      "step": 2312
    },
    {
      "epoch": 0.7984121505005177,
      "grad_norm": 1.2743242979049683,
      "learning_rate": 2e-05,
      "loss": 0.7813,
      "step": 2313
    },
    {
      "epoch": 0.7987573351743182,
      "grad_norm": 1.2970701456069946,
      "learning_rate": 2e-05,
      "loss": 0.8169,
      "step": 2314
    },
    {
      "epoch": 0.7991025198481188,
      "grad_norm": 1.416404128074646,
      "learning_rate": 2e-05,
      "loss": 0.7761,
      "step": 2315
    },
    {
      "epoch": 0.7994477045219193,
      "grad_norm": 1.5858176946640015,
      "learning_rate": 2e-05,
      "loss": 0.7955,
      "step": 2316
    },
    {
      "epoch": 0.7997928891957197,
      "grad_norm": 1.3767547607421875,
      "learning_rate": 2e-05,
      "loss": 0.7733,
      "step": 2317
    },
    {
      "epoch": 0.8001380738695202,
      "grad_norm": 1.3647550344467163,
      "learning_rate": 2e-05,
      "loss": 0.7917,
      "step": 2318
    },
    {
      "epoch": 0.8004832585433207,
      "grad_norm": 1.362465262413025,
      "learning_rate": 2e-05,
      "loss": 0.8303,
      "step": 2319
    },
    {
      "epoch": 0.8008284432171212,
      "grad_norm": 1.3542697429656982,
      "learning_rate": 2e-05,
      "loss": 0.8019,
      "step": 2320
    },
    {
      "epoch": 0.8011736278909216,
      "grad_norm": 1.548876404762268,
      "learning_rate": 2e-05,
      "loss": 0.8871,
      "step": 2321
    },
    {
      "epoch": 0.8015188125647221,
      "grad_norm": 1.8925409317016602,
      "learning_rate": 2e-05,
      "loss": 0.8875,
      "step": 2322
    },
    {
      "epoch": 0.8018639972385226,
      "grad_norm": 1.4403420686721802,
      "learning_rate": 2e-05,
      "loss": 0.8541,
      "step": 2323
    },
    {
      "epoch": 0.802209181912323,
      "grad_norm": 1.3299989700317383,
      "learning_rate": 2e-05,
      "loss": 0.8434,
      "step": 2324
    },
    {
      "epoch": 0.8025543665861236,
      "grad_norm": 1.2144052982330322,
      "learning_rate": 2e-05,
      "loss": 0.7946,
      "step": 2325
    },
    {
      "epoch": 0.8028995512599241,
      "grad_norm": 1.4410278797149658,
      "learning_rate": 2e-05,
      "loss": 0.8369,
      "step": 2326
    },
    {
      "epoch": 0.8032447359337246,
      "grad_norm": 1.4081103801727295,
      "learning_rate": 2e-05,
      "loss": 0.8299,
      "step": 2327
    },
    {
      "epoch": 0.803589920607525,
      "grad_norm": 1.4651881456375122,
      "learning_rate": 2e-05,
      "loss": 0.8622,
      "step": 2328
    },
    {
      "epoch": 0.8039351052813255,
      "grad_norm": 1.4121954441070557,
      "learning_rate": 2e-05,
      "loss": 0.8131,
      "step": 2329
    },
    {
      "epoch": 0.804280289955126,
      "grad_norm": 1.2483022212982178,
      "learning_rate": 2e-05,
      "loss": 0.7747,
      "step": 2330
    },
    {
      "epoch": 0.8046254746289265,
      "grad_norm": 1.4690481424331665,
      "learning_rate": 2e-05,
      "loss": 0.8217,
      "step": 2331
    },
    {
      "epoch": 0.8049706593027269,
      "grad_norm": 1.404041051864624,
      "learning_rate": 2e-05,
      "loss": 0.7861,
      "step": 2332
    },
    {
      "epoch": 0.8053158439765274,
      "grad_norm": 1.5155279636383057,
      "learning_rate": 2e-05,
      "loss": 0.8238,
      "step": 2333
    },
    {
      "epoch": 0.805661028650328,
      "grad_norm": 1.3250080347061157,
      "learning_rate": 2e-05,
      "loss": 0.8385,
      "step": 2334
    },
    {
      "epoch": 0.8060062133241284,
      "grad_norm": 1.3525075912475586,
      "learning_rate": 2e-05,
      "loss": 0.8179,
      "step": 2335
    },
    {
      "epoch": 0.8063513979979289,
      "grad_norm": 1.2817654609680176,
      "learning_rate": 2e-05,
      "loss": 0.8316,
      "step": 2336
    },
    {
      "epoch": 0.8066965826717294,
      "grad_norm": 1.390356183052063,
      "learning_rate": 2e-05,
      "loss": 0.7793,
      "step": 2337
    },
    {
      "epoch": 0.8070417673455299,
      "grad_norm": 1.470508098602295,
      "learning_rate": 2e-05,
      "loss": 0.8717,
      "step": 2338
    },
    {
      "epoch": 0.8073869520193303,
      "grad_norm": 1.2618130445480347,
      "learning_rate": 2e-05,
      "loss": 0.8454,
      "step": 2339
    },
    {
      "epoch": 0.8077321366931308,
      "grad_norm": 1.4376819133758545,
      "learning_rate": 2e-05,
      "loss": 0.8486,
      "step": 2340
    },
    {
      "epoch": 0.8080773213669313,
      "grad_norm": 1.3228625059127808,
      "learning_rate": 2e-05,
      "loss": 0.8438,
      "step": 2341
    },
    {
      "epoch": 0.8084225060407317,
      "grad_norm": 1.408198595046997,
      "learning_rate": 2e-05,
      "loss": 0.8309,
      "step": 2342
    },
    {
      "epoch": 0.8087676907145323,
      "grad_norm": 1.5223497152328491,
      "learning_rate": 2e-05,
      "loss": 0.86,
      "step": 2343
    },
    {
      "epoch": 0.8091128753883328,
      "grad_norm": 1.4912326335906982,
      "learning_rate": 2e-05,
      "loss": 0.8122,
      "step": 2344
    },
    {
      "epoch": 0.8094580600621333,
      "grad_norm": 1.4928021430969238,
      "learning_rate": 2e-05,
      "loss": 0.7955,
      "step": 2345
    },
    {
      "epoch": 0.8098032447359337,
      "grad_norm": 1.4917410612106323,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 2346
    },
    {
      "epoch": 0.8101484294097342,
      "grad_norm": 1.3194568157196045,
      "learning_rate": 2e-05,
      "loss": 0.8628,
      "step": 2347
    },
    {
      "epoch": 0.8104936140835347,
      "grad_norm": 1.7444825172424316,
      "learning_rate": 2e-05,
      "loss": 0.8042,
      "step": 2348
    },
    {
      "epoch": 0.8108387987573352,
      "grad_norm": 1.400019884109497,
      "learning_rate": 2e-05,
      "loss": 0.8007,
      "step": 2349
    },
    {
      "epoch": 0.8111839834311356,
      "grad_norm": 1.4323995113372803,
      "learning_rate": 2e-05,
      "loss": 0.8025,
      "step": 2350
    },
    {
      "epoch": 0.8115291681049361,
      "grad_norm": 1.4051629304885864,
      "learning_rate": 2e-05,
      "loss": 0.8153,
      "step": 2351
    },
    {
      "epoch": 0.8118743527787367,
      "grad_norm": 1.3053802251815796,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 2352
    },
    {
      "epoch": 0.812219537452537,
      "grad_norm": 1.476424217224121,
      "learning_rate": 2e-05,
      "loss": 0.9176,
      "step": 2353
    },
    {
      "epoch": 0.8125647221263376,
      "grad_norm": 1.3718217611312866,
      "learning_rate": 2e-05,
      "loss": 0.8755,
      "step": 2354
    },
    {
      "epoch": 0.8129099068001381,
      "grad_norm": 1.3382103443145752,
      "learning_rate": 2e-05,
      "loss": 0.7647,
      "step": 2355
    },
    {
      "epoch": 0.8132550914739386,
      "grad_norm": 1.3717503547668457,
      "learning_rate": 2e-05,
      "loss": 0.826,
      "step": 2356
    },
    {
      "epoch": 0.813600276147739,
      "grad_norm": 1.5098658800125122,
      "learning_rate": 2e-05,
      "loss": 0.8863,
      "step": 2357
    },
    {
      "epoch": 0.8139454608215395,
      "grad_norm": 1.4036712646484375,
      "learning_rate": 2e-05,
      "loss": 0.7782,
      "step": 2358
    },
    {
      "epoch": 0.81429064549534,
      "grad_norm": 1.2885041236877441,
      "learning_rate": 2e-05,
      "loss": 0.8486,
      "step": 2359
    },
    {
      "epoch": 0.8146358301691405,
      "grad_norm": 1.4701566696166992,
      "learning_rate": 2e-05,
      "loss": 0.863,
      "step": 2360
    },
    {
      "epoch": 0.8149810148429409,
      "grad_norm": 1.4117199182510376,
      "learning_rate": 2e-05,
      "loss": 0.8693,
      "step": 2361
    },
    {
      "epoch": 0.8153261995167415,
      "grad_norm": 1.3868544101715088,
      "learning_rate": 2e-05,
      "loss": 0.7933,
      "step": 2362
    },
    {
      "epoch": 0.815671384190542,
      "grad_norm": 1.6148414611816406,
      "learning_rate": 2e-05,
      "loss": 0.8516,
      "step": 2363
    },
    {
      "epoch": 0.8160165688643424,
      "grad_norm": 1.2819240093231201,
      "learning_rate": 2e-05,
      "loss": 0.7673,
      "step": 2364
    },
    {
      "epoch": 0.8163617535381429,
      "grad_norm": 1.2341281175613403,
      "learning_rate": 2e-05,
      "loss": 0.7901,
      "step": 2365
    },
    {
      "epoch": 0.8167069382119434,
      "grad_norm": 1.4261126518249512,
      "learning_rate": 2e-05,
      "loss": 0.7934,
      "step": 2366
    },
    {
      "epoch": 0.8170521228857439,
      "grad_norm": 1.4366390705108643,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 2367
    },
    {
      "epoch": 0.8173973075595443,
      "grad_norm": 1.4936550855636597,
      "learning_rate": 2e-05,
      "loss": 0.8421,
      "step": 2368
    },
    {
      "epoch": 0.8177424922333448,
      "grad_norm": 1.3117966651916504,
      "learning_rate": 2e-05,
      "loss": 0.86,
      "step": 2369
    },
    {
      "epoch": 0.8180876769071453,
      "grad_norm": 1.3823515176773071,
      "learning_rate": 2e-05,
      "loss": 0.8323,
      "step": 2370
    },
    {
      "epoch": 0.8184328615809459,
      "grad_norm": 1.2967584133148193,
      "learning_rate": 2e-05,
      "loss": 0.7923,
      "step": 2371
    },
    {
      "epoch": 0.8187780462547463,
      "grad_norm": 1.3561265468597412,
      "learning_rate": 2e-05,
      "loss": 0.7855,
      "step": 2372
    },
    {
      "epoch": 0.8191232309285468,
      "grad_norm": 1.3950525522232056,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 2373
    },
    {
      "epoch": 0.8194684156023473,
      "grad_norm": 1.3735233545303345,
      "learning_rate": 2e-05,
      "loss": 0.8587,
      "step": 2374
    },
    {
      "epoch": 0.8198136002761477,
      "grad_norm": 1.2981961965560913,
      "learning_rate": 2e-05,
      "loss": 0.8016,
      "step": 2375
    },
    {
      "epoch": 0.8201587849499482,
      "grad_norm": 1.4076205492019653,
      "learning_rate": 2e-05,
      "loss": 0.8637,
      "step": 2376
    },
    {
      "epoch": 0.8205039696237487,
      "grad_norm": 1.41757333278656,
      "learning_rate": 2e-05,
      "loss": 0.8288,
      "step": 2377
    },
    {
      "epoch": 0.8208491542975492,
      "grad_norm": 1.2733042240142822,
      "learning_rate": 2e-05,
      "loss": 0.7699,
      "step": 2378
    },
    {
      "epoch": 0.8211943389713496,
      "grad_norm": 1.4417462348937988,
      "learning_rate": 2e-05,
      "loss": 0.9479,
      "step": 2379
    },
    {
      "epoch": 0.8215395236451501,
      "grad_norm": 1.4525357484817505,
      "learning_rate": 2e-05,
      "loss": 0.8157,
      "step": 2380
    },
    {
      "epoch": 0.8218847083189507,
      "grad_norm": 1.3483304977416992,
      "learning_rate": 2e-05,
      "loss": 0.7713,
      "step": 2381
    },
    {
      "epoch": 0.8222298929927512,
      "grad_norm": 1.3064879179000854,
      "learning_rate": 2e-05,
      "loss": 0.7357,
      "step": 2382
    },
    {
      "epoch": 0.8225750776665516,
      "grad_norm": 1.2637290954589844,
      "learning_rate": 2e-05,
      "loss": 0.8731,
      "step": 2383
    },
    {
      "epoch": 0.8229202623403521,
      "grad_norm": 1.2823678255081177,
      "learning_rate": 2e-05,
      "loss": 0.8154,
      "step": 2384
    },
    {
      "epoch": 0.8232654470141526,
      "grad_norm": 1.2856248617172241,
      "learning_rate": 2e-05,
      "loss": 0.7938,
      "step": 2385
    },
    {
      "epoch": 0.823610631687953,
      "grad_norm": 1.3352988958358765,
      "learning_rate": 2e-05,
      "loss": 0.7542,
      "step": 2386
    },
    {
      "epoch": 0.8239558163617535,
      "grad_norm": 1.8700686693191528,
      "learning_rate": 2e-05,
      "loss": 0.8138,
      "step": 2387
    },
    {
      "epoch": 0.824301001035554,
      "grad_norm": 1.4080184698104858,
      "learning_rate": 2e-05,
      "loss": 0.785,
      "step": 2388
    },
    {
      "epoch": 0.8246461857093546,
      "grad_norm": 1.4005181789398193,
      "learning_rate": 2e-05,
      "loss": 0.8298,
      "step": 2389
    },
    {
      "epoch": 0.824991370383155,
      "grad_norm": 1.3059587478637695,
      "learning_rate": 2e-05,
      "loss": 0.785,
      "step": 2390
    },
    {
      "epoch": 0.8253365550569555,
      "grad_norm": 1.338651180267334,
      "learning_rate": 2e-05,
      "loss": 0.7642,
      "step": 2391
    },
    {
      "epoch": 0.825681739730756,
      "grad_norm": 1.4766079187393188,
      "learning_rate": 2e-05,
      "loss": 0.8075,
      "step": 2392
    },
    {
      "epoch": 0.8260269244045564,
      "grad_norm": 1.4288980960845947,
      "learning_rate": 2e-05,
      "loss": 0.8937,
      "step": 2393
    },
    {
      "epoch": 0.8263721090783569,
      "grad_norm": 1.5030467510223389,
      "learning_rate": 2e-05,
      "loss": 0.8867,
      "step": 2394
    },
    {
      "epoch": 0.8267172937521574,
      "grad_norm": 1.3441389799118042,
      "learning_rate": 2e-05,
      "loss": 0.795,
      "step": 2395
    },
    {
      "epoch": 0.8270624784259579,
      "grad_norm": 1.3702318668365479,
      "learning_rate": 2e-05,
      "loss": 0.865,
      "step": 2396
    },
    {
      "epoch": 0.8274076630997583,
      "grad_norm": 1.4200767278671265,
      "learning_rate": 2e-05,
      "loss": 0.758,
      "step": 2397
    },
    {
      "epoch": 0.8277528477735588,
      "grad_norm": 1.3865978717803955,
      "learning_rate": 2e-05,
      "loss": 0.9322,
      "step": 2398
    },
    {
      "epoch": 0.8280980324473594,
      "grad_norm": 1.3536286354064941,
      "learning_rate": 2e-05,
      "loss": 0.7922,
      "step": 2399
    },
    {
      "epoch": 0.8284432171211599,
      "grad_norm": 1.4996898174285889,
      "learning_rate": 2e-05,
      "loss": 0.8331,
      "step": 2400
    },
    {
      "epoch": 0.8287884017949603,
      "grad_norm": 1.6736003160476685,
      "learning_rate": 2e-05,
      "loss": 0.8862,
      "step": 2401
    },
    {
      "epoch": 0.8291335864687608,
      "grad_norm": 1.2103034257888794,
      "learning_rate": 2e-05,
      "loss": 0.8137,
      "step": 2402
    },
    {
      "epoch": 0.8294787711425613,
      "grad_norm": 1.5315601825714111,
      "learning_rate": 2e-05,
      "loss": 0.8997,
      "step": 2403
    },
    {
      "epoch": 0.8298239558163617,
      "grad_norm": 1.3286218643188477,
      "learning_rate": 2e-05,
      "loss": 0.8375,
      "step": 2404
    },
    {
      "epoch": 0.8301691404901622,
      "grad_norm": 1.2293747663497925,
      "learning_rate": 2e-05,
      "loss": 0.7281,
      "step": 2405
    },
    {
      "epoch": 0.8305143251639627,
      "grad_norm": 1.3899749517440796,
      "learning_rate": 2e-05,
      "loss": 0.8655,
      "step": 2406
    },
    {
      "epoch": 0.8308595098377632,
      "grad_norm": 1.337327241897583,
      "learning_rate": 2e-05,
      "loss": 0.819,
      "step": 2407
    },
    {
      "epoch": 0.8312046945115636,
      "grad_norm": 1.425382375717163,
      "learning_rate": 2e-05,
      "loss": 0.8478,
      "step": 2408
    },
    {
      "epoch": 0.8315498791853642,
      "grad_norm": 1.316079020500183,
      "learning_rate": 2e-05,
      "loss": 0.8856,
      "step": 2409
    },
    {
      "epoch": 0.8318950638591647,
      "grad_norm": 1.4631870985031128,
      "learning_rate": 2e-05,
      "loss": 0.8155,
      "step": 2410
    },
    {
      "epoch": 0.8322402485329652,
      "grad_norm": 1.3417855501174927,
      "learning_rate": 2e-05,
      "loss": 0.839,
      "step": 2411
    },
    {
      "epoch": 0.8325854332067656,
      "grad_norm": 1.399928331375122,
      "learning_rate": 2e-05,
      "loss": 0.8014,
      "step": 2412
    },
    {
      "epoch": 0.8329306178805661,
      "grad_norm": 1.2642518281936646,
      "learning_rate": 2e-05,
      "loss": 0.7668,
      "step": 2413
    },
    {
      "epoch": 0.8332758025543666,
      "grad_norm": 1.2499369382858276,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 2414
    },
    {
      "epoch": 0.833620987228167,
      "grad_norm": 1.2873358726501465,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 2415
    },
    {
      "epoch": 0.8339661719019675,
      "grad_norm": 1.5413780212402344,
      "learning_rate": 2e-05,
      "loss": 0.8864,
      "step": 2416
    },
    {
      "epoch": 0.834311356575768,
      "grad_norm": 1.3790061473846436,
      "learning_rate": 2e-05,
      "loss": 0.8454,
      "step": 2417
    },
    {
      "epoch": 0.8346565412495686,
      "grad_norm": 1.3248203992843628,
      "learning_rate": 2e-05,
      "loss": 0.8715,
      "step": 2418
    },
    {
      "epoch": 0.835001725923369,
      "grad_norm": 1.2966508865356445,
      "learning_rate": 2e-05,
      "loss": 0.8465,
      "step": 2419
    },
    {
      "epoch": 0.8353469105971695,
      "grad_norm": 1.3412350416183472,
      "learning_rate": 2e-05,
      "loss": 0.8991,
      "step": 2420
    },
    {
      "epoch": 0.83569209527097,
      "grad_norm": 1.3380111455917358,
      "learning_rate": 2e-05,
      "loss": 0.8168,
      "step": 2421
    },
    {
      "epoch": 0.8360372799447705,
      "grad_norm": 1.8016365766525269,
      "learning_rate": 2e-05,
      "loss": 0.8985,
      "step": 2422
    },
    {
      "epoch": 0.8363824646185709,
      "grad_norm": 1.4128159284591675,
      "learning_rate": 2e-05,
      "loss": 0.8604,
      "step": 2423
    },
    {
      "epoch": 0.8367276492923714,
      "grad_norm": 1.3353736400604248,
      "learning_rate": 2e-05,
      "loss": 0.7598,
      "step": 2424
    },
    {
      "epoch": 0.8370728339661719,
      "grad_norm": 1.3202422857284546,
      "learning_rate": 2e-05,
      "loss": 0.7595,
      "step": 2425
    },
    {
      "epoch": 0.8374180186399723,
      "grad_norm": 1.462827205657959,
      "learning_rate": 2e-05,
      "loss": 0.8099,
      "step": 2426
    },
    {
      "epoch": 0.8377632033137729,
      "grad_norm": 1.365277647972107,
      "learning_rate": 2e-05,
      "loss": 0.7836,
      "step": 2427
    },
    {
      "epoch": 0.8381083879875734,
      "grad_norm": 1.4216433763504028,
      "learning_rate": 2e-05,
      "loss": 0.7669,
      "step": 2428
    },
    {
      "epoch": 0.8384535726613739,
      "grad_norm": 1.4552274942398071,
      "learning_rate": 2e-05,
      "loss": 0.881,
      "step": 2429
    },
    {
      "epoch": 0.8387987573351743,
      "grad_norm": 1.5351837873458862,
      "learning_rate": 2e-05,
      "loss": 0.8248,
      "step": 2430
    },
    {
      "epoch": 0.8391439420089748,
      "grad_norm": 1.394945502281189,
      "learning_rate": 2e-05,
      "loss": 0.8295,
      "step": 2431
    },
    {
      "epoch": 0.8394891266827753,
      "grad_norm": 1.4115946292877197,
      "learning_rate": 2e-05,
      "loss": 0.9241,
      "step": 2432
    },
    {
      "epoch": 0.8398343113565757,
      "grad_norm": 1.45376718044281,
      "learning_rate": 2e-05,
      "loss": 0.794,
      "step": 2433
    },
    {
      "epoch": 0.8401794960303762,
      "grad_norm": 1.430161714553833,
      "learning_rate": 2e-05,
      "loss": 0.8975,
      "step": 2434
    },
    {
      "epoch": 0.8405246807041767,
      "grad_norm": 1.4269399642944336,
      "learning_rate": 2e-05,
      "loss": 0.8742,
      "step": 2435
    },
    {
      "epoch": 0.8408698653779773,
      "grad_norm": 1.434664011001587,
      "learning_rate": 2e-05,
      "loss": 0.797,
      "step": 2436
    },
    {
      "epoch": 0.8412150500517777,
      "grad_norm": 1.3571946620941162,
      "learning_rate": 2e-05,
      "loss": 0.8682,
      "step": 2437
    },
    {
      "epoch": 0.8415602347255782,
      "grad_norm": 1.306015133857727,
      "learning_rate": 2e-05,
      "loss": 0.7918,
      "step": 2438
    },
    {
      "epoch": 0.8419054193993787,
      "grad_norm": 1.5052409172058105,
      "learning_rate": 2e-05,
      "loss": 0.9578,
      "step": 2439
    },
    {
      "epoch": 0.8422506040731792,
      "grad_norm": 1.352121114730835,
      "learning_rate": 2e-05,
      "loss": 0.8308,
      "step": 2440
    },
    {
      "epoch": 0.8425957887469796,
      "grad_norm": 1.2913392782211304,
      "learning_rate": 2e-05,
      "loss": 0.8705,
      "step": 2441
    },
    {
      "epoch": 0.8429409734207801,
      "grad_norm": 1.4733887910842896,
      "learning_rate": 2e-05,
      "loss": 0.761,
      "step": 2442
    },
    {
      "epoch": 0.8432861580945806,
      "grad_norm": 1.318328619003296,
      "learning_rate": 2e-05,
      "loss": 0.8122,
      "step": 2443
    },
    {
      "epoch": 0.843631342768381,
      "grad_norm": 1.3442895412445068,
      "learning_rate": 2e-05,
      "loss": 0.8165,
      "step": 2444
    },
    {
      "epoch": 0.8439765274421815,
      "grad_norm": 1.320015549659729,
      "learning_rate": 2e-05,
      "loss": 0.8092,
      "step": 2445
    },
    {
      "epoch": 0.8443217121159821,
      "grad_norm": 1.3407869338989258,
      "learning_rate": 2e-05,
      "loss": 0.7567,
      "step": 2446
    },
    {
      "epoch": 0.8446668967897826,
      "grad_norm": 1.4327946901321411,
      "learning_rate": 2e-05,
      "loss": 0.8225,
      "step": 2447
    },
    {
      "epoch": 0.845012081463583,
      "grad_norm": 1.384373664855957,
      "learning_rate": 2e-05,
      "loss": 0.761,
      "step": 2448
    },
    {
      "epoch": 0.8453572661373835,
      "grad_norm": 1.3840585947036743,
      "learning_rate": 2e-05,
      "loss": 0.8569,
      "step": 2449
    },
    {
      "epoch": 0.845702450811184,
      "grad_norm": 1.4819890260696411,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 2450
    },
    {
      "epoch": 0.8460476354849845,
      "grad_norm": 1.3875675201416016,
      "learning_rate": 2e-05,
      "loss": 0.8132,
      "step": 2451
    },
    {
      "epoch": 0.8463928201587849,
      "grad_norm": 1.4347034692764282,
      "learning_rate": 2e-05,
      "loss": 0.8199,
      "step": 2452
    },
    {
      "epoch": 0.8467380048325854,
      "grad_norm": 1.4677187204360962,
      "learning_rate": 2e-05,
      "loss": 0.9038,
      "step": 2453
    },
    {
      "epoch": 0.847083189506386,
      "grad_norm": 1.3467336893081665,
      "learning_rate": 2e-05,
      "loss": 0.852,
      "step": 2454
    },
    {
      "epoch": 0.8474283741801864,
      "grad_norm": 1.4520045518875122,
      "learning_rate": 2e-05,
      "loss": 0.7835,
      "step": 2455
    },
    {
      "epoch": 0.8477735588539869,
      "grad_norm": 1.391118049621582,
      "learning_rate": 2e-05,
      "loss": 0.8262,
      "step": 2456
    },
    {
      "epoch": 0.8481187435277874,
      "grad_norm": 1.3473786115646362,
      "learning_rate": 2e-05,
      "loss": 0.7504,
      "step": 2457
    },
    {
      "epoch": 0.8484639282015879,
      "grad_norm": 1.3650883436203003,
      "learning_rate": 2e-05,
      "loss": 0.7913,
      "step": 2458
    },
    {
      "epoch": 0.8488091128753883,
      "grad_norm": 1.5744740962982178,
      "learning_rate": 2e-05,
      "loss": 0.8395,
      "step": 2459
    },
    {
      "epoch": 0.8491542975491888,
      "grad_norm": 1.3367359638214111,
      "learning_rate": 2e-05,
      "loss": 0.7633,
      "step": 2460
    },
    {
      "epoch": 0.8494994822229893,
      "grad_norm": 1.4270027875900269,
      "learning_rate": 2e-05,
      "loss": 0.8172,
      "step": 2461
    },
    {
      "epoch": 0.8498446668967898,
      "grad_norm": 1.3291049003601074,
      "learning_rate": 2e-05,
      "loss": 0.8269,
      "step": 2462
    },
    {
      "epoch": 0.8501898515705902,
      "grad_norm": 1.2672743797302246,
      "learning_rate": 2e-05,
      "loss": 0.8206,
      "step": 2463
    },
    {
      "epoch": 0.8505350362443908,
      "grad_norm": 1.2827491760253906,
      "learning_rate": 2e-05,
      "loss": 0.8443,
      "step": 2464
    },
    {
      "epoch": 0.8508802209181913,
      "grad_norm": 1.2407981157302856,
      "learning_rate": 2e-05,
      "loss": 0.8267,
      "step": 2465
    },
    {
      "epoch": 0.8512254055919917,
      "grad_norm": 1.3523067235946655,
      "learning_rate": 2e-05,
      "loss": 0.8638,
      "step": 2466
    },
    {
      "epoch": 0.8515705902657922,
      "grad_norm": 1.3012983798980713,
      "learning_rate": 2e-05,
      "loss": 0.7929,
      "step": 2467
    },
    {
      "epoch": 0.8519157749395927,
      "grad_norm": 1.4148489236831665,
      "learning_rate": 2e-05,
      "loss": 0.7679,
      "step": 2468
    },
    {
      "epoch": 0.8522609596133932,
      "grad_norm": 1.3278497457504272,
      "learning_rate": 2e-05,
      "loss": 0.8439,
      "step": 2469
    },
    {
      "epoch": 0.8526061442871936,
      "grad_norm": 1.3609559535980225,
      "learning_rate": 2e-05,
      "loss": 0.7794,
      "step": 2470
    },
    {
      "epoch": 0.8529513289609941,
      "grad_norm": 1.264832854270935,
      "learning_rate": 2e-05,
      "loss": 0.8172,
      "step": 2471
    },
    {
      "epoch": 0.8532965136347946,
      "grad_norm": 1.4130939245224,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 2472
    },
    {
      "epoch": 0.8536416983085952,
      "grad_norm": 1.4442225694656372,
      "learning_rate": 2e-05,
      "loss": 0.7817,
      "step": 2473
    },
    {
      "epoch": 0.8539868829823956,
      "grad_norm": 1.394851565361023,
      "learning_rate": 2e-05,
      "loss": 0.7358,
      "step": 2474
    },
    {
      "epoch": 0.8543320676561961,
      "grad_norm": 1.3374059200286865,
      "learning_rate": 2e-05,
      "loss": 0.8429,
      "step": 2475
    },
    {
      "epoch": 0.8546772523299966,
      "grad_norm": 1.3941125869750977,
      "learning_rate": 2e-05,
      "loss": 0.8339,
      "step": 2476
    },
    {
      "epoch": 0.855022437003797,
      "grad_norm": 1.4113266468048096,
      "learning_rate": 2e-05,
      "loss": 0.8661,
      "step": 2477
    },
    {
      "epoch": 0.8553676216775975,
      "grad_norm": 1.288395643234253,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 2478
    },
    {
      "epoch": 0.855712806351398,
      "grad_norm": 1.4540176391601562,
      "learning_rate": 2e-05,
      "loss": 0.8208,
      "step": 2479
    },
    {
      "epoch": 0.8560579910251985,
      "grad_norm": 1.4225006103515625,
      "learning_rate": 2e-05,
      "loss": 0.8167,
      "step": 2480
    },
    {
      "epoch": 0.8564031756989989,
      "grad_norm": 1.3601231575012207,
      "learning_rate": 2e-05,
      "loss": 0.8639,
      "step": 2481
    },
    {
      "epoch": 0.8567483603727994,
      "grad_norm": 1.3086373805999756,
      "learning_rate": 2e-05,
      "loss": 0.7529,
      "step": 2482
    },
    {
      "epoch": 0.8570935450466,
      "grad_norm": 1.3866177797317505,
      "learning_rate": 2e-05,
      "loss": 0.8056,
      "step": 2483
    },
    {
      "epoch": 0.8574387297204004,
      "grad_norm": 1.439745545387268,
      "learning_rate": 2e-05,
      "loss": 0.8224,
      "step": 2484
    },
    {
      "epoch": 0.8577839143942009,
      "grad_norm": 1.3278732299804688,
      "learning_rate": 2e-05,
      "loss": 0.8237,
      "step": 2485
    },
    {
      "epoch": 0.8581290990680014,
      "grad_norm": 1.4333856105804443,
      "learning_rate": 2e-05,
      "loss": 0.7769,
      "step": 2486
    },
    {
      "epoch": 0.8584742837418019,
      "grad_norm": 1.3776448965072632,
      "learning_rate": 2e-05,
      "loss": 0.8304,
      "step": 2487
    },
    {
      "epoch": 0.8588194684156023,
      "grad_norm": 1.4926342964172363,
      "learning_rate": 2e-05,
      "loss": 0.8427,
      "step": 2488
    },
    {
      "epoch": 0.8591646530894028,
      "grad_norm": 1.2444283962249756,
      "learning_rate": 2e-05,
      "loss": 0.7867,
      "step": 2489
    },
    {
      "epoch": 0.8595098377632033,
      "grad_norm": 1.346266746520996,
      "learning_rate": 2e-05,
      "loss": 0.8008,
      "step": 2490
    },
    {
      "epoch": 0.8598550224370038,
      "grad_norm": 1.4806395769119263,
      "learning_rate": 2e-05,
      "loss": 0.8292,
      "step": 2491
    },
    {
      "epoch": 0.8602002071108042,
      "grad_norm": 1.4536815881729126,
      "learning_rate": 2e-05,
      "loss": 0.8419,
      "step": 2492
    },
    {
      "epoch": 0.8605453917846048,
      "grad_norm": 1.453839659690857,
      "learning_rate": 2e-05,
      "loss": 0.8726,
      "step": 2493
    },
    {
      "epoch": 0.8608905764584053,
      "grad_norm": 1.2809488773345947,
      "learning_rate": 2e-05,
      "loss": 0.7798,
      "step": 2494
    },
    {
      "epoch": 0.8612357611322057,
      "grad_norm": 1.3549855947494507,
      "learning_rate": 2e-05,
      "loss": 0.8614,
      "step": 2495
    },
    {
      "epoch": 0.8615809458060062,
      "grad_norm": 1.4768273830413818,
      "learning_rate": 2e-05,
      "loss": 0.8744,
      "step": 2496
    },
    {
      "epoch": 0.8619261304798067,
      "grad_norm": 1.3181109428405762,
      "learning_rate": 2e-05,
      "loss": 0.7965,
      "step": 2497
    },
    {
      "epoch": 0.8622713151536072,
      "grad_norm": 1.4951199293136597,
      "learning_rate": 2e-05,
      "loss": 0.7657,
      "step": 2498
    },
    {
      "epoch": 0.8626164998274076,
      "grad_norm": 1.4713877439498901,
      "learning_rate": 2e-05,
      "loss": 0.8537,
      "step": 2499
    },
    {
      "epoch": 0.8629616845012081,
      "grad_norm": 1.4347941875457764,
      "learning_rate": 2e-05,
      "loss": 0.7657,
      "step": 2500
    },
    {
      "epoch": 0.8633068691750087,
      "grad_norm": 1.441112995147705,
      "learning_rate": 2e-05,
      "loss": 0.7645,
      "step": 2501
    },
    {
      "epoch": 0.8636520538488092,
      "grad_norm": 1.5692554712295532,
      "learning_rate": 2e-05,
      "loss": 0.8226,
      "step": 2502
    },
    {
      "epoch": 0.8639972385226096,
      "grad_norm": 1.3202980756759644,
      "learning_rate": 2e-05,
      "loss": 0.8259,
      "step": 2503
    },
    {
      "epoch": 0.8643424231964101,
      "grad_norm": 1.362507939338684,
      "learning_rate": 2e-05,
      "loss": 0.7431,
      "step": 2504
    },
    {
      "epoch": 0.8646876078702106,
      "grad_norm": 1.513792634010315,
      "learning_rate": 2e-05,
      "loss": 0.8121,
      "step": 2505
    },
    {
      "epoch": 0.865032792544011,
      "grad_norm": 1.2763100862503052,
      "learning_rate": 2e-05,
      "loss": 0.7141,
      "step": 2506
    },
    {
      "epoch": 0.8653779772178115,
      "grad_norm": 1.369554877281189,
      "learning_rate": 2e-05,
      "loss": 0.7603,
      "step": 2507
    },
    {
      "epoch": 0.865723161891612,
      "grad_norm": 1.4839671850204468,
      "learning_rate": 2e-05,
      "loss": 0.8272,
      "step": 2508
    },
    {
      "epoch": 0.8660683465654125,
      "grad_norm": 1.3987442255020142,
      "learning_rate": 2e-05,
      "loss": 0.7922,
      "step": 2509
    },
    {
      "epoch": 0.8664135312392129,
      "grad_norm": 1.255046010017395,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 2510
    },
    {
      "epoch": 0.8667587159130135,
      "grad_norm": 1.2952302694320679,
      "learning_rate": 2e-05,
      "loss": 0.8322,
      "step": 2511
    },
    {
      "epoch": 0.867103900586814,
      "grad_norm": 1.3512163162231445,
      "learning_rate": 2e-05,
      "loss": 0.8366,
      "step": 2512
    },
    {
      "epoch": 0.8674490852606145,
      "grad_norm": 1.4631409645080566,
      "learning_rate": 2e-05,
      "loss": 0.7728,
      "step": 2513
    },
    {
      "epoch": 0.8677942699344149,
      "grad_norm": 1.5099658966064453,
      "learning_rate": 2e-05,
      "loss": 0.8776,
      "step": 2514
    },
    {
      "epoch": 0.8681394546082154,
      "grad_norm": 1.4535369873046875,
      "learning_rate": 2e-05,
      "loss": 0.8717,
      "step": 2515
    },
    {
      "epoch": 0.8684846392820159,
      "grad_norm": 1.4581440687179565,
      "learning_rate": 2e-05,
      "loss": 0.8511,
      "step": 2516
    },
    {
      "epoch": 0.8688298239558163,
      "grad_norm": 1.4525264501571655,
      "learning_rate": 2e-05,
      "loss": 0.8432,
      "step": 2517
    },
    {
      "epoch": 0.8691750086296168,
      "grad_norm": 1.6257950067520142,
      "learning_rate": 2e-05,
      "loss": 0.8671,
      "step": 2518
    },
    {
      "epoch": 0.8695201933034173,
      "grad_norm": 1.3041198253631592,
      "learning_rate": 2e-05,
      "loss": 0.8235,
      "step": 2519
    },
    {
      "epoch": 0.8698653779772179,
      "grad_norm": 1.4352290630340576,
      "learning_rate": 2e-05,
      "loss": 0.87,
      "step": 2520
    },
    {
      "epoch": 0.8702105626510183,
      "grad_norm": 1.6469521522521973,
      "learning_rate": 2e-05,
      "loss": 0.8339,
      "step": 2521
    },
    {
      "epoch": 0.8705557473248188,
      "grad_norm": 1.3171961307525635,
      "learning_rate": 2e-05,
      "loss": 0.8127,
      "step": 2522
    },
    {
      "epoch": 0.8709009319986193,
      "grad_norm": 1.4195265769958496,
      "learning_rate": 2e-05,
      "loss": 0.8586,
      "step": 2523
    },
    {
      "epoch": 0.8712461166724197,
      "grad_norm": 1.3446965217590332,
      "learning_rate": 2e-05,
      "loss": 0.8344,
      "step": 2524
    },
    {
      "epoch": 0.8715913013462202,
      "grad_norm": 1.2742573022842407,
      "learning_rate": 2e-05,
      "loss": 0.8588,
      "step": 2525
    },
    {
      "epoch": 0.8719364860200207,
      "grad_norm": 1.3272215127944946,
      "learning_rate": 2e-05,
      "loss": 0.8143,
      "step": 2526
    },
    {
      "epoch": 0.8722816706938212,
      "grad_norm": 1.3358492851257324,
      "learning_rate": 2e-05,
      "loss": 0.8406,
      "step": 2527
    },
    {
      "epoch": 0.8726268553676216,
      "grad_norm": 1.415573239326477,
      "learning_rate": 2e-05,
      "loss": 0.8254,
      "step": 2528
    },
    {
      "epoch": 0.8729720400414221,
      "grad_norm": 1.3234425783157349,
      "learning_rate": 2e-05,
      "loss": 0.8565,
      "step": 2529
    },
    {
      "epoch": 0.8733172247152227,
      "grad_norm": 1.5447965860366821,
      "learning_rate": 2e-05,
      "loss": 0.8428,
      "step": 2530
    },
    {
      "epoch": 0.8736624093890232,
      "grad_norm": 1.438682198524475,
      "learning_rate": 2e-05,
      "loss": 0.8088,
      "step": 2531
    },
    {
      "epoch": 0.8740075940628236,
      "grad_norm": 1.288012146949768,
      "learning_rate": 2e-05,
      "loss": 0.7616,
      "step": 2532
    },
    {
      "epoch": 0.8743527787366241,
      "grad_norm": 1.2011958360671997,
      "learning_rate": 2e-05,
      "loss": 0.8091,
      "step": 2533
    },
    {
      "epoch": 0.8746979634104246,
      "grad_norm": 1.481216311454773,
      "learning_rate": 2e-05,
      "loss": 0.8318,
      "step": 2534
    },
    {
      "epoch": 0.875043148084225,
      "grad_norm": 1.306567668914795,
      "learning_rate": 2e-05,
      "loss": 0.8136,
      "step": 2535
    },
    {
      "epoch": 0.8753883327580255,
      "grad_norm": 1.2988508939743042,
      "learning_rate": 2e-05,
      "loss": 0.8614,
      "step": 2536
    },
    {
      "epoch": 0.875733517431826,
      "grad_norm": 1.5145728588104248,
      "learning_rate": 2e-05,
      "loss": 0.8751,
      "step": 2537
    },
    {
      "epoch": 0.8760787021056266,
      "grad_norm": 1.3928203582763672,
      "learning_rate": 2e-05,
      "loss": 0.8493,
      "step": 2538
    },
    {
      "epoch": 0.876423886779427,
      "grad_norm": 1.3474065065383911,
      "learning_rate": 2e-05,
      "loss": 0.8727,
      "step": 2539
    },
    {
      "epoch": 0.8767690714532275,
      "grad_norm": 1.3688231706619263,
      "learning_rate": 2e-05,
      "loss": 0.86,
      "step": 2540
    },
    {
      "epoch": 0.877114256127028,
      "grad_norm": 1.3140825033187866,
      "learning_rate": 2e-05,
      "loss": 0.8547,
      "step": 2541
    },
    {
      "epoch": 0.8774594408008285,
      "grad_norm": 1.4357191324234009,
      "learning_rate": 2e-05,
      "loss": 0.8157,
      "step": 2542
    },
    {
      "epoch": 0.8778046254746289,
      "grad_norm": 1.294994831085205,
      "learning_rate": 2e-05,
      "loss": 0.8069,
      "step": 2543
    },
    {
      "epoch": 0.8781498101484294,
      "grad_norm": 1.46625554561615,
      "learning_rate": 2e-05,
      "loss": 0.837,
      "step": 2544
    },
    {
      "epoch": 0.8784949948222299,
      "grad_norm": 1.2534377574920654,
      "learning_rate": 2e-05,
      "loss": 0.8793,
      "step": 2545
    },
    {
      "epoch": 0.8788401794960303,
      "grad_norm": 1.3112841844558716,
      "learning_rate": 2e-05,
      "loss": 0.7909,
      "step": 2546
    },
    {
      "epoch": 0.8791853641698308,
      "grad_norm": 1.395804762840271,
      "learning_rate": 2e-05,
      "loss": 0.8319,
      "step": 2547
    },
    {
      "epoch": 0.8795305488436314,
      "grad_norm": 1.7792350053787231,
      "learning_rate": 2e-05,
      "loss": 0.8212,
      "step": 2548
    },
    {
      "epoch": 0.8798757335174319,
      "grad_norm": 1.5181529521942139,
      "learning_rate": 2e-05,
      "loss": 0.8196,
      "step": 2549
    },
    {
      "epoch": 0.8802209181912323,
      "grad_norm": 1.2535861730575562,
      "learning_rate": 2e-05,
      "loss": 0.852,
      "step": 2550
    },
    {
      "epoch": 0.8805661028650328,
      "grad_norm": 1.398005723953247,
      "learning_rate": 2e-05,
      "loss": 0.853,
      "step": 2551
    },
    {
      "epoch": 0.8809112875388333,
      "grad_norm": 1.4421660900115967,
      "learning_rate": 2e-05,
      "loss": 0.8388,
      "step": 2552
    },
    {
      "epoch": 0.8812564722126338,
      "grad_norm": 1.3404494524002075,
      "learning_rate": 2e-05,
      "loss": 0.7587,
      "step": 2553
    },
    {
      "epoch": 0.8816016568864342,
      "grad_norm": 1.3593244552612305,
      "learning_rate": 2e-05,
      "loss": 0.7406,
      "step": 2554
    },
    {
      "epoch": 0.8819468415602347,
      "grad_norm": 1.3608472347259521,
      "learning_rate": 2e-05,
      "loss": 0.8168,
      "step": 2555
    },
    {
      "epoch": 0.8822920262340352,
      "grad_norm": 1.3002026081085205,
      "learning_rate": 2e-05,
      "loss": 0.7848,
      "step": 2556
    },
    {
      "epoch": 0.8826372109078356,
      "grad_norm": 1.2617168426513672,
      "learning_rate": 2e-05,
      "loss": 0.7243,
      "step": 2557
    },
    {
      "epoch": 0.8829823955816362,
      "grad_norm": 1.3564101457595825,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 2558
    },
    {
      "epoch": 0.8833275802554367,
      "grad_norm": 1.3536463975906372,
      "learning_rate": 2e-05,
      "loss": 0.8581,
      "step": 2559
    },
    {
      "epoch": 0.8836727649292372,
      "grad_norm": 1.353613018989563,
      "learning_rate": 2e-05,
      "loss": 0.8179,
      "step": 2560
    },
    {
      "epoch": 0.8840179496030376,
      "grad_norm": 1.2567765712738037,
      "learning_rate": 2e-05,
      "loss": 0.7911,
      "step": 2561
    },
    {
      "epoch": 0.8843631342768381,
      "grad_norm": 1.3522664308547974,
      "learning_rate": 2e-05,
      "loss": 0.8254,
      "step": 2562
    },
    {
      "epoch": 0.8847083189506386,
      "grad_norm": 1.4649561643600464,
      "learning_rate": 2e-05,
      "loss": 0.7454,
      "step": 2563
    },
    {
      "epoch": 0.885053503624439,
      "grad_norm": 1.2988576889038086,
      "learning_rate": 2e-05,
      "loss": 0.8018,
      "step": 2564
    },
    {
      "epoch": 0.8853986882982395,
      "grad_norm": 1.4192638397216797,
      "learning_rate": 2e-05,
      "loss": 0.7583,
      "step": 2565
    },
    {
      "epoch": 0.88574387297204,
      "grad_norm": 1.4628794193267822,
      "learning_rate": 2e-05,
      "loss": 0.7791,
      "step": 2566
    },
    {
      "epoch": 0.8860890576458406,
      "grad_norm": 1.2941877841949463,
      "learning_rate": 2e-05,
      "loss": 0.9185,
      "step": 2567
    },
    {
      "epoch": 0.886434242319641,
      "grad_norm": 1.5612436532974243,
      "learning_rate": 2e-05,
      "loss": 0.7858,
      "step": 2568
    },
    {
      "epoch": 0.8867794269934415,
      "grad_norm": 1.3968487977981567,
      "learning_rate": 2e-05,
      "loss": 0.8536,
      "step": 2569
    },
    {
      "epoch": 0.887124611667242,
      "grad_norm": 1.4445079565048218,
      "learning_rate": 2e-05,
      "loss": 0.8629,
      "step": 2570
    },
    {
      "epoch": 0.8874697963410425,
      "grad_norm": 1.3541513681411743,
      "learning_rate": 2e-05,
      "loss": 0.7548,
      "step": 2571
    },
    {
      "epoch": 0.8878149810148429,
      "grad_norm": 1.3703656196594238,
      "learning_rate": 2e-05,
      "loss": 0.8302,
      "step": 2572
    },
    {
      "epoch": 0.8881601656886434,
      "grad_norm": 1.2784719467163086,
      "learning_rate": 2e-05,
      "loss": 0.8269,
      "step": 2573
    },
    {
      "epoch": 0.8885053503624439,
      "grad_norm": 1.4018021821975708,
      "learning_rate": 2e-05,
      "loss": 0.8605,
      "step": 2574
    },
    {
      "epoch": 0.8888505350362443,
      "grad_norm": 1.4921201467514038,
      "learning_rate": 2e-05,
      "loss": 0.9022,
      "step": 2575
    },
    {
      "epoch": 0.8891957197100449,
      "grad_norm": 1.2462657690048218,
      "learning_rate": 2e-05,
      "loss": 0.7589,
      "step": 2576
    },
    {
      "epoch": 0.8895409043838454,
      "grad_norm": 1.3430906534194946,
      "learning_rate": 2e-05,
      "loss": 0.7985,
      "step": 2577
    },
    {
      "epoch": 0.8898860890576459,
      "grad_norm": 1.3662405014038086,
      "learning_rate": 2e-05,
      "loss": 0.8859,
      "step": 2578
    },
    {
      "epoch": 0.8902312737314463,
      "grad_norm": 1.4416568279266357,
      "learning_rate": 2e-05,
      "loss": 0.8095,
      "step": 2579
    },
    {
      "epoch": 0.8905764584052468,
      "grad_norm": 1.355417013168335,
      "learning_rate": 2e-05,
      "loss": 0.7919,
      "step": 2580
    },
    {
      "epoch": 0.8909216430790473,
      "grad_norm": 1.3992700576782227,
      "learning_rate": 2e-05,
      "loss": 0.8643,
      "step": 2581
    },
    {
      "epoch": 0.8912668277528478,
      "grad_norm": 1.3847495317459106,
      "learning_rate": 2e-05,
      "loss": 0.8235,
      "step": 2582
    },
    {
      "epoch": 0.8916120124266482,
      "grad_norm": 1.3530243635177612,
      "learning_rate": 2e-05,
      "loss": 0.8203,
      "step": 2583
    },
    {
      "epoch": 0.8919571971004487,
      "grad_norm": 1.4691976308822632,
      "learning_rate": 2e-05,
      "loss": 0.8113,
      "step": 2584
    },
    {
      "epoch": 0.8923023817742493,
      "grad_norm": 1.4005450010299683,
      "learning_rate": 2e-05,
      "loss": 0.7889,
      "step": 2585
    },
    {
      "epoch": 0.8926475664480497,
      "grad_norm": 1.5926185846328735,
      "learning_rate": 2e-05,
      "loss": 0.8452,
      "step": 2586
    },
    {
      "epoch": 0.8929927511218502,
      "grad_norm": 1.4154794216156006,
      "learning_rate": 2e-05,
      "loss": 0.8265,
      "step": 2587
    },
    {
      "epoch": 0.8933379357956507,
      "grad_norm": 1.3230746984481812,
      "learning_rate": 2e-05,
      "loss": 0.764,
      "step": 2588
    },
    {
      "epoch": 0.8936831204694512,
      "grad_norm": 1.3334134817123413,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 2589
    },
    {
      "epoch": 0.8940283051432516,
      "grad_norm": 1.3962066173553467,
      "learning_rate": 2e-05,
      "loss": 0.7785,
      "step": 2590
    },
    {
      "epoch": 0.8943734898170521,
      "grad_norm": 1.3883756399154663,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 2591
    },
    {
      "epoch": 0.8947186744908526,
      "grad_norm": 1.410607933998108,
      "learning_rate": 2e-05,
      "loss": 0.8509,
      "step": 2592
    },
    {
      "epoch": 0.8950638591646531,
      "grad_norm": 1.3776267766952515,
      "learning_rate": 2e-05,
      "loss": 0.7796,
      "step": 2593
    },
    {
      "epoch": 0.8954090438384535,
      "grad_norm": 1.2791227102279663,
      "learning_rate": 2e-05,
      "loss": 0.8417,
      "step": 2594
    },
    {
      "epoch": 0.8957542285122541,
      "grad_norm": 1.4103755950927734,
      "learning_rate": 2e-05,
      "loss": 0.7163,
      "step": 2595
    },
    {
      "epoch": 0.8960994131860546,
      "grad_norm": 1.283670425415039,
      "learning_rate": 2e-05,
      "loss": 0.7959,
      "step": 2596
    },
    {
      "epoch": 0.896444597859855,
      "grad_norm": 1.4563772678375244,
      "learning_rate": 2e-05,
      "loss": 0.8531,
      "step": 2597
    },
    {
      "epoch": 0.8967897825336555,
      "grad_norm": 1.2786779403686523,
      "learning_rate": 2e-05,
      "loss": 0.8384,
      "step": 2598
    },
    {
      "epoch": 0.897134967207456,
      "grad_norm": 1.2945051193237305,
      "learning_rate": 2e-05,
      "loss": 0.8571,
      "step": 2599
    },
    {
      "epoch": 0.8974801518812565,
      "grad_norm": 1.3874531984329224,
      "learning_rate": 2e-05,
      "loss": 0.8283,
      "step": 2600
    },
    {
      "epoch": 0.8978253365550569,
      "grad_norm": 1.2567079067230225,
      "learning_rate": 2e-05,
      "loss": 0.7746,
      "step": 2601
    },
    {
      "epoch": 0.8981705212288574,
      "grad_norm": 1.461032509803772,
      "learning_rate": 2e-05,
      "loss": 0.901,
      "step": 2602
    },
    {
      "epoch": 0.898515705902658,
      "grad_norm": 1.3768157958984375,
      "learning_rate": 2e-05,
      "loss": 0.8339,
      "step": 2603
    },
    {
      "epoch": 0.8988608905764585,
      "grad_norm": 1.3958526849746704,
      "learning_rate": 2e-05,
      "loss": 0.8464,
      "step": 2604
    },
    {
      "epoch": 0.8992060752502589,
      "grad_norm": 1.3821438550949097,
      "learning_rate": 2e-05,
      "loss": 0.8258,
      "step": 2605
    },
    {
      "epoch": 0.8995512599240594,
      "grad_norm": 1.3165967464447021,
      "learning_rate": 2e-05,
      "loss": 0.783,
      "step": 2606
    },
    {
      "epoch": 0.8998964445978599,
      "grad_norm": 1.4170260429382324,
      "learning_rate": 2e-05,
      "loss": 0.871,
      "step": 2607
    },
    {
      "epoch": 0.9002416292716603,
      "grad_norm": 1.5331852436065674,
      "learning_rate": 2e-05,
      "loss": 0.8183,
      "step": 2608
    },
    {
      "epoch": 0.9005868139454608,
      "grad_norm": 1.3439483642578125,
      "learning_rate": 2e-05,
      "loss": 0.7806,
      "step": 2609
    },
    {
      "epoch": 0.9009319986192613,
      "grad_norm": 1.4897496700286865,
      "learning_rate": 2e-05,
      "loss": 0.8842,
      "step": 2610
    },
    {
      "epoch": 0.9012771832930618,
      "grad_norm": 1.4026920795440674,
      "learning_rate": 2e-05,
      "loss": 0.8404,
      "step": 2611
    },
    {
      "epoch": 0.9016223679668622,
      "grad_norm": 1.3028244972229004,
      "learning_rate": 2e-05,
      "loss": 0.8167,
      "step": 2612
    },
    {
      "epoch": 0.9019675526406628,
      "grad_norm": 1.4405431747436523,
      "learning_rate": 2e-05,
      "loss": 0.7601,
      "step": 2613
    },
    {
      "epoch": 0.9023127373144633,
      "grad_norm": 1.2617641687393188,
      "learning_rate": 2e-05,
      "loss": 0.7545,
      "step": 2614
    },
    {
      "epoch": 0.9026579219882637,
      "grad_norm": 1.3389263153076172,
      "learning_rate": 2e-05,
      "loss": 0.8133,
      "step": 2615
    },
    {
      "epoch": 0.9030031066620642,
      "grad_norm": 1.4106119871139526,
      "learning_rate": 2e-05,
      "loss": 0.8048,
      "step": 2616
    },
    {
      "epoch": 0.9033482913358647,
      "grad_norm": 1.3704396486282349,
      "learning_rate": 2e-05,
      "loss": 0.8744,
      "step": 2617
    },
    {
      "epoch": 0.9036934760096652,
      "grad_norm": 1.2605916261672974,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 2618
    },
    {
      "epoch": 0.9040386606834656,
      "grad_norm": 1.3055447340011597,
      "learning_rate": 2e-05,
      "loss": 0.8571,
      "step": 2619
    },
    {
      "epoch": 0.9043838453572661,
      "grad_norm": 1.2591356039047241,
      "learning_rate": 2e-05,
      "loss": 0.7446,
      "step": 2620
    },
    {
      "epoch": 0.9047290300310666,
      "grad_norm": 1.4196490049362183,
      "learning_rate": 2e-05,
      "loss": 0.8176,
      "step": 2621
    },
    {
      "epoch": 0.9050742147048672,
      "grad_norm": 1.4481470584869385,
      "learning_rate": 2e-05,
      "loss": 0.8241,
      "step": 2622
    },
    {
      "epoch": 0.9054193993786676,
      "grad_norm": 1.382358193397522,
      "learning_rate": 2e-05,
      "loss": 0.9172,
      "step": 2623
    },
    {
      "epoch": 0.9057645840524681,
      "grad_norm": 1.426132321357727,
      "learning_rate": 2e-05,
      "loss": 0.8343,
      "step": 2624
    },
    {
      "epoch": 0.9061097687262686,
      "grad_norm": 1.4017832279205322,
      "learning_rate": 2e-05,
      "loss": 0.8186,
      "step": 2625
    },
    {
      "epoch": 0.906454953400069,
      "grad_norm": 1.3952010869979858,
      "learning_rate": 2e-05,
      "loss": 0.7863,
      "step": 2626
    },
    {
      "epoch": 0.9068001380738695,
      "grad_norm": 1.390770673751831,
      "learning_rate": 2e-05,
      "loss": 0.8152,
      "step": 2627
    },
    {
      "epoch": 0.90714532274767,
      "grad_norm": 1.3730207681655884,
      "learning_rate": 2e-05,
      "loss": 0.8547,
      "step": 2628
    },
    {
      "epoch": 0.9074905074214705,
      "grad_norm": 1.4409599304199219,
      "learning_rate": 2e-05,
      "loss": 0.8091,
      "step": 2629
    },
    {
      "epoch": 0.9078356920952709,
      "grad_norm": 1.3941560983657837,
      "learning_rate": 2e-05,
      "loss": 0.8592,
      "step": 2630
    },
    {
      "epoch": 0.9081808767690714,
      "grad_norm": 1.3159213066101074,
      "learning_rate": 2e-05,
      "loss": 0.8133,
      "step": 2631
    },
    {
      "epoch": 0.908526061442872,
      "grad_norm": 1.3855623006820679,
      "learning_rate": 2e-05,
      "loss": 0.822,
      "step": 2632
    },
    {
      "epoch": 0.9088712461166725,
      "grad_norm": 1.4421919584274292,
      "learning_rate": 2e-05,
      "loss": 0.8244,
      "step": 2633
    },
    {
      "epoch": 0.9092164307904729,
      "grad_norm": 1.3284204006195068,
      "learning_rate": 2e-05,
      "loss": 0.7875,
      "step": 2634
    },
    {
      "epoch": 0.9095616154642734,
      "grad_norm": 1.310359001159668,
      "learning_rate": 2e-05,
      "loss": 0.7712,
      "step": 2635
    },
    {
      "epoch": 0.9099068001380739,
      "grad_norm": 1.3715214729309082,
      "learning_rate": 2e-05,
      "loss": 0.7519,
      "step": 2636
    },
    {
      "epoch": 0.9102519848118743,
      "grad_norm": 1.3387380838394165,
      "learning_rate": 2e-05,
      "loss": 0.7827,
      "step": 2637
    },
    {
      "epoch": 0.9105971694856748,
      "grad_norm": 1.3850539922714233,
      "learning_rate": 2e-05,
      "loss": 0.9185,
      "step": 2638
    },
    {
      "epoch": 0.9109423541594753,
      "grad_norm": 1.3912004232406616,
      "learning_rate": 2e-05,
      "loss": 0.8281,
      "step": 2639
    },
    {
      "epoch": 0.9112875388332758,
      "grad_norm": 1.344510555267334,
      "learning_rate": 2e-05,
      "loss": 0.7918,
      "step": 2640
    },
    {
      "epoch": 0.9116327235070762,
      "grad_norm": 1.2509232759475708,
      "learning_rate": 2e-05,
      "loss": 0.7874,
      "step": 2641
    },
    {
      "epoch": 0.9119779081808768,
      "grad_norm": 1.291081190109253,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 2642
    },
    {
      "epoch": 0.9123230928546773,
      "grad_norm": 1.3355439901351929,
      "learning_rate": 2e-05,
      "loss": 0.8396,
      "step": 2643
    },
    {
      "epoch": 0.9126682775284778,
      "grad_norm": 1.2514042854309082,
      "learning_rate": 2e-05,
      "loss": 0.8163,
      "step": 2644
    },
    {
      "epoch": 0.9130134622022782,
      "grad_norm": 1.3820831775665283,
      "learning_rate": 2e-05,
      "loss": 0.7577,
      "step": 2645
    },
    {
      "epoch": 0.9133586468760787,
      "grad_norm": 1.3471238613128662,
      "learning_rate": 2e-05,
      "loss": 0.7848,
      "step": 2646
    },
    {
      "epoch": 0.9137038315498792,
      "grad_norm": 1.3287208080291748,
      "learning_rate": 2e-05,
      "loss": 0.7617,
      "step": 2647
    },
    {
      "epoch": 0.9140490162236796,
      "grad_norm": 1.429544448852539,
      "learning_rate": 2e-05,
      "loss": 0.8672,
      "step": 2648
    },
    {
      "epoch": 0.9143942008974801,
      "grad_norm": 1.206230640411377,
      "learning_rate": 2e-05,
      "loss": 0.7357,
      "step": 2649
    },
    {
      "epoch": 0.9147393855712806,
      "grad_norm": 1.3551461696624756,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 2650
    },
    {
      "epoch": 0.9150845702450812,
      "grad_norm": 1.3205339908599854,
      "learning_rate": 2e-05,
      "loss": 0.8199,
      "step": 2651
    },
    {
      "epoch": 0.9154297549188816,
      "grad_norm": 1.359634518623352,
      "learning_rate": 2e-05,
      "loss": 0.8083,
      "step": 2652
    },
    {
      "epoch": 0.9157749395926821,
      "grad_norm": 1.3150341510772705,
      "learning_rate": 2e-05,
      "loss": 0.8922,
      "step": 2653
    },
    {
      "epoch": 0.9161201242664826,
      "grad_norm": 1.4307610988616943,
      "learning_rate": 2e-05,
      "loss": 0.8565,
      "step": 2654
    },
    {
      "epoch": 0.916465308940283,
      "grad_norm": 1.3517242670059204,
      "learning_rate": 2e-05,
      "loss": 0.7892,
      "step": 2655
    },
    {
      "epoch": 0.9168104936140835,
      "grad_norm": 1.3160618543624878,
      "learning_rate": 2e-05,
      "loss": 0.7583,
      "step": 2656
    },
    {
      "epoch": 0.917155678287884,
      "grad_norm": 1.5054216384887695,
      "learning_rate": 2e-05,
      "loss": 0.7813,
      "step": 2657
    },
    {
      "epoch": 0.9175008629616845,
      "grad_norm": 1.3882098197937012,
      "learning_rate": 2e-05,
      "loss": 0.7384,
      "step": 2658
    },
    {
      "epoch": 0.9178460476354849,
      "grad_norm": 1.2479839324951172,
      "learning_rate": 2e-05,
      "loss": 0.7968,
      "step": 2659
    },
    {
      "epoch": 0.9181912323092855,
      "grad_norm": 1.379178762435913,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 2660
    },
    {
      "epoch": 0.918536416983086,
      "grad_norm": 1.3407231569290161,
      "learning_rate": 2e-05,
      "loss": 0.7858,
      "step": 2661
    },
    {
      "epoch": 0.9188816016568865,
      "grad_norm": 1.423590898513794,
      "learning_rate": 2e-05,
      "loss": 0.8081,
      "step": 2662
    },
    {
      "epoch": 0.9192267863306869,
      "grad_norm": 1.3600715398788452,
      "learning_rate": 2e-05,
      "loss": 0.8652,
      "step": 2663
    },
    {
      "epoch": 0.9195719710044874,
      "grad_norm": 1.3136701583862305,
      "learning_rate": 2e-05,
      "loss": 0.8191,
      "step": 2664
    },
    {
      "epoch": 0.9199171556782879,
      "grad_norm": 1.3047741651535034,
      "learning_rate": 2e-05,
      "loss": 0.7805,
      "step": 2665
    },
    {
      "epoch": 0.9202623403520883,
      "grad_norm": 1.4108607769012451,
      "learning_rate": 2e-05,
      "loss": 0.7983,
      "step": 2666
    },
    {
      "epoch": 0.9206075250258888,
      "grad_norm": 1.3478418588638306,
      "learning_rate": 2e-05,
      "loss": 0.8385,
      "step": 2667
    },
    {
      "epoch": 0.9209527096996893,
      "grad_norm": 1.356002926826477,
      "learning_rate": 2e-05,
      "loss": 0.7769,
      "step": 2668
    },
    {
      "epoch": 0.9212978943734899,
      "grad_norm": 1.343774676322937,
      "learning_rate": 2e-05,
      "loss": 0.8596,
      "step": 2669
    },
    {
      "epoch": 0.9216430790472903,
      "grad_norm": 1.3485865592956543,
      "learning_rate": 2e-05,
      "loss": 0.8012,
      "step": 2670
    },
    {
      "epoch": 0.9219882637210908,
      "grad_norm": 1.30348539352417,
      "learning_rate": 2e-05,
      "loss": 0.8246,
      "step": 2671
    },
    {
      "epoch": 0.9223334483948913,
      "grad_norm": 1.2424077987670898,
      "learning_rate": 2e-05,
      "loss": 0.8187,
      "step": 2672
    },
    {
      "epoch": 0.9226786330686918,
      "grad_norm": 1.3323203325271606,
      "learning_rate": 2e-05,
      "loss": 0.7767,
      "step": 2673
    },
    {
      "epoch": 0.9230238177424922,
      "grad_norm": 1.873105764389038,
      "learning_rate": 2e-05,
      "loss": 0.7931,
      "step": 2674
    },
    {
      "epoch": 0.9233690024162927,
      "grad_norm": 1.3071846961975098,
      "learning_rate": 2e-05,
      "loss": 0.7845,
      "step": 2675
    },
    {
      "epoch": 0.9237141870900932,
      "grad_norm": 1.4426591396331787,
      "learning_rate": 2e-05,
      "loss": 0.7792,
      "step": 2676
    },
    {
      "epoch": 0.9240593717638936,
      "grad_norm": 1.3366236686706543,
      "learning_rate": 2e-05,
      "loss": 0.8917,
      "step": 2677
    },
    {
      "epoch": 0.9244045564376941,
      "grad_norm": 1.365502953529358,
      "learning_rate": 2e-05,
      "loss": 0.8132,
      "step": 2678
    },
    {
      "epoch": 0.9247497411114947,
      "grad_norm": 1.4669923782348633,
      "learning_rate": 2e-05,
      "loss": 0.8374,
      "step": 2679
    },
    {
      "epoch": 0.9250949257852952,
      "grad_norm": 1.2658617496490479,
      "learning_rate": 2e-05,
      "loss": 0.8376,
      "step": 2680
    },
    {
      "epoch": 0.9254401104590956,
      "grad_norm": 1.2948812246322632,
      "learning_rate": 2e-05,
      "loss": 0.7574,
      "step": 2681
    },
    {
      "epoch": 0.9257852951328961,
      "grad_norm": 1.5454734563827515,
      "learning_rate": 2e-05,
      "loss": 0.8253,
      "step": 2682
    },
    {
      "epoch": 0.9261304798066966,
      "grad_norm": 1.3408256769180298,
      "learning_rate": 2e-05,
      "loss": 0.8422,
      "step": 2683
    },
    {
      "epoch": 0.9264756644804971,
      "grad_norm": 1.3109580278396606,
      "learning_rate": 2e-05,
      "loss": 0.8367,
      "step": 2684
    },
    {
      "epoch": 0.9268208491542975,
      "grad_norm": 1.446224570274353,
      "learning_rate": 2e-05,
      "loss": 0.7878,
      "step": 2685
    },
    {
      "epoch": 0.927166033828098,
      "grad_norm": 1.3195042610168457,
      "learning_rate": 2e-05,
      "loss": 0.834,
      "step": 2686
    },
    {
      "epoch": 0.9275112185018985,
      "grad_norm": 1.3547080755233765,
      "learning_rate": 2e-05,
      "loss": 0.794,
      "step": 2687
    },
    {
      "epoch": 0.927856403175699,
      "grad_norm": 1.3752707242965698,
      "learning_rate": 2e-05,
      "loss": 0.7541,
      "step": 2688
    },
    {
      "epoch": 0.9282015878494995,
      "grad_norm": 1.4710969924926758,
      "learning_rate": 2e-05,
      "loss": 0.818,
      "step": 2689
    },
    {
      "epoch": 0.9285467725233,
      "grad_norm": 1.4770828485488892,
      "learning_rate": 2e-05,
      "loss": 0.8747,
      "step": 2690
    },
    {
      "epoch": 0.9288919571971005,
      "grad_norm": 1.3592493534088135,
      "learning_rate": 2e-05,
      "loss": 0.791,
      "step": 2691
    },
    {
      "epoch": 0.9292371418709009,
      "grad_norm": 1.4608653783798218,
      "learning_rate": 2e-05,
      "loss": 0.8377,
      "step": 2692
    },
    {
      "epoch": 0.9295823265447014,
      "grad_norm": 1.3163635730743408,
      "learning_rate": 2e-05,
      "loss": 0.808,
      "step": 2693
    },
    {
      "epoch": 0.9299275112185019,
      "grad_norm": 1.7931066751480103,
      "learning_rate": 2e-05,
      "loss": 0.8002,
      "step": 2694
    },
    {
      "epoch": 0.9302726958923024,
      "grad_norm": 1.4205719232559204,
      "learning_rate": 2e-05,
      "loss": 0.8321,
      "step": 2695
    },
    {
      "epoch": 0.9306178805661028,
      "grad_norm": 1.60280442237854,
      "learning_rate": 2e-05,
      "loss": 0.8348,
      "step": 2696
    },
    {
      "epoch": 0.9309630652399034,
      "grad_norm": 1.3655979633331299,
      "learning_rate": 2e-05,
      "loss": 0.816,
      "step": 2697
    },
    {
      "epoch": 0.9313082499137039,
      "grad_norm": 1.3214056491851807,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 2698
    },
    {
      "epoch": 0.9316534345875043,
      "grad_norm": 1.1948964595794678,
      "learning_rate": 2e-05,
      "loss": 0.8646,
      "step": 2699
    },
    {
      "epoch": 0.9319986192613048,
      "grad_norm": 1.2867650985717773,
      "learning_rate": 2e-05,
      "loss": 0.7852,
      "step": 2700
    },
    {
      "epoch": 0.9323438039351053,
      "grad_norm": 1.493959665298462,
      "learning_rate": 2e-05,
      "loss": 0.8517,
      "step": 2701
    },
    {
      "epoch": 0.9326889886089058,
      "grad_norm": 1.4442509412765503,
      "learning_rate": 2e-05,
      "loss": 0.7997,
      "step": 2702
    },
    {
      "epoch": 0.9330341732827062,
      "grad_norm": 1.286946415901184,
      "learning_rate": 2e-05,
      "loss": 0.7365,
      "step": 2703
    },
    {
      "epoch": 0.9333793579565067,
      "grad_norm": 1.4316548109054565,
      "learning_rate": 2e-05,
      "loss": 0.8171,
      "step": 2704
    },
    {
      "epoch": 0.9337245426303072,
      "grad_norm": 1.4176275730133057,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 2705
    },
    {
      "epoch": 0.9340697273041076,
      "grad_norm": 1.4026390314102173,
      "learning_rate": 2e-05,
      "loss": 0.8206,
      "step": 2706
    },
    {
      "epoch": 0.9344149119779082,
      "grad_norm": 1.393144965171814,
      "learning_rate": 2e-05,
      "loss": 0.8219,
      "step": 2707
    },
    {
      "epoch": 0.9347600966517087,
      "grad_norm": 1.3252925872802734,
      "learning_rate": 2e-05,
      "loss": 0.8174,
      "step": 2708
    },
    {
      "epoch": 0.9351052813255092,
      "grad_norm": 1.5008676052093506,
      "learning_rate": 2e-05,
      "loss": 0.8603,
      "step": 2709
    },
    {
      "epoch": 0.9354504659993096,
      "grad_norm": 1.423327922821045,
      "learning_rate": 2e-05,
      "loss": 0.7777,
      "step": 2710
    },
    {
      "epoch": 0.9357956506731101,
      "grad_norm": 1.300514578819275,
      "learning_rate": 2e-05,
      "loss": 0.8344,
      "step": 2711
    },
    {
      "epoch": 0.9361408353469106,
      "grad_norm": 1.4971301555633545,
      "learning_rate": 2e-05,
      "loss": 0.8459,
      "step": 2712
    },
    {
      "epoch": 0.9364860200207111,
      "grad_norm": 1.4016495943069458,
      "learning_rate": 2e-05,
      "loss": 0.83,
      "step": 2713
    },
    {
      "epoch": 0.9368312046945115,
      "grad_norm": 1.339536190032959,
      "learning_rate": 2e-05,
      "loss": 0.7812,
      "step": 2714
    },
    {
      "epoch": 0.937176389368312,
      "grad_norm": 1.304887056350708,
      "learning_rate": 2e-05,
      "loss": 0.8022,
      "step": 2715
    },
    {
      "epoch": 0.9375215740421126,
      "grad_norm": 1.380537509918213,
      "learning_rate": 2e-05,
      "loss": 0.8533,
      "step": 2716
    },
    {
      "epoch": 0.937866758715913,
      "grad_norm": 1.3916668891906738,
      "learning_rate": 2e-05,
      "loss": 0.7929,
      "step": 2717
    },
    {
      "epoch": 0.9382119433897135,
      "grad_norm": 1.4196144342422485,
      "learning_rate": 2e-05,
      "loss": 0.8047,
      "step": 2718
    },
    {
      "epoch": 0.938557128063514,
      "grad_norm": 1.3007547855377197,
      "learning_rate": 2e-05,
      "loss": 0.762,
      "step": 2719
    },
    {
      "epoch": 0.9389023127373145,
      "grad_norm": 1.3690677881240845,
      "learning_rate": 2e-05,
      "loss": 0.786,
      "step": 2720
    },
    {
      "epoch": 0.9392474974111149,
      "grad_norm": 1.343783974647522,
      "learning_rate": 2e-05,
      "loss": 0.8622,
      "step": 2721
    },
    {
      "epoch": 0.9395926820849154,
      "grad_norm": 1.2759895324707031,
      "learning_rate": 2e-05,
      "loss": 0.873,
      "step": 2722
    },
    {
      "epoch": 0.9399378667587159,
      "grad_norm": 1.702405571937561,
      "learning_rate": 2e-05,
      "loss": 0.839,
      "step": 2723
    },
    {
      "epoch": 0.9402830514325164,
      "grad_norm": 1.4503710269927979,
      "learning_rate": 2e-05,
      "loss": 0.8806,
      "step": 2724
    },
    {
      "epoch": 0.9406282361063169,
      "grad_norm": 1.308638095855713,
      "learning_rate": 2e-05,
      "loss": 0.853,
      "step": 2725
    },
    {
      "epoch": 0.9409734207801174,
      "grad_norm": 1.315894365310669,
      "learning_rate": 2e-05,
      "loss": 0.7359,
      "step": 2726
    },
    {
      "epoch": 0.9413186054539179,
      "grad_norm": 1.387722373008728,
      "learning_rate": 2e-05,
      "loss": 0.7581,
      "step": 2727
    },
    {
      "epoch": 0.9416637901277183,
      "grad_norm": 1.3379207849502563,
      "learning_rate": 2e-05,
      "loss": 0.7796,
      "step": 2728
    },
    {
      "epoch": 0.9420089748015188,
      "grad_norm": 3.0901389122009277,
      "learning_rate": 2e-05,
      "loss": 0.84,
      "step": 2729
    },
    {
      "epoch": 0.9423541594753193,
      "grad_norm": 1.506187081336975,
      "learning_rate": 2e-05,
      "loss": 0.8793,
      "step": 2730
    },
    {
      "epoch": 0.9426993441491198,
      "grad_norm": 1.3650349378585815,
      "learning_rate": 2e-05,
      "loss": 0.8253,
      "step": 2731
    },
    {
      "epoch": 0.9430445288229202,
      "grad_norm": 1.2527567148208618,
      "learning_rate": 2e-05,
      "loss": 0.7755,
      "step": 2732
    },
    {
      "epoch": 0.9433897134967207,
      "grad_norm": 1.1694625616073608,
      "learning_rate": 2e-05,
      "loss": 0.7753,
      "step": 2733
    },
    {
      "epoch": 0.9437348981705213,
      "grad_norm": 1.3974089622497559,
      "learning_rate": 2e-05,
      "loss": 0.7872,
      "step": 2734
    },
    {
      "epoch": 0.9440800828443218,
      "grad_norm": 1.4121971130371094,
      "learning_rate": 2e-05,
      "loss": 0.7839,
      "step": 2735
    },
    {
      "epoch": 0.9444252675181222,
      "grad_norm": 1.258926272392273,
      "learning_rate": 2e-05,
      "loss": 0.8367,
      "step": 2736
    },
    {
      "epoch": 0.9447704521919227,
      "grad_norm": 1.3013569116592407,
      "learning_rate": 2e-05,
      "loss": 0.8652,
      "step": 2737
    },
    {
      "epoch": 0.9451156368657232,
      "grad_norm": 1.3868825435638428,
      "learning_rate": 2e-05,
      "loss": 0.7864,
      "step": 2738
    },
    {
      "epoch": 0.9454608215395236,
      "grad_norm": 1.4176455736160278,
      "learning_rate": 2e-05,
      "loss": 0.856,
      "step": 2739
    },
    {
      "epoch": 0.9458060062133241,
      "grad_norm": 1.4145054817199707,
      "learning_rate": 2e-05,
      "loss": 0.8195,
      "step": 2740
    },
    {
      "epoch": 0.9461511908871246,
      "grad_norm": 1.3012871742248535,
      "learning_rate": 2e-05,
      "loss": 0.8991,
      "step": 2741
    },
    {
      "epoch": 0.9464963755609251,
      "grad_norm": 1.3212898969650269,
      "learning_rate": 2e-05,
      "loss": 0.8497,
      "step": 2742
    },
    {
      "epoch": 0.9468415602347255,
      "grad_norm": 1.3836159706115723,
      "learning_rate": 2e-05,
      "loss": 0.855,
      "step": 2743
    },
    {
      "epoch": 0.9471867449085261,
      "grad_norm": 1.2965937852859497,
      "learning_rate": 2e-05,
      "loss": 0.8009,
      "step": 2744
    },
    {
      "epoch": 0.9475319295823266,
      "grad_norm": 1.7415459156036377,
      "learning_rate": 2e-05,
      "loss": 0.8172,
      "step": 2745
    },
    {
      "epoch": 0.947877114256127,
      "grad_norm": 1.2320330142974854,
      "learning_rate": 2e-05,
      "loss": 0.7449,
      "step": 2746
    },
    {
      "epoch": 0.9482222989299275,
      "grad_norm": 1.276434302330017,
      "learning_rate": 2e-05,
      "loss": 0.7573,
      "step": 2747
    },
    {
      "epoch": 0.948567483603728,
      "grad_norm": 1.2988816499710083,
      "learning_rate": 2e-05,
      "loss": 0.8297,
      "step": 2748
    },
    {
      "epoch": 0.9489126682775285,
      "grad_norm": 1.372390866279602,
      "learning_rate": 2e-05,
      "loss": 0.793,
      "step": 2749
    },
    {
      "epoch": 0.9492578529513289,
      "grad_norm": 1.5488866567611694,
      "learning_rate": 2e-05,
      "loss": 0.7729,
      "step": 2750
    },
    {
      "epoch": 0.9496030376251294,
      "grad_norm": 1.3167011737823486,
      "learning_rate": 2e-05,
      "loss": 0.8162,
      "step": 2751
    },
    {
      "epoch": 0.94994822229893,
      "grad_norm": 1.4987397193908691,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 2752
    },
    {
      "epoch": 0.9502934069727305,
      "grad_norm": 1.3835560083389282,
      "learning_rate": 2e-05,
      "loss": 0.8043,
      "step": 2753
    },
    {
      "epoch": 0.9506385916465309,
      "grad_norm": 1.4742082357406616,
      "learning_rate": 2e-05,
      "loss": 0.8902,
      "step": 2754
    },
    {
      "epoch": 0.9509837763203314,
      "grad_norm": 1.193882942199707,
      "learning_rate": 2e-05,
      "loss": 0.8278,
      "step": 2755
    },
    {
      "epoch": 0.9513289609941319,
      "grad_norm": 1.3273842334747314,
      "learning_rate": 2e-05,
      "loss": 0.8328,
      "step": 2756
    },
    {
      "epoch": 0.9516741456679323,
      "grad_norm": 1.4095230102539062,
      "learning_rate": 2e-05,
      "loss": 0.8414,
      "step": 2757
    },
    {
      "epoch": 0.9520193303417328,
      "grad_norm": 1.418772578239441,
      "learning_rate": 2e-05,
      "loss": 0.841,
      "step": 2758
    },
    {
      "epoch": 0.9523645150155333,
      "grad_norm": 1.2445440292358398,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 2759
    },
    {
      "epoch": 0.9527096996893338,
      "grad_norm": 1.3142421245574951,
      "learning_rate": 2e-05,
      "loss": 0.8307,
      "step": 2760
    },
    {
      "epoch": 0.9530548843631342,
      "grad_norm": 1.5182973146438599,
      "learning_rate": 2e-05,
      "loss": 0.8618,
      "step": 2761
    },
    {
      "epoch": 0.9534000690369347,
      "grad_norm": 1.9179059267044067,
      "learning_rate": 2e-05,
      "loss": 0.8424,
      "step": 2762
    },
    {
      "epoch": 0.9537452537107353,
      "grad_norm": 1.3494774103164673,
      "learning_rate": 2e-05,
      "loss": 0.9012,
      "step": 2763
    },
    {
      "epoch": 0.9540904383845358,
      "grad_norm": 1.399460792541504,
      "learning_rate": 2e-05,
      "loss": 0.8198,
      "step": 2764
    },
    {
      "epoch": 0.9544356230583362,
      "grad_norm": 1.348638892173767,
      "learning_rate": 2e-05,
      "loss": 0.8481,
      "step": 2765
    },
    {
      "epoch": 0.9547808077321367,
      "grad_norm": 1.2367138862609863,
      "learning_rate": 2e-05,
      "loss": 0.8495,
      "step": 2766
    },
    {
      "epoch": 0.9551259924059372,
      "grad_norm": 1.3443820476531982,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 2767
    },
    {
      "epoch": 0.9554711770797376,
      "grad_norm": 1.5441604852676392,
      "learning_rate": 2e-05,
      "loss": 0.8088,
      "step": 2768
    },
    {
      "epoch": 0.9558163617535381,
      "grad_norm": 1.313813328742981,
      "learning_rate": 2e-05,
      "loss": 0.8452,
      "step": 2769
    },
    {
      "epoch": 0.9561615464273386,
      "grad_norm": 1.286370873451233,
      "learning_rate": 2e-05,
      "loss": 0.8189,
      "step": 2770
    },
    {
      "epoch": 0.9565067311011392,
      "grad_norm": 1.2800922393798828,
      "learning_rate": 2e-05,
      "loss": 0.789,
      "step": 2771
    },
    {
      "epoch": 0.9568519157749396,
      "grad_norm": 1.4538698196411133,
      "learning_rate": 2e-05,
      "loss": 0.8434,
      "step": 2772
    },
    {
      "epoch": 0.9571971004487401,
      "grad_norm": 1.3098770380020142,
      "learning_rate": 2e-05,
      "loss": 0.8334,
      "step": 2773
    },
    {
      "epoch": 0.9575422851225406,
      "grad_norm": 1.362221598625183,
      "learning_rate": 2e-05,
      "loss": 0.8364,
      "step": 2774
    },
    {
      "epoch": 0.9578874697963411,
      "grad_norm": 1.3045060634613037,
      "learning_rate": 2e-05,
      "loss": 0.8469,
      "step": 2775
    },
    {
      "epoch": 0.9582326544701415,
      "grad_norm": 1.2828634977340698,
      "learning_rate": 2e-05,
      "loss": 0.803,
      "step": 2776
    },
    {
      "epoch": 0.958577839143942,
      "grad_norm": 1.4637404680252075,
      "learning_rate": 2e-05,
      "loss": 0.8397,
      "step": 2777
    },
    {
      "epoch": 0.9589230238177425,
      "grad_norm": 1.3976727724075317,
      "learning_rate": 2e-05,
      "loss": 0.8242,
      "step": 2778
    },
    {
      "epoch": 0.9592682084915429,
      "grad_norm": 1.3930306434631348,
      "learning_rate": 2e-05,
      "loss": 0.8609,
      "step": 2779
    },
    {
      "epoch": 0.9596133931653434,
      "grad_norm": 1.4062150716781616,
      "learning_rate": 2e-05,
      "loss": 0.7269,
      "step": 2780
    },
    {
      "epoch": 0.959958577839144,
      "grad_norm": 1.5034116506576538,
      "learning_rate": 2e-05,
      "loss": 0.8443,
      "step": 2781
    },
    {
      "epoch": 0.9603037625129445,
      "grad_norm": 1.3694462776184082,
      "learning_rate": 2e-05,
      "loss": 0.8294,
      "step": 2782
    },
    {
      "epoch": 0.9606489471867449,
      "grad_norm": 1.3651988506317139,
      "learning_rate": 2e-05,
      "loss": 0.7864,
      "step": 2783
    },
    {
      "epoch": 0.9609941318605454,
      "grad_norm": 1.3245465755462646,
      "learning_rate": 2e-05,
      "loss": 0.8806,
      "step": 2784
    },
    {
      "epoch": 0.9613393165343459,
      "grad_norm": 1.3466325998306274,
      "learning_rate": 2e-05,
      "loss": 0.7993,
      "step": 2785
    },
    {
      "epoch": 0.9616845012081463,
      "grad_norm": 1.34409761428833,
      "learning_rate": 2e-05,
      "loss": 0.7618,
      "step": 2786
    },
    {
      "epoch": 0.9620296858819468,
      "grad_norm": 1.3985042572021484,
      "learning_rate": 2e-05,
      "loss": 0.7209,
      "step": 2787
    },
    {
      "epoch": 0.9623748705557473,
      "grad_norm": 1.3541889190673828,
      "learning_rate": 2e-05,
      "loss": 0.7815,
      "step": 2788
    },
    {
      "epoch": 0.9627200552295478,
      "grad_norm": 1.3142658472061157,
      "learning_rate": 2e-05,
      "loss": 0.8913,
      "step": 2789
    },
    {
      "epoch": 0.9630652399033482,
      "grad_norm": 1.3162771463394165,
      "learning_rate": 2e-05,
      "loss": 0.8194,
      "step": 2790
    },
    {
      "epoch": 0.9634104245771488,
      "grad_norm": 1.2426544427871704,
      "learning_rate": 2e-05,
      "loss": 0.7563,
      "step": 2791
    },
    {
      "epoch": 0.9637556092509493,
      "grad_norm": 1.3629167079925537,
      "learning_rate": 2e-05,
      "loss": 0.8183,
      "step": 2792
    },
    {
      "epoch": 0.9641007939247498,
      "grad_norm": 1.3811759948730469,
      "learning_rate": 2e-05,
      "loss": 0.8175,
      "step": 2793
    },
    {
      "epoch": 0.9644459785985502,
      "grad_norm": 1.3558896780014038,
      "learning_rate": 2e-05,
      "loss": 0.8154,
      "step": 2794
    },
    {
      "epoch": 0.9647911632723507,
      "grad_norm": 1.3351285457611084,
      "learning_rate": 2e-05,
      "loss": 0.8367,
      "step": 2795
    },
    {
      "epoch": 0.9651363479461512,
      "grad_norm": 1.410885214805603,
      "learning_rate": 2e-05,
      "loss": 0.7371,
      "step": 2796
    },
    {
      "epoch": 0.9654815326199516,
      "grad_norm": 1.3573541641235352,
      "learning_rate": 2e-05,
      "loss": 0.7754,
      "step": 2797
    },
    {
      "epoch": 0.9658267172937521,
      "grad_norm": 1.4272741079330444,
      "learning_rate": 2e-05,
      "loss": 0.8565,
      "step": 2798
    },
    {
      "epoch": 0.9661719019675526,
      "grad_norm": 1.4249638319015503,
      "learning_rate": 2e-05,
      "loss": 0.8064,
      "step": 2799
    },
    {
      "epoch": 0.9665170866413532,
      "grad_norm": 1.30806565284729,
      "learning_rate": 2e-05,
      "loss": 0.8112,
      "step": 2800
    },
    {
      "epoch": 0.9668622713151536,
      "grad_norm": 1.2862144708633423,
      "learning_rate": 2e-05,
      "loss": 0.7779,
      "step": 2801
    },
    {
      "epoch": 0.9672074559889541,
      "grad_norm": 1.353074312210083,
      "learning_rate": 2e-05,
      "loss": 0.8086,
      "step": 2802
    },
    {
      "epoch": 0.9675526406627546,
      "grad_norm": 1.350237488746643,
      "learning_rate": 2e-05,
      "loss": 0.8598,
      "step": 2803
    },
    {
      "epoch": 0.9678978253365551,
      "grad_norm": 1.3188745975494385,
      "learning_rate": 2e-05,
      "loss": 0.8126,
      "step": 2804
    },
    {
      "epoch": 0.9682430100103555,
      "grad_norm": 1.4622128009796143,
      "learning_rate": 2e-05,
      "loss": 0.8346,
      "step": 2805
    },
    {
      "epoch": 0.968588194684156,
      "grad_norm": 1.4756392240524292,
      "learning_rate": 2e-05,
      "loss": 0.8459,
      "step": 2806
    },
    {
      "epoch": 0.9689333793579565,
      "grad_norm": 1.3214640617370605,
      "learning_rate": 2e-05,
      "loss": 0.8115,
      "step": 2807
    },
    {
      "epoch": 0.9692785640317569,
      "grad_norm": 1.3182181119918823,
      "learning_rate": 2e-05,
      "loss": 0.8441,
      "step": 2808
    },
    {
      "epoch": 0.9696237487055575,
      "grad_norm": 1.3547407388687134,
      "learning_rate": 2e-05,
      "loss": 0.7636,
      "step": 2809
    },
    {
      "epoch": 0.969968933379358,
      "grad_norm": 1.4224411249160767,
      "learning_rate": 2e-05,
      "loss": 0.8924,
      "step": 2810
    },
    {
      "epoch": 0.9703141180531585,
      "grad_norm": 1.277312994003296,
      "learning_rate": 2e-05,
      "loss": 0.7645,
      "step": 2811
    },
    {
      "epoch": 0.9706593027269589,
      "grad_norm": 1.3635456562042236,
      "learning_rate": 2e-05,
      "loss": 0.7622,
      "step": 2812
    },
    {
      "epoch": 0.9710044874007594,
      "grad_norm": 1.4387191534042358,
      "learning_rate": 2e-05,
      "loss": 0.8383,
      "step": 2813
    },
    {
      "epoch": 0.9713496720745599,
      "grad_norm": 1.3832597732543945,
      "learning_rate": 2e-05,
      "loss": 0.8051,
      "step": 2814
    },
    {
      "epoch": 0.9716948567483604,
      "grad_norm": 1.3268486261367798,
      "learning_rate": 2e-05,
      "loss": 0.8216,
      "step": 2815
    },
    {
      "epoch": 0.9720400414221608,
      "grad_norm": 1.296356439590454,
      "learning_rate": 2e-05,
      "loss": 0.7262,
      "step": 2816
    },
    {
      "epoch": 0.9723852260959613,
      "grad_norm": 1.5151501893997192,
      "learning_rate": 2e-05,
      "loss": 0.7843,
      "step": 2817
    },
    {
      "epoch": 0.9727304107697619,
      "grad_norm": 1.3548368215560913,
      "learning_rate": 2e-05,
      "loss": 0.7961,
      "step": 2818
    },
    {
      "epoch": 0.9730755954435623,
      "grad_norm": 1.4681123495101929,
      "learning_rate": 2e-05,
      "loss": 0.8448,
      "step": 2819
    },
    {
      "epoch": 0.9734207801173628,
      "grad_norm": 1.2965503931045532,
      "learning_rate": 2e-05,
      "loss": 0.8122,
      "step": 2820
    },
    {
      "epoch": 0.9737659647911633,
      "grad_norm": 1.3539406061172485,
      "learning_rate": 2e-05,
      "loss": 0.837,
      "step": 2821
    },
    {
      "epoch": 0.9741111494649638,
      "grad_norm": 1.4157789945602417,
      "learning_rate": 2e-05,
      "loss": 0.9008,
      "step": 2822
    },
    {
      "epoch": 0.9744563341387642,
      "grad_norm": 1.3998486995697021,
      "learning_rate": 2e-05,
      "loss": 0.8214,
      "step": 2823
    },
    {
      "epoch": 0.9748015188125647,
      "grad_norm": 1.4404338598251343,
      "learning_rate": 2e-05,
      "loss": 0.7362,
      "step": 2824
    },
    {
      "epoch": 0.9751467034863652,
      "grad_norm": 1.2578259706497192,
      "learning_rate": 2e-05,
      "loss": 0.6693,
      "step": 2825
    },
    {
      "epoch": 0.9754918881601657,
      "grad_norm": 1.2560174465179443,
      "learning_rate": 2e-05,
      "loss": 0.8272,
      "step": 2826
    },
    {
      "epoch": 0.9758370728339661,
      "grad_norm": 1.29400634765625,
      "learning_rate": 2e-05,
      "loss": 0.8364,
      "step": 2827
    },
    {
      "epoch": 0.9761822575077667,
      "grad_norm": 1.363163948059082,
      "learning_rate": 2e-05,
      "loss": 0.7544,
      "step": 2828
    },
    {
      "epoch": 0.9765274421815672,
      "grad_norm": 1.2726210355758667,
      "learning_rate": 2e-05,
      "loss": 0.7461,
      "step": 2829
    },
    {
      "epoch": 0.9768726268553676,
      "grad_norm": 1.251510739326477,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 2830
    },
    {
      "epoch": 0.9772178115291681,
      "grad_norm": 1.3311549425125122,
      "learning_rate": 2e-05,
      "loss": 0.8281,
      "step": 2831
    },
    {
      "epoch": 0.9775629962029686,
      "grad_norm": 1.3801089525222778,
      "learning_rate": 2e-05,
      "loss": 0.8008,
      "step": 2832
    },
    {
      "epoch": 0.9779081808767691,
      "grad_norm": 1.3042324781417847,
      "learning_rate": 2e-05,
      "loss": 0.8143,
      "step": 2833
    },
    {
      "epoch": 0.9782533655505695,
      "grad_norm": 1.3324576616287231,
      "learning_rate": 2e-05,
      "loss": 0.841,
      "step": 2834
    },
    {
      "epoch": 0.97859855022437,
      "grad_norm": 1.1588470935821533,
      "learning_rate": 2e-05,
      "loss": 0.7766,
      "step": 2835
    },
    {
      "epoch": 0.9789437348981705,
      "grad_norm": 1.4038652181625366,
      "learning_rate": 2e-05,
      "loss": 0.8342,
      "step": 2836
    },
    {
      "epoch": 0.979288919571971,
      "grad_norm": 1.2909812927246094,
      "learning_rate": 2e-05,
      "loss": 0.7836,
      "step": 2837
    },
    {
      "epoch": 0.9796341042457715,
      "grad_norm": 1.360243558883667,
      "learning_rate": 2e-05,
      "loss": 0.7796,
      "step": 2838
    },
    {
      "epoch": 0.979979288919572,
      "grad_norm": 1.4573485851287842,
      "learning_rate": 2e-05,
      "loss": 0.792,
      "step": 2839
    },
    {
      "epoch": 0.9803244735933725,
      "grad_norm": 1.4242528676986694,
      "learning_rate": 2e-05,
      "loss": 0.8047,
      "step": 2840
    },
    {
      "epoch": 0.9806696582671729,
      "grad_norm": 1.3102824687957764,
      "learning_rate": 2e-05,
      "loss": 0.7335,
      "step": 2841
    },
    {
      "epoch": 0.9810148429409734,
      "grad_norm": 1.3768057823181152,
      "learning_rate": 2e-05,
      "loss": 0.7482,
      "step": 2842
    },
    {
      "epoch": 0.9813600276147739,
      "grad_norm": 1.4641114473342896,
      "learning_rate": 2e-05,
      "loss": 0.8541,
      "step": 2843
    },
    {
      "epoch": 0.9817052122885744,
      "grad_norm": 1.449021339416504,
      "learning_rate": 2e-05,
      "loss": 0.816,
      "step": 2844
    },
    {
      "epoch": 0.9820503969623748,
      "grad_norm": 1.4331958293914795,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 2845
    },
    {
      "epoch": 0.9823955816361754,
      "grad_norm": 1.3079890012741089,
      "learning_rate": 2e-05,
      "loss": 0.77,
      "step": 2846
    },
    {
      "epoch": 0.9827407663099759,
      "grad_norm": 1.3646252155303955,
      "learning_rate": 2e-05,
      "loss": 0.779,
      "step": 2847
    },
    {
      "epoch": 0.9830859509837763,
      "grad_norm": 1.2886699438095093,
      "learning_rate": 2e-05,
      "loss": 0.7838,
      "step": 2848
    },
    {
      "epoch": 0.9834311356575768,
      "grad_norm": 1.2872546911239624,
      "learning_rate": 2e-05,
      "loss": 0.739,
      "step": 2849
    },
    {
      "epoch": 0.9837763203313773,
      "grad_norm": 1.2964444160461426,
      "learning_rate": 2e-05,
      "loss": 0.8219,
      "step": 2850
    },
    {
      "epoch": 0.9841215050051778,
      "grad_norm": 1.3067742586135864,
      "learning_rate": 2e-05,
      "loss": 0.7045,
      "step": 2851
    },
    {
      "epoch": 0.9844666896789782,
      "grad_norm": 1.1694449186325073,
      "learning_rate": 2e-05,
      "loss": 0.7456,
      "step": 2852
    },
    {
      "epoch": 0.9848118743527787,
      "grad_norm": 1.3977915048599243,
      "learning_rate": 2e-05,
      "loss": 0.846,
      "step": 2853
    },
    {
      "epoch": 0.9851570590265792,
      "grad_norm": 1.2598475217819214,
      "learning_rate": 2e-05,
      "loss": 0.8737,
      "step": 2854
    },
    {
      "epoch": 0.9855022437003798,
      "grad_norm": 1.3016914129257202,
      "learning_rate": 2e-05,
      "loss": 0.8136,
      "step": 2855
    },
    {
      "epoch": 0.9858474283741802,
      "grad_norm": 1.316004753112793,
      "learning_rate": 2e-05,
      "loss": 0.7886,
      "step": 2856
    },
    {
      "epoch": 0.9861926130479807,
      "grad_norm": 1.3672279119491577,
      "learning_rate": 2e-05,
      "loss": 0.7822,
      "step": 2857
    },
    {
      "epoch": 0.9865377977217812,
      "grad_norm": 1.3007529973983765,
      "learning_rate": 2e-05,
      "loss": 0.8418,
      "step": 2858
    },
    {
      "epoch": 0.9868829823955816,
      "grad_norm": 1.3253084421157837,
      "learning_rate": 2e-05,
      "loss": 0.8141,
      "step": 2859
    },
    {
      "epoch": 0.9872281670693821,
      "grad_norm": 1.3867205381393433,
      "learning_rate": 2e-05,
      "loss": 0.795,
      "step": 2860
    },
    {
      "epoch": 0.9875733517431826,
      "grad_norm": 1.4412115812301636,
      "learning_rate": 2e-05,
      "loss": 0.8927,
      "step": 2861
    },
    {
      "epoch": 0.9879185364169831,
      "grad_norm": 1.4053255319595337,
      "learning_rate": 2e-05,
      "loss": 0.7403,
      "step": 2862
    },
    {
      "epoch": 0.9882637210907835,
      "grad_norm": 1.3612619638442993,
      "learning_rate": 2e-05,
      "loss": 0.8149,
      "step": 2863
    },
    {
      "epoch": 0.988608905764584,
      "grad_norm": 1.379818320274353,
      "learning_rate": 2e-05,
      "loss": 0.8254,
      "step": 2864
    },
    {
      "epoch": 0.9889540904383846,
      "grad_norm": 1.3783676624298096,
      "learning_rate": 2e-05,
      "loss": 0.8146,
      "step": 2865
    },
    {
      "epoch": 0.9892992751121851,
      "grad_norm": 1.238942265510559,
      "learning_rate": 2e-05,
      "loss": 0.7171,
      "step": 2866
    },
    {
      "epoch": 0.9896444597859855,
      "grad_norm": 1.325398564338684,
      "learning_rate": 2e-05,
      "loss": 0.787,
      "step": 2867
    },
    {
      "epoch": 0.989989644459786,
      "grad_norm": 1.2625563144683838,
      "learning_rate": 2e-05,
      "loss": 0.8127,
      "step": 2868
    },
    {
      "epoch": 0.9903348291335865,
      "grad_norm": 1.3184268474578857,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 2869
    },
    {
      "epoch": 0.9906800138073869,
      "grad_norm": 1.3231604099273682,
      "learning_rate": 2e-05,
      "loss": 0.6836,
      "step": 2870
    },
    {
      "epoch": 0.9910251984811874,
      "grad_norm": 1.3756386041641235,
      "learning_rate": 2e-05,
      "loss": 0.7988,
      "step": 2871
    },
    {
      "epoch": 0.9913703831549879,
      "grad_norm": 1.4766066074371338,
      "learning_rate": 2e-05,
      "loss": 0.9042,
      "step": 2872
    },
    {
      "epoch": 0.9917155678287884,
      "grad_norm": 1.3318634033203125,
      "learning_rate": 2e-05,
      "loss": 0.867,
      "step": 2873
    },
    {
      "epoch": 0.9920607525025888,
      "grad_norm": 1.5600178241729736,
      "learning_rate": 2e-05,
      "loss": 0.806,
      "step": 2874
    },
    {
      "epoch": 0.9924059371763894,
      "grad_norm": 1.369720697402954,
      "learning_rate": 2e-05,
      "loss": 0.8111,
      "step": 2875
    },
    {
      "epoch": 0.9927511218501899,
      "grad_norm": 1.5363420248031616,
      "learning_rate": 2e-05,
      "loss": 0.8172,
      "step": 2876
    },
    {
      "epoch": 0.9930963065239903,
      "grad_norm": 1.3969521522521973,
      "learning_rate": 2e-05,
      "loss": 0.794,
      "step": 2877
    },
    {
      "epoch": 0.9934414911977908,
      "grad_norm": 1.3785208463668823,
      "learning_rate": 2e-05,
      "loss": 0.832,
      "step": 2878
    },
    {
      "epoch": 0.9937866758715913,
      "grad_norm": 1.449549913406372,
      "learning_rate": 2e-05,
      "loss": 0.8581,
      "step": 2879
    },
    {
      "epoch": 0.9941318605453918,
      "grad_norm": 1.404681921005249,
      "learning_rate": 2e-05,
      "loss": 0.7669,
      "step": 2880
    },
    {
      "epoch": 0.9944770452191922,
      "grad_norm": 1.3706358671188354,
      "learning_rate": 2e-05,
      "loss": 0.8531,
      "step": 2881
    },
    {
      "epoch": 0.9948222298929927,
      "grad_norm": 1.3516907691955566,
      "learning_rate": 2e-05,
      "loss": 0.713,
      "step": 2882
    },
    {
      "epoch": 0.9951674145667933,
      "grad_norm": 1.272314429283142,
      "learning_rate": 2e-05,
      "loss": 0.7861,
      "step": 2883
    },
    {
      "epoch": 0.9955125992405938,
      "grad_norm": 1.395363688468933,
      "learning_rate": 2e-05,
      "loss": 0.841,
      "step": 2884
    },
    {
      "epoch": 0.9958577839143942,
      "grad_norm": 1.3397079706192017,
      "learning_rate": 2e-05,
      "loss": 0.7738,
      "step": 2885
    },
    {
      "epoch": 0.9962029685881947,
      "grad_norm": 1.3450727462768555,
      "learning_rate": 2e-05,
      "loss": 0.8087,
      "step": 2886
    },
    {
      "epoch": 0.9965481532619952,
      "grad_norm": 1.2818045616149902,
      "learning_rate": 2e-05,
      "loss": 0.8359,
      "step": 2887
    },
    {
      "epoch": 0.9968933379357956,
      "grad_norm": 1.1972836256027222,
      "learning_rate": 2e-05,
      "loss": 0.7678,
      "step": 2888
    },
    {
      "epoch": 0.9972385226095961,
      "grad_norm": 1.2423807382583618,
      "learning_rate": 2e-05,
      "loss": 0.7765,
      "step": 2889
    },
    {
      "epoch": 0.9975837072833966,
      "grad_norm": 1.4500845670700073,
      "learning_rate": 2e-05,
      "loss": 0.8375,
      "step": 2890
    },
    {
      "epoch": 0.9979288919571971,
      "grad_norm": 1.2590125799179077,
      "learning_rate": 2e-05,
      "loss": 0.8938,
      "step": 2891
    },
    {
      "epoch": 0.9982740766309975,
      "grad_norm": 1.3855303525924683,
      "learning_rate": 2e-05,
      "loss": 0.7887,
      "step": 2892
    },
    {
      "epoch": 0.9986192613047981,
      "grad_norm": 1.3009049892425537,
      "learning_rate": 2e-05,
      "loss": 0.7749,
      "step": 2893
    },
    {
      "epoch": 0.9989644459785986,
      "grad_norm": 1.583392858505249,
      "learning_rate": 2e-05,
      "loss": 0.7927,
      "step": 2894
    },
    {
      "epoch": 0.9993096306523991,
      "grad_norm": 1.4247666597366333,
      "learning_rate": 2e-05,
      "loss": 0.9044,
      "step": 2895
    },
    {
      "epoch": 0.9996548153261995,
      "grad_norm": 1.2447738647460938,
      "learning_rate": 2e-05,
      "loss": 0.8083,
      "step": 2896
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2791438102722168,
      "learning_rate": 2e-05,
      "loss": 0.8048,
      "step": 2897
    },
    {
      "epoch": 1.0003451846738005,
      "grad_norm": 1.4202303886413574,
      "learning_rate": 2e-05,
      "loss": 0.7548,
      "step": 2898
    },
    {
      "epoch": 1.000690369347601,
      "grad_norm": 1.3119077682495117,
      "learning_rate": 2e-05,
      "loss": 0.7509,
      "step": 2899
    },
    {
      "epoch": 1.0010355540214015,
      "grad_norm": 1.3339440822601318,
      "learning_rate": 2e-05,
      "loss": 0.796,
      "step": 2900
    },
    {
      "epoch": 1.0013807386952018,
      "grad_norm": 1.3303554058074951,
      "learning_rate": 2e-05,
      "loss": 0.8788,
      "step": 2901
    },
    {
      "epoch": 1.0017259233690023,
      "grad_norm": 1.311545729637146,
      "learning_rate": 2e-05,
      "loss": 0.7046,
      "step": 2902
    },
    {
      "epoch": 1.0020711080428029,
      "grad_norm": 1.4121378660202026,
      "learning_rate": 2e-05,
      "loss": 0.7716,
      "step": 2903
    },
    {
      "epoch": 1.0024162927166034,
      "grad_norm": 1.274359107017517,
      "learning_rate": 2e-05,
      "loss": 0.8367,
      "step": 2904
    },
    {
      "epoch": 1.0027614773904039,
      "grad_norm": 1.2967978715896606,
      "learning_rate": 2e-05,
      "loss": 0.7307,
      "step": 2905
    },
    {
      "epoch": 1.0031066620642044,
      "grad_norm": 1.4853241443634033,
      "learning_rate": 2e-05,
      "loss": 0.8316,
      "step": 2906
    },
    {
      "epoch": 1.003451846738005,
      "grad_norm": 1.198706030845642,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 2907
    },
    {
      "epoch": 1.0037970314118052,
      "grad_norm": 1.2872345447540283,
      "learning_rate": 2e-05,
      "loss": 0.831,
      "step": 2908
    },
    {
      "epoch": 1.0041422160856057,
      "grad_norm": 1.405186414718628,
      "learning_rate": 2e-05,
      "loss": 0.7817,
      "step": 2909
    },
    {
      "epoch": 1.0044874007594062,
      "grad_norm": 1.4067550897598267,
      "learning_rate": 2e-05,
      "loss": 0.8518,
      "step": 2910
    },
    {
      "epoch": 1.0048325854332067,
      "grad_norm": 1.4447804689407349,
      "learning_rate": 2e-05,
      "loss": 0.915,
      "step": 2911
    },
    {
      "epoch": 1.0051777701070073,
      "grad_norm": 1.4648395776748657,
      "learning_rate": 2e-05,
      "loss": 0.7997,
      "step": 2912
    },
    {
      "epoch": 1.0055229547808078,
      "grad_norm": 1.369359016418457,
      "learning_rate": 2e-05,
      "loss": 0.752,
      "step": 2913
    },
    {
      "epoch": 1.0058681394546083,
      "grad_norm": 1.2576745748519897,
      "learning_rate": 2e-05,
      "loss": 0.7195,
      "step": 2914
    },
    {
      "epoch": 1.0062133241284088,
      "grad_norm": 1.223343014717102,
      "learning_rate": 2e-05,
      "loss": 0.8292,
      "step": 2915
    },
    {
      "epoch": 1.006558508802209,
      "grad_norm": 1.314906120300293,
      "learning_rate": 2e-05,
      "loss": 0.7711,
      "step": 2916
    },
    {
      "epoch": 1.0069036934760096,
      "grad_norm": 1.271440029144287,
      "learning_rate": 2e-05,
      "loss": 0.7696,
      "step": 2917
    },
    {
      "epoch": 1.0072488781498101,
      "grad_norm": 1.3016146421432495,
      "learning_rate": 2e-05,
      "loss": 0.7718,
      "step": 2918
    },
    {
      "epoch": 1.0075940628236106,
      "grad_norm": 1.493699550628662,
      "learning_rate": 2e-05,
      "loss": 0.8035,
      "step": 2919
    },
    {
      "epoch": 1.0079392474974112,
      "grad_norm": 1.3558692932128906,
      "learning_rate": 2e-05,
      "loss": 0.7195,
      "step": 2920
    },
    {
      "epoch": 1.0082844321712117,
      "grad_norm": 1.2408772706985474,
      "learning_rate": 2e-05,
      "loss": 0.8323,
      "step": 2921
    },
    {
      "epoch": 1.0086296168450122,
      "grad_norm": 1.4630402326583862,
      "learning_rate": 2e-05,
      "loss": 0.7331,
      "step": 2922
    },
    {
      "epoch": 1.0089748015188125,
      "grad_norm": 1.47925865650177,
      "learning_rate": 2e-05,
      "loss": 0.7709,
      "step": 2923
    },
    {
      "epoch": 1.009319986192613,
      "grad_norm": 1.3769583702087402,
      "learning_rate": 2e-05,
      "loss": 0.855,
      "step": 2924
    },
    {
      "epoch": 1.0096651708664135,
      "grad_norm": 1.288506031036377,
      "learning_rate": 2e-05,
      "loss": 0.7708,
      "step": 2925
    },
    {
      "epoch": 1.010010355540214,
      "grad_norm": 1.2648723125457764,
      "learning_rate": 2e-05,
      "loss": 0.7791,
      "step": 2926
    },
    {
      "epoch": 1.0103555402140145,
      "grad_norm": 1.5199031829833984,
      "learning_rate": 2e-05,
      "loss": 0.7751,
      "step": 2927
    },
    {
      "epoch": 1.010700724887815,
      "grad_norm": 1.4255919456481934,
      "learning_rate": 2e-05,
      "loss": 0.8369,
      "step": 2928
    },
    {
      "epoch": 1.0110459095616156,
      "grad_norm": 2.187676429748535,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 2929
    },
    {
      "epoch": 1.0113910942354158,
      "grad_norm": 1.3552405834197998,
      "learning_rate": 2e-05,
      "loss": 0.8418,
      "step": 2930
    },
    {
      "epoch": 1.0117362789092164,
      "grad_norm": 1.2701854705810547,
      "learning_rate": 2e-05,
      "loss": 0.755,
      "step": 2931
    },
    {
      "epoch": 1.0120814635830169,
      "grad_norm": 1.2620294094085693,
      "learning_rate": 2e-05,
      "loss": 0.6903,
      "step": 2932
    },
    {
      "epoch": 1.0124266482568174,
      "grad_norm": 1.3107130527496338,
      "learning_rate": 2e-05,
      "loss": 0.773,
      "step": 2933
    },
    {
      "epoch": 1.012771832930618,
      "grad_norm": 1.324757695198059,
      "learning_rate": 2e-05,
      "loss": 0.7325,
      "step": 2934
    },
    {
      "epoch": 1.0131170176044184,
      "grad_norm": 1.4363346099853516,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 2935
    },
    {
      "epoch": 1.013462202278219,
      "grad_norm": 1.5127222537994385,
      "learning_rate": 2e-05,
      "loss": 0.8247,
      "step": 2936
    },
    {
      "epoch": 1.0138073869520194,
      "grad_norm": 1.3570971488952637,
      "learning_rate": 2e-05,
      "loss": 0.8245,
      "step": 2937
    },
    {
      "epoch": 1.0141525716258197,
      "grad_norm": 1.2630823850631714,
      "learning_rate": 2e-05,
      "loss": 0.8852,
      "step": 2938
    },
    {
      "epoch": 1.0144977562996202,
      "grad_norm": 1.2490867376327515,
      "learning_rate": 2e-05,
      "loss": 0.7244,
      "step": 2939
    },
    {
      "epoch": 1.0148429409734208,
      "grad_norm": 1.2299952507019043,
      "learning_rate": 2e-05,
      "loss": 0.7631,
      "step": 2940
    },
    {
      "epoch": 1.0151881256472213,
      "grad_norm": 1.3222308158874512,
      "learning_rate": 2e-05,
      "loss": 0.8111,
      "step": 2941
    },
    {
      "epoch": 1.0155333103210218,
      "grad_norm": 1.2213083505630493,
      "learning_rate": 2e-05,
      "loss": 0.7383,
      "step": 2942
    },
    {
      "epoch": 1.0158784949948223,
      "grad_norm": 1.1520206928253174,
      "learning_rate": 2e-05,
      "loss": 0.7029,
      "step": 2943
    },
    {
      "epoch": 1.0162236796686228,
      "grad_norm": 1.546648621559143,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 2944
    },
    {
      "epoch": 1.016568864342423,
      "grad_norm": 1.29814612865448,
      "learning_rate": 2e-05,
      "loss": 0.7003,
      "step": 2945
    },
    {
      "epoch": 1.0169140490162236,
      "grad_norm": 1.2289698123931885,
      "learning_rate": 2e-05,
      "loss": 0.7614,
      "step": 2946
    },
    {
      "epoch": 1.0172592336900241,
      "grad_norm": 1.5128123760223389,
      "learning_rate": 2e-05,
      "loss": 0.865,
      "step": 2947
    },
    {
      "epoch": 1.0176044183638246,
      "grad_norm": 1.483900785446167,
      "learning_rate": 2e-05,
      "loss": 0.8103,
      "step": 2948
    },
    {
      "epoch": 1.0179496030376252,
      "grad_norm": 1.254862904548645,
      "learning_rate": 2e-05,
      "loss": 0.7751,
      "step": 2949
    },
    {
      "epoch": 1.0182947877114257,
      "grad_norm": 1.328914761543274,
      "learning_rate": 2e-05,
      "loss": 0.7199,
      "step": 2950
    },
    {
      "epoch": 1.0186399723852262,
      "grad_norm": 1.316184401512146,
      "learning_rate": 2e-05,
      "loss": 0.7416,
      "step": 2951
    },
    {
      "epoch": 1.0189851570590265,
      "grad_norm": 1.3716661930084229,
      "learning_rate": 2e-05,
      "loss": 0.7572,
      "step": 2952
    },
    {
      "epoch": 1.019330341732827,
      "grad_norm": 4.615553379058838,
      "learning_rate": 2e-05,
      "loss": 0.9029,
      "step": 2953
    },
    {
      "epoch": 1.0196755264066275,
      "grad_norm": 1.435850739479065,
      "learning_rate": 2e-05,
      "loss": 0.7834,
      "step": 2954
    },
    {
      "epoch": 1.020020711080428,
      "grad_norm": 1.4930535554885864,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 2955
    },
    {
      "epoch": 1.0203658957542285,
      "grad_norm": 1.343922734260559,
      "learning_rate": 2e-05,
      "loss": 0.8028,
      "step": 2956
    },
    {
      "epoch": 1.020711080428029,
      "grad_norm": 1.3589766025543213,
      "learning_rate": 2e-05,
      "loss": 0.8627,
      "step": 2957
    },
    {
      "epoch": 1.0210562651018296,
      "grad_norm": 1.3156565427780151,
      "learning_rate": 2e-05,
      "loss": 0.7838,
      "step": 2958
    },
    {
      "epoch": 1.0214014497756299,
      "grad_norm": 1.3038040399551392,
      "learning_rate": 2e-05,
      "loss": 0.8469,
      "step": 2959
    },
    {
      "epoch": 1.0217466344494304,
      "grad_norm": 1.3117179870605469,
      "learning_rate": 2e-05,
      "loss": 0.828,
      "step": 2960
    },
    {
      "epoch": 1.0220918191232309,
      "grad_norm": 1.4133472442626953,
      "learning_rate": 2e-05,
      "loss": 0.8316,
      "step": 2961
    },
    {
      "epoch": 1.0224370037970314,
      "grad_norm": 1.3540664911270142,
      "learning_rate": 2e-05,
      "loss": 0.8416,
      "step": 2962
    },
    {
      "epoch": 1.022782188470832,
      "grad_norm": 1.4192146062850952,
      "learning_rate": 2e-05,
      "loss": 0.7954,
      "step": 2963
    },
    {
      "epoch": 1.0231273731446324,
      "grad_norm": 1.40650475025177,
      "learning_rate": 2e-05,
      "loss": 0.8383,
      "step": 2964
    },
    {
      "epoch": 1.023472557818433,
      "grad_norm": 1.3677438497543335,
      "learning_rate": 2e-05,
      "loss": 0.7699,
      "step": 2965
    },
    {
      "epoch": 1.0238177424922335,
      "grad_norm": 1.3284308910369873,
      "learning_rate": 2e-05,
      "loss": 0.8002,
      "step": 2966
    },
    {
      "epoch": 1.0241629271660337,
      "grad_norm": 1.3337827920913696,
      "learning_rate": 2e-05,
      "loss": 0.8665,
      "step": 2967
    },
    {
      "epoch": 1.0245081118398343,
      "grad_norm": 1.3714361190795898,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 2968
    },
    {
      "epoch": 1.0248532965136348,
      "grad_norm": 1.266114354133606,
      "learning_rate": 2e-05,
      "loss": 0.7823,
      "step": 2969
    },
    {
      "epoch": 1.0251984811874353,
      "grad_norm": 1.4237995147705078,
      "learning_rate": 2e-05,
      "loss": 0.7244,
      "step": 2970
    },
    {
      "epoch": 1.0255436658612358,
      "grad_norm": 9.1939058303833,
      "learning_rate": 2e-05,
      "loss": 0.8073,
      "step": 2971
    },
    {
      "epoch": 1.0258888505350363,
      "grad_norm": 1.2839285135269165,
      "learning_rate": 2e-05,
      "loss": 0.7779,
      "step": 2972
    },
    {
      "epoch": 1.0262340352088368,
      "grad_norm": 1.3119207620620728,
      "learning_rate": 2e-05,
      "loss": 0.7579,
      "step": 2973
    },
    {
      "epoch": 1.0265792198826371,
      "grad_norm": 1.4327219724655151,
      "learning_rate": 2e-05,
      "loss": 0.7837,
      "step": 2974
    },
    {
      "epoch": 1.0269244045564376,
      "grad_norm": 1.382961630821228,
      "learning_rate": 2e-05,
      "loss": 0.8495,
      "step": 2975
    },
    {
      "epoch": 1.0272695892302381,
      "grad_norm": 1.426516056060791,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 2976
    },
    {
      "epoch": 1.0276147739040387,
      "grad_norm": 1.3126195669174194,
      "learning_rate": 2e-05,
      "loss": 0.7476,
      "step": 2977
    },
    {
      "epoch": 1.0279599585778392,
      "grad_norm": 1.2677760124206543,
      "learning_rate": 2e-05,
      "loss": 0.7684,
      "step": 2978
    },
    {
      "epoch": 1.0283051432516397,
      "grad_norm": 1.2983620166778564,
      "learning_rate": 2e-05,
      "loss": 0.7555,
      "step": 2979
    },
    {
      "epoch": 1.0286503279254402,
      "grad_norm": 1.333020567893982,
      "learning_rate": 2e-05,
      "loss": 0.8306,
      "step": 2980
    },
    {
      "epoch": 1.0289955125992405,
      "grad_norm": 1.2860996723175049,
      "learning_rate": 2e-05,
      "loss": 0.8083,
      "step": 2981
    },
    {
      "epoch": 1.029340697273041,
      "grad_norm": 1.2403407096862793,
      "learning_rate": 2e-05,
      "loss": 0.7495,
      "step": 2982
    },
    {
      "epoch": 1.0296858819468415,
      "grad_norm": 1.311960220336914,
      "learning_rate": 2e-05,
      "loss": 0.7828,
      "step": 2983
    },
    {
      "epoch": 1.030031066620642,
      "grad_norm": 1.411139965057373,
      "learning_rate": 2e-05,
      "loss": 0.7768,
      "step": 2984
    },
    {
      "epoch": 1.0303762512944425,
      "grad_norm": 1.2824300527572632,
      "learning_rate": 2e-05,
      "loss": 0.7922,
      "step": 2985
    },
    {
      "epoch": 1.030721435968243,
      "grad_norm": 1.2703360319137573,
      "learning_rate": 2e-05,
      "loss": 0.8245,
      "step": 2986
    },
    {
      "epoch": 1.0310666206420436,
      "grad_norm": 1.2223825454711914,
      "learning_rate": 2e-05,
      "loss": 0.7608,
      "step": 2987
    },
    {
      "epoch": 1.031411805315844,
      "grad_norm": 1.3401107788085938,
      "learning_rate": 2e-05,
      "loss": 0.7902,
      "step": 2988
    },
    {
      "epoch": 1.0317569899896444,
      "grad_norm": 1.2543045282363892,
      "learning_rate": 2e-05,
      "loss": 0.7178,
      "step": 2989
    },
    {
      "epoch": 1.032102174663445,
      "grad_norm": 1.3399206399917603,
      "learning_rate": 2e-05,
      "loss": 0.7956,
      "step": 2990
    },
    {
      "epoch": 1.0324473593372454,
      "grad_norm": 1.465280294418335,
      "learning_rate": 2e-05,
      "loss": 0.8964,
      "step": 2991
    },
    {
      "epoch": 1.032792544011046,
      "grad_norm": 1.3000080585479736,
      "learning_rate": 2e-05,
      "loss": 0.8133,
      "step": 2992
    },
    {
      "epoch": 1.0331377286848464,
      "grad_norm": 1.3784587383270264,
      "learning_rate": 2e-05,
      "loss": 0.7839,
      "step": 2993
    },
    {
      "epoch": 1.033482913358647,
      "grad_norm": 1.3682141304016113,
      "learning_rate": 2e-05,
      "loss": 0.7822,
      "step": 2994
    },
    {
      "epoch": 1.0338280980324475,
      "grad_norm": 1.3643633127212524,
      "learning_rate": 2e-05,
      "loss": 0.7517,
      "step": 2995
    },
    {
      "epoch": 1.0341732827062478,
      "grad_norm": 1.2298450469970703,
      "learning_rate": 2e-05,
      "loss": 0.7898,
      "step": 2996
    },
    {
      "epoch": 1.0345184673800483,
      "grad_norm": 1.3497058153152466,
      "learning_rate": 2e-05,
      "loss": 0.7844,
      "step": 2997
    },
    {
      "epoch": 1.0348636520538488,
      "grad_norm": 1.4279848337173462,
      "learning_rate": 2e-05,
      "loss": 0.8347,
      "step": 2998
    },
    {
      "epoch": 1.0352088367276493,
      "grad_norm": 1.3207601308822632,
      "learning_rate": 2e-05,
      "loss": 0.7601,
      "step": 2999
    },
    {
      "epoch": 1.0355540214014498,
      "grad_norm": 1.265155553817749,
      "learning_rate": 2e-05,
      "loss": 0.803,
      "step": 3000
    },
    {
      "epoch": 1.0358992060752503,
      "grad_norm": 1.2838243246078491,
      "learning_rate": 2e-05,
      "loss": 0.6787,
      "step": 3001
    },
    {
      "epoch": 1.0362443907490508,
      "grad_norm": 1.4215967655181885,
      "learning_rate": 2e-05,
      "loss": 0.8455,
      "step": 3002
    },
    {
      "epoch": 1.0365895754228511,
      "grad_norm": 1.3490101099014282,
      "learning_rate": 2e-05,
      "loss": 0.7912,
      "step": 3003
    },
    {
      "epoch": 1.0369347600966516,
      "grad_norm": 1.3252284526824951,
      "learning_rate": 2e-05,
      "loss": 0.8293,
      "step": 3004
    },
    {
      "epoch": 1.0372799447704522,
      "grad_norm": 1.429357886314392,
      "learning_rate": 2e-05,
      "loss": 0.8492,
      "step": 3005
    },
    {
      "epoch": 1.0376251294442527,
      "grad_norm": 1.3075512647628784,
      "learning_rate": 2e-05,
      "loss": 0.7696,
      "step": 3006
    },
    {
      "epoch": 1.0379703141180532,
      "grad_norm": 1.3510706424713135,
      "learning_rate": 2e-05,
      "loss": 0.8113,
      "step": 3007
    },
    {
      "epoch": 1.0383154987918537,
      "grad_norm": 1.290649175643921,
      "learning_rate": 2e-05,
      "loss": 0.771,
      "step": 3008
    },
    {
      "epoch": 1.0386606834656542,
      "grad_norm": 1.390994668006897,
      "learning_rate": 2e-05,
      "loss": 0.7827,
      "step": 3009
    },
    {
      "epoch": 1.0390058681394545,
      "grad_norm": 1.3709602355957031,
      "learning_rate": 2e-05,
      "loss": 0.8345,
      "step": 3010
    },
    {
      "epoch": 1.039351052813255,
      "grad_norm": 1.4637572765350342,
      "learning_rate": 2e-05,
      "loss": 0.8293,
      "step": 3011
    },
    {
      "epoch": 1.0396962374870555,
      "grad_norm": 1.314975380897522,
      "learning_rate": 2e-05,
      "loss": 0.8041,
      "step": 3012
    },
    {
      "epoch": 1.040041422160856,
      "grad_norm": 1.4016947746276855,
      "learning_rate": 2e-05,
      "loss": 0.8338,
      "step": 3013
    },
    {
      "epoch": 1.0403866068346566,
      "grad_norm": 1.3338121175765991,
      "learning_rate": 2e-05,
      "loss": 0.8728,
      "step": 3014
    },
    {
      "epoch": 1.040731791508457,
      "grad_norm": 1.4182220697402954,
      "learning_rate": 2e-05,
      "loss": 0.8558,
      "step": 3015
    },
    {
      "epoch": 1.0410769761822576,
      "grad_norm": 1.2649801969528198,
      "learning_rate": 2e-05,
      "loss": 0.7061,
      "step": 3016
    },
    {
      "epoch": 1.041422160856058,
      "grad_norm": 1.220970630645752,
      "learning_rate": 2e-05,
      "loss": 0.8132,
      "step": 3017
    },
    {
      "epoch": 1.0417673455298584,
      "grad_norm": 1.3088680505752563,
      "learning_rate": 2e-05,
      "loss": 0.9475,
      "step": 3018
    },
    {
      "epoch": 1.042112530203659,
      "grad_norm": 1.352942943572998,
      "learning_rate": 2e-05,
      "loss": 0.7422,
      "step": 3019
    },
    {
      "epoch": 1.0424577148774594,
      "grad_norm": 1.1727893352508545,
      "learning_rate": 2e-05,
      "loss": 0.7439,
      "step": 3020
    },
    {
      "epoch": 1.04280289955126,
      "grad_norm": 1.4481604099273682,
      "learning_rate": 2e-05,
      "loss": 0.9239,
      "step": 3021
    },
    {
      "epoch": 1.0431480842250604,
      "grad_norm": 1.3426308631896973,
      "learning_rate": 2e-05,
      "loss": 0.7597,
      "step": 3022
    },
    {
      "epoch": 1.043493268898861,
      "grad_norm": 1.266258955001831,
      "learning_rate": 2e-05,
      "loss": 0.7849,
      "step": 3023
    },
    {
      "epoch": 1.0438384535726615,
      "grad_norm": 1.358449101448059,
      "learning_rate": 2e-05,
      "loss": 0.7961,
      "step": 3024
    },
    {
      "epoch": 1.0441836382464618,
      "grad_norm": 1.3147319555282593,
      "learning_rate": 2e-05,
      "loss": 0.7321,
      "step": 3025
    },
    {
      "epoch": 1.0445288229202623,
      "grad_norm": 1.3580875396728516,
      "learning_rate": 2e-05,
      "loss": 0.8446,
      "step": 3026
    },
    {
      "epoch": 1.0448740075940628,
      "grad_norm": 1.4085659980773926,
      "learning_rate": 2e-05,
      "loss": 0.7488,
      "step": 3027
    },
    {
      "epoch": 1.0452191922678633,
      "grad_norm": 1.370160460472107,
      "learning_rate": 2e-05,
      "loss": 0.8687,
      "step": 3028
    },
    {
      "epoch": 1.0455643769416638,
      "grad_norm": 1.416692852973938,
      "learning_rate": 2e-05,
      "loss": 0.8292,
      "step": 3029
    },
    {
      "epoch": 1.0459095616154643,
      "grad_norm": 1.393452525138855,
      "learning_rate": 2e-05,
      "loss": 0.7988,
      "step": 3030
    },
    {
      "epoch": 1.0462547462892648,
      "grad_norm": 1.2948389053344727,
      "learning_rate": 2e-05,
      "loss": 0.82,
      "step": 3031
    },
    {
      "epoch": 1.0465999309630651,
      "grad_norm": 1.3802473545074463,
      "learning_rate": 2e-05,
      "loss": 0.8622,
      "step": 3032
    },
    {
      "epoch": 1.0469451156368657,
      "grad_norm": 1.3985848426818848,
      "learning_rate": 2e-05,
      "loss": 0.7304,
      "step": 3033
    },
    {
      "epoch": 1.0472903003106662,
      "grad_norm": 1.2998952865600586,
      "learning_rate": 2e-05,
      "loss": 0.7943,
      "step": 3034
    },
    {
      "epoch": 1.0476354849844667,
      "grad_norm": 1.4712327718734741,
      "learning_rate": 2e-05,
      "loss": 0.8352,
      "step": 3035
    },
    {
      "epoch": 1.0479806696582672,
      "grad_norm": 1.2720414400100708,
      "learning_rate": 2e-05,
      "loss": 0.8321,
      "step": 3036
    },
    {
      "epoch": 1.0483258543320677,
      "grad_norm": 1.2745087146759033,
      "learning_rate": 2e-05,
      "loss": 0.8257,
      "step": 3037
    },
    {
      "epoch": 1.0486710390058682,
      "grad_norm": 1.4155662059783936,
      "learning_rate": 2e-05,
      "loss": 0.7828,
      "step": 3038
    },
    {
      "epoch": 1.0490162236796685,
      "grad_norm": 1.3603825569152832,
      "learning_rate": 2e-05,
      "loss": 0.7825,
      "step": 3039
    },
    {
      "epoch": 1.049361408353469,
      "grad_norm": 1.2725757360458374,
      "learning_rate": 2e-05,
      "loss": 0.802,
      "step": 3040
    },
    {
      "epoch": 1.0497065930272695,
      "grad_norm": 1.3496450185775757,
      "learning_rate": 2e-05,
      "loss": 0.7375,
      "step": 3041
    },
    {
      "epoch": 1.05005177770107,
      "grad_norm": 1.2752526998519897,
      "learning_rate": 2e-05,
      "loss": 0.7163,
      "step": 3042
    },
    {
      "epoch": 1.0503969623748706,
      "grad_norm": 1.2697967290878296,
      "learning_rate": 2e-05,
      "loss": 0.8488,
      "step": 3043
    },
    {
      "epoch": 1.050742147048671,
      "grad_norm": 1.2840291261672974,
      "learning_rate": 2e-05,
      "loss": 0.8415,
      "step": 3044
    },
    {
      "epoch": 1.0510873317224716,
      "grad_norm": 1.45416259765625,
      "learning_rate": 2e-05,
      "loss": 0.8323,
      "step": 3045
    },
    {
      "epoch": 1.051432516396272,
      "grad_norm": 1.2982357740402222,
      "learning_rate": 2e-05,
      "loss": 0.7729,
      "step": 3046
    },
    {
      "epoch": 1.0517777010700724,
      "grad_norm": 1.1759389638900757,
      "learning_rate": 2e-05,
      "loss": 0.7723,
      "step": 3047
    },
    {
      "epoch": 1.052122885743873,
      "grad_norm": 1.3605284690856934,
      "learning_rate": 2e-05,
      "loss": 0.8952,
      "step": 3048
    },
    {
      "epoch": 1.0524680704176734,
      "grad_norm": 1.383395791053772,
      "learning_rate": 2e-05,
      "loss": 0.8191,
      "step": 3049
    },
    {
      "epoch": 1.052813255091474,
      "grad_norm": 1.3784728050231934,
      "learning_rate": 2e-05,
      "loss": 0.8458,
      "step": 3050
    },
    {
      "epoch": 1.0531584397652745,
      "grad_norm": 1.3823671340942383,
      "learning_rate": 2e-05,
      "loss": 0.857,
      "step": 3051
    },
    {
      "epoch": 1.053503624439075,
      "grad_norm": 1.239215612411499,
      "learning_rate": 2e-05,
      "loss": 0.7872,
      "step": 3052
    },
    {
      "epoch": 1.0538488091128755,
      "grad_norm": 1.3726249933242798,
      "learning_rate": 2e-05,
      "loss": 0.8038,
      "step": 3053
    },
    {
      "epoch": 1.0541939937866758,
      "grad_norm": 1.341170072555542,
      "learning_rate": 2e-05,
      "loss": 0.8521,
      "step": 3054
    },
    {
      "epoch": 1.0545391784604763,
      "grad_norm": 1.2357885837554932,
      "learning_rate": 2e-05,
      "loss": 0.7446,
      "step": 3055
    },
    {
      "epoch": 1.0548843631342768,
      "grad_norm": 1.2405651807785034,
      "learning_rate": 2e-05,
      "loss": 0.7688,
      "step": 3056
    },
    {
      "epoch": 1.0552295478080773,
      "grad_norm": 1.5396394729614258,
      "learning_rate": 2e-05,
      "loss": 0.8552,
      "step": 3057
    },
    {
      "epoch": 1.0555747324818778,
      "grad_norm": 1.4167414903640747,
      "learning_rate": 2e-05,
      "loss": 0.7656,
      "step": 3058
    },
    {
      "epoch": 1.0559199171556783,
      "grad_norm": 1.2261024713516235,
      "learning_rate": 2e-05,
      "loss": 0.7403,
      "step": 3059
    },
    {
      "epoch": 1.0562651018294789,
      "grad_norm": 1.444932460784912,
      "learning_rate": 2e-05,
      "loss": 0.852,
      "step": 3060
    },
    {
      "epoch": 1.0566102865032792,
      "grad_norm": 1.4336568117141724,
      "learning_rate": 2e-05,
      "loss": 0.7513,
      "step": 3061
    },
    {
      "epoch": 1.0569554711770797,
      "grad_norm": 1.2565830945968628,
      "learning_rate": 2e-05,
      "loss": 0.7452,
      "step": 3062
    },
    {
      "epoch": 1.0573006558508802,
      "grad_norm": 1.3863999843597412,
      "learning_rate": 2e-05,
      "loss": 0.8079,
      "step": 3063
    },
    {
      "epoch": 1.0576458405246807,
      "grad_norm": 1.272256851196289,
      "learning_rate": 2e-05,
      "loss": 0.7367,
      "step": 3064
    },
    {
      "epoch": 1.0579910251984812,
      "grad_norm": 1.4156789779663086,
      "learning_rate": 2e-05,
      "loss": 0.8233,
      "step": 3065
    },
    {
      "epoch": 1.0583362098722817,
      "grad_norm": 1.6756576299667358,
      "learning_rate": 2e-05,
      "loss": 0.8464,
      "step": 3066
    },
    {
      "epoch": 1.0586813945460822,
      "grad_norm": 1.2525711059570312,
      "learning_rate": 2e-05,
      "loss": 0.7736,
      "step": 3067
    },
    {
      "epoch": 1.0590265792198825,
      "grad_norm": 1.1817376613616943,
      "learning_rate": 2e-05,
      "loss": 0.8181,
      "step": 3068
    },
    {
      "epoch": 1.059371763893683,
      "grad_norm": 1.3181285858154297,
      "learning_rate": 2e-05,
      "loss": 0.7715,
      "step": 3069
    },
    {
      "epoch": 1.0597169485674836,
      "grad_norm": 1.3037124872207642,
      "learning_rate": 2e-05,
      "loss": 0.7335,
      "step": 3070
    },
    {
      "epoch": 1.060062133241284,
      "grad_norm": 1.3886065483093262,
      "learning_rate": 2e-05,
      "loss": 0.7699,
      "step": 3071
    },
    {
      "epoch": 1.0604073179150846,
      "grad_norm": 1.3442444801330566,
      "learning_rate": 2e-05,
      "loss": 0.8276,
      "step": 3072
    },
    {
      "epoch": 1.060752502588885,
      "grad_norm": 1.5324208736419678,
      "learning_rate": 2e-05,
      "loss": 0.7674,
      "step": 3073
    },
    {
      "epoch": 1.0610976872626856,
      "grad_norm": 1.4443553686141968,
      "learning_rate": 2e-05,
      "loss": 0.7665,
      "step": 3074
    },
    {
      "epoch": 1.0614428719364861,
      "grad_norm": 1.385007381439209,
      "learning_rate": 2e-05,
      "loss": 0.8313,
      "step": 3075
    },
    {
      "epoch": 1.0617880566102864,
      "grad_norm": 1.4062594175338745,
      "learning_rate": 2e-05,
      "loss": 0.8223,
      "step": 3076
    },
    {
      "epoch": 1.062133241284087,
      "grad_norm": 1.2432105541229248,
      "learning_rate": 2e-05,
      "loss": 0.7662,
      "step": 3077
    },
    {
      "epoch": 1.0624784259578874,
      "grad_norm": 1.3355962038040161,
      "learning_rate": 2e-05,
      "loss": 0.8127,
      "step": 3078
    },
    {
      "epoch": 1.062823610631688,
      "grad_norm": 1.3653470277786255,
      "learning_rate": 2e-05,
      "loss": 0.8449,
      "step": 3079
    },
    {
      "epoch": 1.0631687953054885,
      "grad_norm": 1.2065585851669312,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 3080
    },
    {
      "epoch": 1.063513979979289,
      "grad_norm": 1.3290677070617676,
      "learning_rate": 2e-05,
      "loss": 0.7282,
      "step": 3081
    },
    {
      "epoch": 1.0638591646530895,
      "grad_norm": 1.3066011667251587,
      "learning_rate": 2e-05,
      "loss": 0.8504,
      "step": 3082
    },
    {
      "epoch": 1.0642043493268898,
      "grad_norm": 1.2619245052337646,
      "learning_rate": 2e-05,
      "loss": 0.8162,
      "step": 3083
    },
    {
      "epoch": 1.0645495340006903,
      "grad_norm": 1.3076086044311523,
      "learning_rate": 2e-05,
      "loss": 0.7353,
      "step": 3084
    },
    {
      "epoch": 1.0648947186744908,
      "grad_norm": 1.3495186567306519,
      "learning_rate": 2e-05,
      "loss": 0.7449,
      "step": 3085
    },
    {
      "epoch": 1.0652399033482913,
      "grad_norm": 1.3926061391830444,
      "learning_rate": 2e-05,
      "loss": 0.7917,
      "step": 3086
    },
    {
      "epoch": 1.0655850880220918,
      "grad_norm": 1.268999695777893,
      "learning_rate": 2e-05,
      "loss": 0.758,
      "step": 3087
    },
    {
      "epoch": 1.0659302726958924,
      "grad_norm": 1.2738404273986816,
      "learning_rate": 2e-05,
      "loss": 0.8203,
      "step": 3088
    },
    {
      "epoch": 1.0662754573696929,
      "grad_norm": 1.422731876373291,
      "learning_rate": 2e-05,
      "loss": 0.7784,
      "step": 3089
    },
    {
      "epoch": 1.0666206420434934,
      "grad_norm": 1.255903959274292,
      "learning_rate": 2e-05,
      "loss": 0.7506,
      "step": 3090
    },
    {
      "epoch": 1.0669658267172937,
      "grad_norm": 1.3168054819107056,
      "learning_rate": 2e-05,
      "loss": 0.7882,
      "step": 3091
    },
    {
      "epoch": 1.0673110113910942,
      "grad_norm": 1.3938237428665161,
      "learning_rate": 2e-05,
      "loss": 0.8747,
      "step": 3092
    },
    {
      "epoch": 1.0676561960648947,
      "grad_norm": 1.300208568572998,
      "learning_rate": 2e-05,
      "loss": 0.7583,
      "step": 3093
    },
    {
      "epoch": 1.0680013807386952,
      "grad_norm": 1.308707594871521,
      "learning_rate": 2e-05,
      "loss": 0.8357,
      "step": 3094
    },
    {
      "epoch": 1.0683465654124957,
      "grad_norm": 1.4322525262832642,
      "learning_rate": 2e-05,
      "loss": 0.8281,
      "step": 3095
    },
    {
      "epoch": 1.0686917500862962,
      "grad_norm": 1.2811464071273804,
      "learning_rate": 2e-05,
      "loss": 0.7826,
      "step": 3096
    },
    {
      "epoch": 1.0690369347600965,
      "grad_norm": 1.2730969190597534,
      "learning_rate": 2e-05,
      "loss": 0.7363,
      "step": 3097
    },
    {
      "epoch": 1.069382119433897,
      "grad_norm": 1.3548297882080078,
      "learning_rate": 2e-05,
      "loss": 0.7919,
      "step": 3098
    },
    {
      "epoch": 1.0697273041076976,
      "grad_norm": 1.423047423362732,
      "learning_rate": 2e-05,
      "loss": 0.819,
      "step": 3099
    },
    {
      "epoch": 1.070072488781498,
      "grad_norm": 1.3493489027023315,
      "learning_rate": 2e-05,
      "loss": 0.816,
      "step": 3100
    },
    {
      "epoch": 1.0704176734552986,
      "grad_norm": 1.2929373979568481,
      "learning_rate": 2e-05,
      "loss": 0.7991,
      "step": 3101
    },
    {
      "epoch": 1.070762858129099,
      "grad_norm": 1.224426507949829,
      "learning_rate": 2e-05,
      "loss": 0.7829,
      "step": 3102
    },
    {
      "epoch": 1.0711080428028996,
      "grad_norm": 1.312451958656311,
      "learning_rate": 2e-05,
      "loss": 0.8071,
      "step": 3103
    },
    {
      "epoch": 1.0714532274767001,
      "grad_norm": 1.3188517093658447,
      "learning_rate": 2e-05,
      "loss": 0.8528,
      "step": 3104
    },
    {
      "epoch": 1.0717984121505004,
      "grad_norm": 1.2543874979019165,
      "learning_rate": 2e-05,
      "loss": 0.8428,
      "step": 3105
    },
    {
      "epoch": 1.072143596824301,
      "grad_norm": 1.36614191532135,
      "learning_rate": 2e-05,
      "loss": 0.8477,
      "step": 3106
    },
    {
      "epoch": 1.0724887814981015,
      "grad_norm": 1.32265305519104,
      "learning_rate": 2e-05,
      "loss": 0.7374,
      "step": 3107
    },
    {
      "epoch": 1.072833966171902,
      "grad_norm": 1.2069426774978638,
      "learning_rate": 2e-05,
      "loss": 0.7091,
      "step": 3108
    },
    {
      "epoch": 1.0731791508457025,
      "grad_norm": 1.2831175327301025,
      "learning_rate": 2e-05,
      "loss": 0.7924,
      "step": 3109
    },
    {
      "epoch": 1.073524335519503,
      "grad_norm": 1.3565551042556763,
      "learning_rate": 2e-05,
      "loss": 0.7424,
      "step": 3110
    },
    {
      "epoch": 1.0738695201933035,
      "grad_norm": 1.3214951753616333,
      "learning_rate": 2e-05,
      "loss": 0.7902,
      "step": 3111
    },
    {
      "epoch": 1.0742147048671038,
      "grad_norm": 1.4468804597854614,
      "learning_rate": 2e-05,
      "loss": 0.7778,
      "step": 3112
    },
    {
      "epoch": 1.0745598895409043,
      "grad_norm": 1.336199402809143,
      "learning_rate": 2e-05,
      "loss": 0.7943,
      "step": 3113
    },
    {
      "epoch": 1.0749050742147048,
      "grad_norm": 1.2833595275878906,
      "learning_rate": 2e-05,
      "loss": 0.7482,
      "step": 3114
    },
    {
      "epoch": 1.0752502588885053,
      "grad_norm": 1.333651065826416,
      "learning_rate": 2e-05,
      "loss": 0.7926,
      "step": 3115
    },
    {
      "epoch": 1.0755954435623059,
      "grad_norm": 1.3648591041564941,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 3116
    },
    {
      "epoch": 1.0759406282361064,
      "grad_norm": 1.1706820726394653,
      "learning_rate": 2e-05,
      "loss": 0.6863,
      "step": 3117
    },
    {
      "epoch": 1.0762858129099069,
      "grad_norm": 1.4668620824813843,
      "learning_rate": 2e-05,
      "loss": 0.7571,
      "step": 3118
    },
    {
      "epoch": 1.0766309975837074,
      "grad_norm": 1.2508385181427002,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 3119
    },
    {
      "epoch": 1.0769761822575077,
      "grad_norm": 1.339799404144287,
      "learning_rate": 2e-05,
      "loss": 0.794,
      "step": 3120
    },
    {
      "epoch": 1.0773213669313082,
      "grad_norm": 1.345003366470337,
      "learning_rate": 2e-05,
      "loss": 0.7635,
      "step": 3121
    },
    {
      "epoch": 1.0776665516051087,
      "grad_norm": 1.3862348794937134,
      "learning_rate": 2e-05,
      "loss": 0.7824,
      "step": 3122
    },
    {
      "epoch": 1.0780117362789092,
      "grad_norm": 1.2979539632797241,
      "learning_rate": 2e-05,
      "loss": 0.8878,
      "step": 3123
    },
    {
      "epoch": 1.0783569209527097,
      "grad_norm": 1.3319337368011475,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 3124
    },
    {
      "epoch": 1.0787021056265103,
      "grad_norm": 1.3856629133224487,
      "learning_rate": 2e-05,
      "loss": 0.7976,
      "step": 3125
    },
    {
      "epoch": 1.0790472903003108,
      "grad_norm": 1.3155925273895264,
      "learning_rate": 2e-05,
      "loss": 0.7796,
      "step": 3126
    },
    {
      "epoch": 1.079392474974111,
      "grad_norm": 1.3341625928878784,
      "learning_rate": 2e-05,
      "loss": 0.766,
      "step": 3127
    },
    {
      "epoch": 1.0797376596479116,
      "grad_norm": 1.3075369596481323,
      "learning_rate": 2e-05,
      "loss": 0.6898,
      "step": 3128
    },
    {
      "epoch": 1.080082844321712,
      "grad_norm": 1.3014545440673828,
      "learning_rate": 2e-05,
      "loss": 0.7005,
      "step": 3129
    },
    {
      "epoch": 1.0804280289955126,
      "grad_norm": 1.4806482791900635,
      "learning_rate": 2e-05,
      "loss": 0.8102,
      "step": 3130
    },
    {
      "epoch": 1.0807732136693131,
      "grad_norm": 1.2220332622528076,
      "learning_rate": 2e-05,
      "loss": 0.7482,
      "step": 3131
    },
    {
      "epoch": 1.0811183983431136,
      "grad_norm": 1.175180435180664,
      "learning_rate": 2e-05,
      "loss": 0.8363,
      "step": 3132
    },
    {
      "epoch": 1.0814635830169141,
      "grad_norm": 1.363297462463379,
      "learning_rate": 2e-05,
      "loss": 0.7922,
      "step": 3133
    },
    {
      "epoch": 1.0818087676907144,
      "grad_norm": 1.2678310871124268,
      "learning_rate": 2e-05,
      "loss": 0.7587,
      "step": 3134
    },
    {
      "epoch": 1.082153952364515,
      "grad_norm": 1.3510187864303589,
      "learning_rate": 2e-05,
      "loss": 0.8135,
      "step": 3135
    },
    {
      "epoch": 1.0824991370383155,
      "grad_norm": 1.2387725114822388,
      "learning_rate": 2e-05,
      "loss": 0.8291,
      "step": 3136
    },
    {
      "epoch": 1.082844321712116,
      "grad_norm": 1.3578364849090576,
      "learning_rate": 2e-05,
      "loss": 0.7417,
      "step": 3137
    },
    {
      "epoch": 1.0831895063859165,
      "grad_norm": 1.3174879550933838,
      "learning_rate": 2e-05,
      "loss": 0.708,
      "step": 3138
    },
    {
      "epoch": 1.083534691059717,
      "grad_norm": 1.3521815538406372,
      "learning_rate": 2e-05,
      "loss": 0.7355,
      "step": 3139
    },
    {
      "epoch": 1.0838798757335175,
      "grad_norm": 1.3721210956573486,
      "learning_rate": 2e-05,
      "loss": 0.8416,
      "step": 3140
    },
    {
      "epoch": 1.0842250604073178,
      "grad_norm": 1.422919750213623,
      "learning_rate": 2e-05,
      "loss": 0.7701,
      "step": 3141
    },
    {
      "epoch": 1.0845702450811183,
      "grad_norm": 1.4183423519134521,
      "learning_rate": 2e-05,
      "loss": 0.8721,
      "step": 3142
    },
    {
      "epoch": 1.0849154297549188,
      "grad_norm": 1.3269128799438477,
      "learning_rate": 2e-05,
      "loss": 0.782,
      "step": 3143
    },
    {
      "epoch": 1.0852606144287194,
      "grad_norm": 1.3927781581878662,
      "learning_rate": 2e-05,
      "loss": 0.7979,
      "step": 3144
    },
    {
      "epoch": 1.0856057991025199,
      "grad_norm": 1.3761762380599976,
      "learning_rate": 2e-05,
      "loss": 0.8134,
      "step": 3145
    },
    {
      "epoch": 1.0859509837763204,
      "grad_norm": 1.2642881870269775,
      "learning_rate": 2e-05,
      "loss": 0.7813,
      "step": 3146
    },
    {
      "epoch": 1.086296168450121,
      "grad_norm": 1.3082969188690186,
      "learning_rate": 2e-05,
      "loss": 0.7786,
      "step": 3147
    },
    {
      "epoch": 1.0866413531239214,
      "grad_norm": 1.3778129816055298,
      "learning_rate": 2e-05,
      "loss": 0.8375,
      "step": 3148
    },
    {
      "epoch": 1.0869865377977217,
      "grad_norm": 1.341991662979126,
      "learning_rate": 2e-05,
      "loss": 0.7702,
      "step": 3149
    },
    {
      "epoch": 1.0873317224715222,
      "grad_norm": 1.3324514627456665,
      "learning_rate": 2e-05,
      "loss": 0.7793,
      "step": 3150
    },
    {
      "epoch": 1.0876769071453227,
      "grad_norm": 1.2477034330368042,
      "learning_rate": 2e-05,
      "loss": 0.7607,
      "step": 3151
    },
    {
      "epoch": 1.0880220918191232,
      "grad_norm": 1.2756476402282715,
      "learning_rate": 2e-05,
      "loss": 0.8146,
      "step": 3152
    },
    {
      "epoch": 1.0883672764929238,
      "grad_norm": 1.3619402647018433,
      "learning_rate": 2e-05,
      "loss": 0.8113,
      "step": 3153
    },
    {
      "epoch": 1.0887124611667243,
      "grad_norm": 1.226932168006897,
      "learning_rate": 2e-05,
      "loss": 0.7498,
      "step": 3154
    },
    {
      "epoch": 1.0890576458405248,
      "grad_norm": 1.372186303138733,
      "learning_rate": 2e-05,
      "loss": 0.7767,
      "step": 3155
    },
    {
      "epoch": 1.089402830514325,
      "grad_norm": 1.3525300025939941,
      "learning_rate": 2e-05,
      "loss": 0.8721,
      "step": 3156
    },
    {
      "epoch": 1.0897480151881256,
      "grad_norm": 1.2358795404434204,
      "learning_rate": 2e-05,
      "loss": 0.84,
      "step": 3157
    },
    {
      "epoch": 1.090093199861926,
      "grad_norm": 1.10426664352417,
      "learning_rate": 2e-05,
      "loss": 0.7384,
      "step": 3158
    },
    {
      "epoch": 1.0904383845357266,
      "grad_norm": 1.336034893989563,
      "learning_rate": 2e-05,
      "loss": 0.7694,
      "step": 3159
    },
    {
      "epoch": 1.0907835692095271,
      "grad_norm": 1.3054553270339966,
      "learning_rate": 2e-05,
      "loss": 0.7777,
      "step": 3160
    },
    {
      "epoch": 1.0911287538833276,
      "grad_norm": 1.3717502355575562,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 3161
    },
    {
      "epoch": 1.0914739385571282,
      "grad_norm": 1.39553964138031,
      "learning_rate": 2e-05,
      "loss": 0.8327,
      "step": 3162
    },
    {
      "epoch": 1.0918191232309284,
      "grad_norm": 1.40812349319458,
      "learning_rate": 2e-05,
      "loss": 0.7772,
      "step": 3163
    },
    {
      "epoch": 1.092164307904729,
      "grad_norm": 1.3941631317138672,
      "learning_rate": 2e-05,
      "loss": 0.8115,
      "step": 3164
    },
    {
      "epoch": 1.0925094925785295,
      "grad_norm": 1.3993120193481445,
      "learning_rate": 2e-05,
      "loss": 0.841,
      "step": 3165
    },
    {
      "epoch": 1.09285467725233,
      "grad_norm": 1.2993239164352417,
      "learning_rate": 2e-05,
      "loss": 0.8054,
      "step": 3166
    },
    {
      "epoch": 1.0931998619261305,
      "grad_norm": 1.3955610990524292,
      "learning_rate": 2e-05,
      "loss": 0.7537,
      "step": 3167
    },
    {
      "epoch": 1.093545046599931,
      "grad_norm": 1.348846197128296,
      "learning_rate": 2e-05,
      "loss": 0.8105,
      "step": 3168
    },
    {
      "epoch": 1.0938902312737315,
      "grad_norm": 1.4407821893692017,
      "learning_rate": 2e-05,
      "loss": 0.7852,
      "step": 3169
    },
    {
      "epoch": 1.0942354159475318,
      "grad_norm": 1.353110909461975,
      "learning_rate": 2e-05,
      "loss": 0.7185,
      "step": 3170
    },
    {
      "epoch": 1.0945806006213323,
      "grad_norm": 1.381616473197937,
      "learning_rate": 2e-05,
      "loss": 0.8038,
      "step": 3171
    },
    {
      "epoch": 1.0949257852951328,
      "grad_norm": 1.1413716077804565,
      "learning_rate": 2e-05,
      "loss": 0.8035,
      "step": 3172
    },
    {
      "epoch": 1.0952709699689334,
      "grad_norm": 1.338329792022705,
      "learning_rate": 2e-05,
      "loss": 0.7841,
      "step": 3173
    },
    {
      "epoch": 1.0956161546427339,
      "grad_norm": 1.5436769723892212,
      "learning_rate": 2e-05,
      "loss": 0.7469,
      "step": 3174
    },
    {
      "epoch": 1.0959613393165344,
      "grad_norm": 1.471217393875122,
      "learning_rate": 2e-05,
      "loss": 0.7803,
      "step": 3175
    },
    {
      "epoch": 1.096306523990335,
      "grad_norm": 1.268657922744751,
      "learning_rate": 2e-05,
      "loss": 0.86,
      "step": 3176
    },
    {
      "epoch": 1.0966517086641354,
      "grad_norm": 1.3494558334350586,
      "learning_rate": 2e-05,
      "loss": 0.7975,
      "step": 3177
    },
    {
      "epoch": 1.0969968933379357,
      "grad_norm": 1.3202210664749146,
      "learning_rate": 2e-05,
      "loss": 0.8085,
      "step": 3178
    },
    {
      "epoch": 1.0973420780117362,
      "grad_norm": 1.2867196798324585,
      "learning_rate": 2e-05,
      "loss": 0.7451,
      "step": 3179
    },
    {
      "epoch": 1.0976872626855367,
      "grad_norm": 1.3515030145645142,
      "learning_rate": 2e-05,
      "loss": 0.8025,
      "step": 3180
    },
    {
      "epoch": 1.0980324473593372,
      "grad_norm": 1.4246220588684082,
      "learning_rate": 2e-05,
      "loss": 0.7547,
      "step": 3181
    },
    {
      "epoch": 1.0983776320331378,
      "grad_norm": 1.364691138267517,
      "learning_rate": 2e-05,
      "loss": 0.7372,
      "step": 3182
    },
    {
      "epoch": 1.0987228167069383,
      "grad_norm": 1.490686297416687,
      "learning_rate": 2e-05,
      "loss": 0.8437,
      "step": 3183
    },
    {
      "epoch": 1.0990680013807388,
      "grad_norm": 1.2876957654953003,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 3184
    },
    {
      "epoch": 1.099413186054539,
      "grad_norm": 1.2783335447311401,
      "learning_rate": 2e-05,
      "loss": 0.8034,
      "step": 3185
    },
    {
      "epoch": 1.0997583707283396,
      "grad_norm": 1.2743914127349854,
      "learning_rate": 2e-05,
      "loss": 0.7453,
      "step": 3186
    },
    {
      "epoch": 1.10010355540214,
      "grad_norm": 1.414845585823059,
      "learning_rate": 2e-05,
      "loss": 0.7966,
      "step": 3187
    },
    {
      "epoch": 1.1004487400759406,
      "grad_norm": 1.283377766609192,
      "learning_rate": 2e-05,
      "loss": 0.783,
      "step": 3188
    },
    {
      "epoch": 1.1007939247497411,
      "grad_norm": 1.2826275825500488,
      "learning_rate": 2e-05,
      "loss": 0.7414,
      "step": 3189
    },
    {
      "epoch": 1.1011391094235417,
      "grad_norm": 1.274208903312683,
      "learning_rate": 2e-05,
      "loss": 0.8217,
      "step": 3190
    },
    {
      "epoch": 1.1014842940973422,
      "grad_norm": 1.3051068782806396,
      "learning_rate": 2e-05,
      "loss": 0.7793,
      "step": 3191
    },
    {
      "epoch": 1.1018294787711427,
      "grad_norm": 1.496320366859436,
      "learning_rate": 2e-05,
      "loss": 0.8853,
      "step": 3192
    },
    {
      "epoch": 1.102174663444943,
      "grad_norm": 1.4780467748641968,
      "learning_rate": 2e-05,
      "loss": 0.7373,
      "step": 3193
    },
    {
      "epoch": 1.1025198481187435,
      "grad_norm": 1.3575834035873413,
      "learning_rate": 2e-05,
      "loss": 0.7341,
      "step": 3194
    },
    {
      "epoch": 1.102865032792544,
      "grad_norm": 1.3954392671585083,
      "learning_rate": 2e-05,
      "loss": 0.7383,
      "step": 3195
    },
    {
      "epoch": 1.1032102174663445,
      "grad_norm": 1.3266191482543945,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 3196
    },
    {
      "epoch": 1.103555402140145,
      "grad_norm": 1.3295774459838867,
      "learning_rate": 2e-05,
      "loss": 0.8585,
      "step": 3197
    },
    {
      "epoch": 1.1039005868139455,
      "grad_norm": 1.3659120798110962,
      "learning_rate": 2e-05,
      "loss": 0.7972,
      "step": 3198
    },
    {
      "epoch": 1.1042457714877458,
      "grad_norm": 1.2557406425476074,
      "learning_rate": 2e-05,
      "loss": 0.7197,
      "step": 3199
    },
    {
      "epoch": 1.1045909561615463,
      "grad_norm": 1.2172304391860962,
      "learning_rate": 2e-05,
      "loss": 0.764,
      "step": 3200
    },
    {
      "epoch": 1.1049361408353469,
      "grad_norm": 1.2657846212387085,
      "learning_rate": 2e-05,
      "loss": 0.751,
      "step": 3201
    },
    {
      "epoch": 1.1052813255091474,
      "grad_norm": 1.3157899379730225,
      "learning_rate": 2e-05,
      "loss": 0.7736,
      "step": 3202
    },
    {
      "epoch": 1.1056265101829479,
      "grad_norm": 1.3844815492630005,
      "learning_rate": 2e-05,
      "loss": 0.8923,
      "step": 3203
    },
    {
      "epoch": 1.1059716948567484,
      "grad_norm": 1.4056332111358643,
      "learning_rate": 2e-05,
      "loss": 0.8214,
      "step": 3204
    },
    {
      "epoch": 1.106316879530549,
      "grad_norm": 1.443420648574829,
      "learning_rate": 2e-05,
      "loss": 0.7917,
      "step": 3205
    },
    {
      "epoch": 1.1066620642043494,
      "grad_norm": 1.3033502101898193,
      "learning_rate": 2e-05,
      "loss": 0.7496,
      "step": 3206
    },
    {
      "epoch": 1.1070072488781497,
      "grad_norm": 1.247098445892334,
      "learning_rate": 2e-05,
      "loss": 0.7688,
      "step": 3207
    },
    {
      "epoch": 1.1073524335519502,
      "grad_norm": 1.2464174032211304,
      "learning_rate": 2e-05,
      "loss": 0.7734,
      "step": 3208
    },
    {
      "epoch": 1.1076976182257507,
      "grad_norm": 1.31736159324646,
      "learning_rate": 2e-05,
      "loss": 0.7432,
      "step": 3209
    },
    {
      "epoch": 1.1080428028995513,
      "grad_norm": 1.2637219429016113,
      "learning_rate": 2e-05,
      "loss": 0.8271,
      "step": 3210
    },
    {
      "epoch": 1.1083879875733518,
      "grad_norm": 1.4140270948410034,
      "learning_rate": 2e-05,
      "loss": 0.8416,
      "step": 3211
    },
    {
      "epoch": 1.1087331722471523,
      "grad_norm": 1.3837727308273315,
      "learning_rate": 2e-05,
      "loss": 0.8217,
      "step": 3212
    },
    {
      "epoch": 1.1090783569209528,
      "grad_norm": 1.3069266080856323,
      "learning_rate": 2e-05,
      "loss": 0.8009,
      "step": 3213
    },
    {
      "epoch": 1.109423541594753,
      "grad_norm": 1.309162974357605,
      "learning_rate": 2e-05,
      "loss": 0.8482,
      "step": 3214
    },
    {
      "epoch": 1.1097687262685536,
      "grad_norm": 1.2912184000015259,
      "learning_rate": 2e-05,
      "loss": 0.8623,
      "step": 3215
    },
    {
      "epoch": 1.1101139109423541,
      "grad_norm": 1.3626991510391235,
      "learning_rate": 2e-05,
      "loss": 0.8405,
      "step": 3216
    },
    {
      "epoch": 1.1104590956161546,
      "grad_norm": 1.339189052581787,
      "learning_rate": 2e-05,
      "loss": 0.7154,
      "step": 3217
    },
    {
      "epoch": 1.1108042802899551,
      "grad_norm": 1.3469593524932861,
      "learning_rate": 2e-05,
      "loss": 0.7528,
      "step": 3218
    },
    {
      "epoch": 1.1111494649637557,
      "grad_norm": 1.3156863451004028,
      "learning_rate": 2e-05,
      "loss": 0.8431,
      "step": 3219
    },
    {
      "epoch": 1.1114946496375562,
      "grad_norm": 1.2844536304473877,
      "learning_rate": 2e-05,
      "loss": 0.7762,
      "step": 3220
    },
    {
      "epoch": 1.1118398343113567,
      "grad_norm": 1.2123383283615112,
      "learning_rate": 2e-05,
      "loss": 0.7449,
      "step": 3221
    },
    {
      "epoch": 1.112185018985157,
      "grad_norm": 1.3302969932556152,
      "learning_rate": 2e-05,
      "loss": 0.7716,
      "step": 3222
    },
    {
      "epoch": 1.1125302036589575,
      "grad_norm": 1.3304941654205322,
      "learning_rate": 2e-05,
      "loss": 0.7839,
      "step": 3223
    },
    {
      "epoch": 1.112875388332758,
      "grad_norm": 1.4841814041137695,
      "learning_rate": 2e-05,
      "loss": 0.7566,
      "step": 3224
    },
    {
      "epoch": 1.1132205730065585,
      "grad_norm": 1.3794723749160767,
      "learning_rate": 2e-05,
      "loss": 0.7779,
      "step": 3225
    },
    {
      "epoch": 1.113565757680359,
      "grad_norm": 1.3703057765960693,
      "learning_rate": 2e-05,
      "loss": 0.7999,
      "step": 3226
    },
    {
      "epoch": 1.1139109423541596,
      "grad_norm": 1.3882473707199097,
      "learning_rate": 2e-05,
      "loss": 0.8649,
      "step": 3227
    },
    {
      "epoch": 1.1142561270279598,
      "grad_norm": 1.2837464809417725,
      "learning_rate": 2e-05,
      "loss": 0.8003,
      "step": 3228
    },
    {
      "epoch": 1.1146013117017604,
      "grad_norm": 1.5588570833206177,
      "learning_rate": 2e-05,
      "loss": 0.7428,
      "step": 3229
    },
    {
      "epoch": 1.1149464963755609,
      "grad_norm": 1.341688632965088,
      "learning_rate": 2e-05,
      "loss": 0.7671,
      "step": 3230
    },
    {
      "epoch": 1.1152916810493614,
      "grad_norm": 1.3892524242401123,
      "learning_rate": 2e-05,
      "loss": 0.7735,
      "step": 3231
    },
    {
      "epoch": 1.115636865723162,
      "grad_norm": 1.3773760795593262,
      "learning_rate": 2e-05,
      "loss": 0.8693,
      "step": 3232
    },
    {
      "epoch": 1.1159820503969624,
      "grad_norm": 1.3564270734786987,
      "learning_rate": 2e-05,
      "loss": 0.7604,
      "step": 3233
    },
    {
      "epoch": 1.116327235070763,
      "grad_norm": 1.366991639137268,
      "learning_rate": 2e-05,
      "loss": 0.8381,
      "step": 3234
    },
    {
      "epoch": 1.1166724197445634,
      "grad_norm": 1.2958548069000244,
      "learning_rate": 2e-05,
      "loss": 0.7629,
      "step": 3235
    },
    {
      "epoch": 1.1170176044183637,
      "grad_norm": 1.2596038579940796,
      "learning_rate": 2e-05,
      "loss": 0.7672,
      "step": 3236
    },
    {
      "epoch": 1.1173627890921642,
      "grad_norm": 1.2776671648025513,
      "learning_rate": 2e-05,
      "loss": 0.7952,
      "step": 3237
    },
    {
      "epoch": 1.1177079737659648,
      "grad_norm": 1.3282655477523804,
      "learning_rate": 2e-05,
      "loss": 0.7961,
      "step": 3238
    },
    {
      "epoch": 1.1180531584397653,
      "grad_norm": 1.4273916482925415,
      "learning_rate": 2e-05,
      "loss": 0.8157,
      "step": 3239
    },
    {
      "epoch": 1.1183983431135658,
      "grad_norm": 1.3686883449554443,
      "learning_rate": 2e-05,
      "loss": 0.75,
      "step": 3240
    },
    {
      "epoch": 1.1187435277873663,
      "grad_norm": 1.3648594617843628,
      "learning_rate": 2e-05,
      "loss": 0.8636,
      "step": 3241
    },
    {
      "epoch": 1.1190887124611668,
      "grad_norm": 1.4315589666366577,
      "learning_rate": 2e-05,
      "loss": 0.8277,
      "step": 3242
    },
    {
      "epoch": 1.119433897134967,
      "grad_norm": 1.3033115863800049,
      "learning_rate": 2e-05,
      "loss": 0.7631,
      "step": 3243
    },
    {
      "epoch": 1.1197790818087676,
      "grad_norm": 1.4094314575195312,
      "learning_rate": 2e-05,
      "loss": 0.8078,
      "step": 3244
    },
    {
      "epoch": 1.1201242664825681,
      "grad_norm": 1.3224644660949707,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 3245
    },
    {
      "epoch": 1.1204694511563686,
      "grad_norm": 1.4471991062164307,
      "learning_rate": 2e-05,
      "loss": 0.7852,
      "step": 3246
    },
    {
      "epoch": 1.1208146358301692,
      "grad_norm": 1.3258488178253174,
      "learning_rate": 2e-05,
      "loss": 0.8326,
      "step": 3247
    },
    {
      "epoch": 1.1211598205039697,
      "grad_norm": 1.364467740058899,
      "learning_rate": 2e-05,
      "loss": 0.8096,
      "step": 3248
    },
    {
      "epoch": 1.1215050051777702,
      "grad_norm": 1.3129336833953857,
      "learning_rate": 2e-05,
      "loss": 0.7954,
      "step": 3249
    },
    {
      "epoch": 1.1218501898515707,
      "grad_norm": 1.2669364213943481,
      "learning_rate": 2e-05,
      "loss": 0.791,
      "step": 3250
    },
    {
      "epoch": 1.122195374525371,
      "grad_norm": 1.3017337322235107,
      "learning_rate": 2e-05,
      "loss": 0.8046,
      "step": 3251
    },
    {
      "epoch": 1.1225405591991715,
      "grad_norm": 1.4131319522857666,
      "learning_rate": 2e-05,
      "loss": 0.8147,
      "step": 3252
    },
    {
      "epoch": 1.122885743872972,
      "grad_norm": 1.1861631870269775,
      "learning_rate": 2e-05,
      "loss": 0.7846,
      "step": 3253
    },
    {
      "epoch": 1.1232309285467725,
      "grad_norm": 1.3908360004425049,
      "learning_rate": 2e-05,
      "loss": 0.9087,
      "step": 3254
    },
    {
      "epoch": 1.123576113220573,
      "grad_norm": 1.6051684617996216,
      "learning_rate": 2e-05,
      "loss": 0.7622,
      "step": 3255
    },
    {
      "epoch": 1.1239212978943736,
      "grad_norm": 1.3519586324691772,
      "learning_rate": 2e-05,
      "loss": 0.8155,
      "step": 3256
    },
    {
      "epoch": 1.124266482568174,
      "grad_norm": 1.4463303089141846,
      "learning_rate": 2e-05,
      "loss": 0.8125,
      "step": 3257
    },
    {
      "epoch": 1.1246116672419744,
      "grad_norm": 1.3388285636901855,
      "learning_rate": 2e-05,
      "loss": 0.7234,
      "step": 3258
    },
    {
      "epoch": 1.1249568519157749,
      "grad_norm": 1.2941004037857056,
      "learning_rate": 2e-05,
      "loss": 0.8266,
      "step": 3259
    },
    {
      "epoch": 1.1253020365895754,
      "grad_norm": 1.3005496263504028,
      "learning_rate": 2e-05,
      "loss": 0.8426,
      "step": 3260
    },
    {
      "epoch": 1.125647221263376,
      "grad_norm": 1.2391881942749023,
      "learning_rate": 2e-05,
      "loss": 0.8054,
      "step": 3261
    },
    {
      "epoch": 1.1259924059371764,
      "grad_norm": 1.4083123207092285,
      "learning_rate": 2e-05,
      "loss": 0.8081,
      "step": 3262
    },
    {
      "epoch": 1.126337590610977,
      "grad_norm": 1.3446098566055298,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 3263
    },
    {
      "epoch": 1.1266827752847774,
      "grad_norm": 1.4448940753936768,
      "learning_rate": 2e-05,
      "loss": 0.8095,
      "step": 3264
    },
    {
      "epoch": 1.127027959958578,
      "grad_norm": 1.3241616487503052,
      "learning_rate": 2e-05,
      "loss": 0.807,
      "step": 3265
    },
    {
      "epoch": 1.1273731446323783,
      "grad_norm": 1.199783205986023,
      "learning_rate": 2e-05,
      "loss": 0.7672,
      "step": 3266
    },
    {
      "epoch": 1.1277183293061788,
      "grad_norm": 1.2824900150299072,
      "learning_rate": 2e-05,
      "loss": 0.7856,
      "step": 3267
    },
    {
      "epoch": 1.1280635139799793,
      "grad_norm": 1.2818901538848877,
      "learning_rate": 2e-05,
      "loss": 0.8342,
      "step": 3268
    },
    {
      "epoch": 1.1284086986537798,
      "grad_norm": 1.4030183553695679,
      "learning_rate": 2e-05,
      "loss": 0.8588,
      "step": 3269
    },
    {
      "epoch": 1.1287538833275803,
      "grad_norm": 1.4248225688934326,
      "learning_rate": 2e-05,
      "loss": 0.8834,
      "step": 3270
    },
    {
      "epoch": 1.1290990680013808,
      "grad_norm": 1.366754174232483,
      "learning_rate": 2e-05,
      "loss": 0.7958,
      "step": 3271
    },
    {
      "epoch": 1.1294442526751811,
      "grad_norm": 1.2850239276885986,
      "learning_rate": 2e-05,
      "loss": 0.7191,
      "step": 3272
    },
    {
      "epoch": 1.1297894373489816,
      "grad_norm": 1.3299394845962524,
      "learning_rate": 2e-05,
      "loss": 0.7858,
      "step": 3273
    },
    {
      "epoch": 1.1301346220227821,
      "grad_norm": 1.536566138267517,
      "learning_rate": 2e-05,
      "loss": 0.8182,
      "step": 3274
    },
    {
      "epoch": 1.1304798066965827,
      "grad_norm": 1.5031927824020386,
      "learning_rate": 2e-05,
      "loss": 0.8369,
      "step": 3275
    },
    {
      "epoch": 1.1308249913703832,
      "grad_norm": 1.3837791681289673,
      "learning_rate": 2e-05,
      "loss": 0.8269,
      "step": 3276
    },
    {
      "epoch": 1.1311701760441837,
      "grad_norm": 1.2532970905303955,
      "learning_rate": 2e-05,
      "loss": 0.7638,
      "step": 3277
    },
    {
      "epoch": 1.1315153607179842,
      "grad_norm": 1.3853987455368042,
      "learning_rate": 2e-05,
      "loss": 0.7835,
      "step": 3278
    },
    {
      "epoch": 1.1318605453917847,
      "grad_norm": 1.3461158275604248,
      "learning_rate": 2e-05,
      "loss": 0.8106,
      "step": 3279
    },
    {
      "epoch": 1.132205730065585,
      "grad_norm": 1.250452995300293,
      "learning_rate": 2e-05,
      "loss": 0.7614,
      "step": 3280
    },
    {
      "epoch": 1.1325509147393855,
      "grad_norm": 1.2458113431930542,
      "learning_rate": 2e-05,
      "loss": 0.7781,
      "step": 3281
    },
    {
      "epoch": 1.132896099413186,
      "grad_norm": 1.2731863260269165,
      "learning_rate": 2e-05,
      "loss": 0.7421,
      "step": 3282
    },
    {
      "epoch": 1.1332412840869865,
      "grad_norm": 1.293257713317871,
      "learning_rate": 2e-05,
      "loss": 0.7943,
      "step": 3283
    },
    {
      "epoch": 1.133586468760787,
      "grad_norm": 2.074493169784546,
      "learning_rate": 2e-05,
      "loss": 0.738,
      "step": 3284
    },
    {
      "epoch": 1.1339316534345876,
      "grad_norm": 1.1385208368301392,
      "learning_rate": 2e-05,
      "loss": 0.8189,
      "step": 3285
    },
    {
      "epoch": 1.1342768381083879,
      "grad_norm": 1.3736492395401,
      "learning_rate": 2e-05,
      "loss": 0.7344,
      "step": 3286
    },
    {
      "epoch": 1.1346220227821884,
      "grad_norm": 1.2196980714797974,
      "learning_rate": 2e-05,
      "loss": 0.85,
      "step": 3287
    },
    {
      "epoch": 1.134967207455989,
      "grad_norm": 1.3188313245773315,
      "learning_rate": 2e-05,
      "loss": 0.8126,
      "step": 3288
    },
    {
      "epoch": 1.1353123921297894,
      "grad_norm": 1.4769076108932495,
      "learning_rate": 2e-05,
      "loss": 0.8028,
      "step": 3289
    },
    {
      "epoch": 1.13565757680359,
      "grad_norm": 1.180516242980957,
      "learning_rate": 2e-05,
      "loss": 0.8318,
      "step": 3290
    },
    {
      "epoch": 1.1360027614773904,
      "grad_norm": 1.4437531232833862,
      "learning_rate": 2e-05,
      "loss": 0.7857,
      "step": 3291
    },
    {
      "epoch": 1.136347946151191,
      "grad_norm": 1.479658842086792,
      "learning_rate": 2e-05,
      "loss": 0.7376,
      "step": 3292
    },
    {
      "epoch": 1.1366931308249915,
      "grad_norm": 1.2154784202575684,
      "learning_rate": 2e-05,
      "loss": 0.7258,
      "step": 3293
    },
    {
      "epoch": 1.137038315498792,
      "grad_norm": 1.3564081192016602,
      "learning_rate": 2e-05,
      "loss": 0.7707,
      "step": 3294
    },
    {
      "epoch": 1.1373835001725923,
      "grad_norm": 1.2892191410064697,
      "learning_rate": 2e-05,
      "loss": 0.8311,
      "step": 3295
    },
    {
      "epoch": 1.1377286848463928,
      "grad_norm": 1.374983549118042,
      "learning_rate": 2e-05,
      "loss": 0.8405,
      "step": 3296
    },
    {
      "epoch": 1.1380738695201933,
      "grad_norm": 1.2524548768997192,
      "learning_rate": 2e-05,
      "loss": 0.7554,
      "step": 3297
    },
    {
      "epoch": 1.1384190541939938,
      "grad_norm": 1.3525056838989258,
      "learning_rate": 2e-05,
      "loss": 0.7772,
      "step": 3298
    },
    {
      "epoch": 1.1387642388677943,
      "grad_norm": 1.5546135902404785,
      "learning_rate": 2e-05,
      "loss": 0.8089,
      "step": 3299
    },
    {
      "epoch": 1.1391094235415948,
      "grad_norm": 1.363173484802246,
      "learning_rate": 2e-05,
      "loss": 0.7933,
      "step": 3300
    },
    {
      "epoch": 1.1394546082153951,
      "grad_norm": 1.2415903806686401,
      "learning_rate": 2e-05,
      "loss": 0.7004,
      "step": 3301
    },
    {
      "epoch": 1.1397997928891956,
      "grad_norm": 1.3711087703704834,
      "learning_rate": 2e-05,
      "loss": 0.8507,
      "step": 3302
    },
    {
      "epoch": 1.1401449775629962,
      "grad_norm": 1.3740968704223633,
      "learning_rate": 2e-05,
      "loss": 0.8385,
      "step": 3303
    },
    {
      "epoch": 1.1404901622367967,
      "grad_norm": 1.3380571603775024,
      "learning_rate": 2e-05,
      "loss": 0.8365,
      "step": 3304
    },
    {
      "epoch": 1.1408353469105972,
      "grad_norm": 1.2368865013122559,
      "learning_rate": 2e-05,
      "loss": 0.7807,
      "step": 3305
    },
    {
      "epoch": 1.1411805315843977,
      "grad_norm": 1.3365161418914795,
      "learning_rate": 2e-05,
      "loss": 0.7735,
      "step": 3306
    },
    {
      "epoch": 1.1415257162581982,
      "grad_norm": 1.308146357536316,
      "learning_rate": 2e-05,
      "loss": 0.7549,
      "step": 3307
    },
    {
      "epoch": 1.1418709009319987,
      "grad_norm": 1.4071563482284546,
      "learning_rate": 2e-05,
      "loss": 0.8188,
      "step": 3308
    },
    {
      "epoch": 1.142216085605799,
      "grad_norm": 1.4337437152862549,
      "learning_rate": 2e-05,
      "loss": 0.8003,
      "step": 3309
    },
    {
      "epoch": 1.1425612702795995,
      "grad_norm": 1.3395065069198608,
      "learning_rate": 2e-05,
      "loss": 0.7857,
      "step": 3310
    },
    {
      "epoch": 1.1429064549534,
      "grad_norm": 1.3200308084487915,
      "learning_rate": 2e-05,
      "loss": 0.7308,
      "step": 3311
    },
    {
      "epoch": 1.1432516396272006,
      "grad_norm": 1.3033442497253418,
      "learning_rate": 2e-05,
      "loss": 0.8054,
      "step": 3312
    },
    {
      "epoch": 1.143596824301001,
      "grad_norm": 1.266473650932312,
      "learning_rate": 2e-05,
      "loss": 0.7525,
      "step": 3313
    },
    {
      "epoch": 1.1439420089748016,
      "grad_norm": 1.4520145654678345,
      "learning_rate": 2e-05,
      "loss": 0.7506,
      "step": 3314
    },
    {
      "epoch": 1.144287193648602,
      "grad_norm": 1.451698660850525,
      "learning_rate": 2e-05,
      "loss": 0.7595,
      "step": 3315
    },
    {
      "epoch": 1.1446323783224024,
      "grad_norm": 1.3769049644470215,
      "learning_rate": 2e-05,
      "loss": 0.8126,
      "step": 3316
    },
    {
      "epoch": 1.144977562996203,
      "grad_norm": 1.3204106092453003,
      "learning_rate": 2e-05,
      "loss": 0.7885,
      "step": 3317
    },
    {
      "epoch": 1.1453227476700034,
      "grad_norm": 1.2717714309692383,
      "learning_rate": 2e-05,
      "loss": 0.829,
      "step": 3318
    },
    {
      "epoch": 1.145667932343804,
      "grad_norm": 1.2379080057144165,
      "learning_rate": 2e-05,
      "loss": 0.7672,
      "step": 3319
    },
    {
      "epoch": 1.1460131170176044,
      "grad_norm": 1.2362662553787231,
      "learning_rate": 2e-05,
      "loss": 0.8196,
      "step": 3320
    },
    {
      "epoch": 1.146358301691405,
      "grad_norm": 1.4129420518875122,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 3321
    },
    {
      "epoch": 1.1467034863652055,
      "grad_norm": 1.403629183769226,
      "learning_rate": 2e-05,
      "loss": 0.8591,
      "step": 3322
    },
    {
      "epoch": 1.147048671039006,
      "grad_norm": 1.274462103843689,
      "learning_rate": 2e-05,
      "loss": 0.7962,
      "step": 3323
    },
    {
      "epoch": 1.1473938557128063,
      "grad_norm": 1.2281250953674316,
      "learning_rate": 2e-05,
      "loss": 0.7759,
      "step": 3324
    },
    {
      "epoch": 1.1477390403866068,
      "grad_norm": 1.3188227415084839,
      "learning_rate": 2e-05,
      "loss": 0.8007,
      "step": 3325
    },
    {
      "epoch": 1.1480842250604073,
      "grad_norm": 1.479578971862793,
      "learning_rate": 2e-05,
      "loss": 0.8476,
      "step": 3326
    },
    {
      "epoch": 1.1484294097342078,
      "grad_norm": 1.4066250324249268,
      "learning_rate": 2e-05,
      "loss": 0.7383,
      "step": 3327
    },
    {
      "epoch": 1.1487745944080083,
      "grad_norm": 1.1615320444107056,
      "learning_rate": 2e-05,
      "loss": 0.7554,
      "step": 3328
    },
    {
      "epoch": 1.1491197790818088,
      "grad_norm": 1.191105604171753,
      "learning_rate": 2e-05,
      "loss": 0.7039,
      "step": 3329
    },
    {
      "epoch": 1.1494649637556091,
      "grad_norm": 1.3147368431091309,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 3330
    },
    {
      "epoch": 1.1498101484294097,
      "grad_norm": 1.2224262952804565,
      "learning_rate": 2e-05,
      "loss": 0.7263,
      "step": 3331
    },
    {
      "epoch": 1.1501553331032102,
      "grad_norm": 1.2438416481018066,
      "learning_rate": 2e-05,
      "loss": 0.796,
      "step": 3332
    },
    {
      "epoch": 1.1505005177770107,
      "grad_norm": 1.4931541681289673,
      "learning_rate": 2e-05,
      "loss": 0.848,
      "step": 3333
    },
    {
      "epoch": 1.1508457024508112,
      "grad_norm": 1.3698289394378662,
      "learning_rate": 2e-05,
      "loss": 0.9104,
      "step": 3334
    },
    {
      "epoch": 1.1511908871246117,
      "grad_norm": 1.277989387512207,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 3335
    },
    {
      "epoch": 1.1515360717984122,
      "grad_norm": 1.361925721168518,
      "learning_rate": 2e-05,
      "loss": 0.7832,
      "step": 3336
    },
    {
      "epoch": 1.1518812564722127,
      "grad_norm": 1.4360600709915161,
      "learning_rate": 2e-05,
      "loss": 0.8525,
      "step": 3337
    },
    {
      "epoch": 1.152226441146013,
      "grad_norm": 1.2672538757324219,
      "learning_rate": 2e-05,
      "loss": 0.768,
      "step": 3338
    },
    {
      "epoch": 1.1525716258198135,
      "grad_norm": 1.1972622871398926,
      "learning_rate": 2e-05,
      "loss": 0.7278,
      "step": 3339
    },
    {
      "epoch": 1.152916810493614,
      "grad_norm": 1.1677314043045044,
      "learning_rate": 2e-05,
      "loss": 0.73,
      "step": 3340
    },
    {
      "epoch": 1.1532619951674146,
      "grad_norm": 1.3484257459640503,
      "learning_rate": 2e-05,
      "loss": 0.7554,
      "step": 3341
    },
    {
      "epoch": 1.153607179841215,
      "grad_norm": 1.4016063213348389,
      "learning_rate": 2e-05,
      "loss": 0.8111,
      "step": 3342
    },
    {
      "epoch": 1.1539523645150156,
      "grad_norm": 1.342495322227478,
      "learning_rate": 2e-05,
      "loss": 0.7136,
      "step": 3343
    },
    {
      "epoch": 1.154297549188816,
      "grad_norm": 1.4614615440368652,
      "learning_rate": 2e-05,
      "loss": 0.7961,
      "step": 3344
    },
    {
      "epoch": 1.1546427338626164,
      "grad_norm": 1.425416111946106,
      "learning_rate": 2e-05,
      "loss": 0.7527,
      "step": 3345
    },
    {
      "epoch": 1.154987918536417,
      "grad_norm": 1.415570616722107,
      "learning_rate": 2e-05,
      "loss": 0.8363,
      "step": 3346
    },
    {
      "epoch": 1.1553331032102174,
      "grad_norm": 1.526341438293457,
      "learning_rate": 2e-05,
      "loss": 0.6788,
      "step": 3347
    },
    {
      "epoch": 1.155678287884018,
      "grad_norm": 1.4435867071151733,
      "learning_rate": 2e-05,
      "loss": 0.7795,
      "step": 3348
    },
    {
      "epoch": 1.1560234725578185,
      "grad_norm": 1.3960365056991577,
      "learning_rate": 2e-05,
      "loss": 0.7943,
      "step": 3349
    },
    {
      "epoch": 1.156368657231619,
      "grad_norm": 1.3061264753341675,
      "learning_rate": 2e-05,
      "loss": 0.787,
      "step": 3350
    },
    {
      "epoch": 1.1567138419054195,
      "grad_norm": 1.2024117708206177,
      "learning_rate": 2e-05,
      "loss": 0.8003,
      "step": 3351
    },
    {
      "epoch": 1.15705902657922,
      "grad_norm": 1.3194886445999146,
      "learning_rate": 2e-05,
      "loss": 0.7809,
      "step": 3352
    },
    {
      "epoch": 1.1574042112530203,
      "grad_norm": 1.3443444967269897,
      "learning_rate": 2e-05,
      "loss": 0.8026,
      "step": 3353
    },
    {
      "epoch": 1.1577493959268208,
      "grad_norm": 1.4279463291168213,
      "learning_rate": 2e-05,
      "loss": 0.7863,
      "step": 3354
    },
    {
      "epoch": 1.1580945806006213,
      "grad_norm": 1.4517484903335571,
      "learning_rate": 2e-05,
      "loss": 0.8418,
      "step": 3355
    },
    {
      "epoch": 1.1584397652744218,
      "grad_norm": 1.2797582149505615,
      "learning_rate": 2e-05,
      "loss": 0.8142,
      "step": 3356
    },
    {
      "epoch": 1.1587849499482223,
      "grad_norm": 1.256456732749939,
      "learning_rate": 2e-05,
      "loss": 0.7367,
      "step": 3357
    },
    {
      "epoch": 1.1591301346220229,
      "grad_norm": 1.3614236116409302,
      "learning_rate": 2e-05,
      "loss": 0.8127,
      "step": 3358
    },
    {
      "epoch": 1.1594753192958231,
      "grad_norm": 1.1922738552093506,
      "learning_rate": 2e-05,
      "loss": 0.7701,
      "step": 3359
    },
    {
      "epoch": 1.1598205039696237,
      "grad_norm": 1.3544769287109375,
      "learning_rate": 2e-05,
      "loss": 0.8273,
      "step": 3360
    },
    {
      "epoch": 1.1601656886434242,
      "grad_norm": 1.261810064315796,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 3361
    },
    {
      "epoch": 1.1605108733172247,
      "grad_norm": 1.2408419847488403,
      "learning_rate": 2e-05,
      "loss": 0.7315,
      "step": 3362
    },
    {
      "epoch": 1.1608560579910252,
      "grad_norm": 1.2835971117019653,
      "learning_rate": 2e-05,
      "loss": 0.7852,
      "step": 3363
    },
    {
      "epoch": 1.1612012426648257,
      "grad_norm": 1.2830770015716553,
      "learning_rate": 2e-05,
      "loss": 0.8264,
      "step": 3364
    },
    {
      "epoch": 1.1615464273386262,
      "grad_norm": 1.3074406385421753,
      "learning_rate": 2e-05,
      "loss": 0.8656,
      "step": 3365
    },
    {
      "epoch": 1.1618916120124267,
      "grad_norm": 1.3576860427856445,
      "learning_rate": 2e-05,
      "loss": 0.7593,
      "step": 3366
    },
    {
      "epoch": 1.162236796686227,
      "grad_norm": 1.3382608890533447,
      "learning_rate": 2e-05,
      "loss": 0.8135,
      "step": 3367
    },
    {
      "epoch": 1.1625819813600275,
      "grad_norm": 1.3264591693878174,
      "learning_rate": 2e-05,
      "loss": 0.8939,
      "step": 3368
    },
    {
      "epoch": 1.162927166033828,
      "grad_norm": 1.2909663915634155,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 3369
    },
    {
      "epoch": 1.1632723507076286,
      "grad_norm": 1.3388181924819946,
      "learning_rate": 2e-05,
      "loss": 0.8171,
      "step": 3370
    },
    {
      "epoch": 1.163617535381429,
      "grad_norm": 1.302099585533142,
      "learning_rate": 2e-05,
      "loss": 0.7178,
      "step": 3371
    },
    {
      "epoch": 1.1639627200552296,
      "grad_norm": 1.2760480642318726,
      "learning_rate": 2e-05,
      "loss": 0.7439,
      "step": 3372
    },
    {
      "epoch": 1.1643079047290301,
      "grad_norm": 1.3362517356872559,
      "learning_rate": 2e-05,
      "loss": 0.7784,
      "step": 3373
    },
    {
      "epoch": 1.1646530894028304,
      "grad_norm": 1.4247843027114868,
      "learning_rate": 2e-05,
      "loss": 0.7999,
      "step": 3374
    },
    {
      "epoch": 1.164998274076631,
      "grad_norm": 1.3518688678741455,
      "learning_rate": 2e-05,
      "loss": 0.8141,
      "step": 3375
    },
    {
      "epoch": 1.1653434587504314,
      "grad_norm": 1.409690499305725,
      "learning_rate": 2e-05,
      "loss": 0.8372,
      "step": 3376
    },
    {
      "epoch": 1.165688643424232,
      "grad_norm": 1.2744165658950806,
      "learning_rate": 2e-05,
      "loss": 0.7826,
      "step": 3377
    },
    {
      "epoch": 1.1660338280980325,
      "grad_norm": 1.2013731002807617,
      "learning_rate": 2e-05,
      "loss": 0.7929,
      "step": 3378
    },
    {
      "epoch": 1.166379012771833,
      "grad_norm": 1.3799513578414917,
      "learning_rate": 2e-05,
      "loss": 0.8551,
      "step": 3379
    },
    {
      "epoch": 1.1667241974456335,
      "grad_norm": 1.3707387447357178,
      "learning_rate": 2e-05,
      "loss": 0.7623,
      "step": 3380
    },
    {
      "epoch": 1.167069382119434,
      "grad_norm": 1.2557240724563599,
      "learning_rate": 2e-05,
      "loss": 0.7978,
      "step": 3381
    },
    {
      "epoch": 1.1674145667932343,
      "grad_norm": 1.4386742115020752,
      "learning_rate": 2e-05,
      "loss": 0.8045,
      "step": 3382
    },
    {
      "epoch": 1.1677597514670348,
      "grad_norm": 1.3224904537200928,
      "learning_rate": 2e-05,
      "loss": 0.7858,
      "step": 3383
    },
    {
      "epoch": 1.1681049361408353,
      "grad_norm": 1.406636357307434,
      "learning_rate": 2e-05,
      "loss": 0.8694,
      "step": 3384
    },
    {
      "epoch": 1.1684501208146358,
      "grad_norm": 1.3572052717208862,
      "learning_rate": 2e-05,
      "loss": 0.8371,
      "step": 3385
    },
    {
      "epoch": 1.1687953054884364,
      "grad_norm": 1.2568835020065308,
      "learning_rate": 2e-05,
      "loss": 0.8265,
      "step": 3386
    },
    {
      "epoch": 1.1691404901622369,
      "grad_norm": 1.405480146408081,
      "learning_rate": 2e-05,
      "loss": 0.783,
      "step": 3387
    },
    {
      "epoch": 1.1694856748360372,
      "grad_norm": 1.3895595073699951,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 3388
    },
    {
      "epoch": 1.1698308595098377,
      "grad_norm": 1.520925521850586,
      "learning_rate": 2e-05,
      "loss": 0.8392,
      "step": 3389
    },
    {
      "epoch": 1.1701760441836382,
      "grad_norm": 1.3051950931549072,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 3390
    },
    {
      "epoch": 1.1705212288574387,
      "grad_norm": 1.4393457174301147,
      "learning_rate": 2e-05,
      "loss": 0.7298,
      "step": 3391
    },
    {
      "epoch": 1.1708664135312392,
      "grad_norm": 1.3823992013931274,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 3392
    },
    {
      "epoch": 1.1712115982050397,
      "grad_norm": 1.3603435754776,
      "learning_rate": 2e-05,
      "loss": 0.7627,
      "step": 3393
    },
    {
      "epoch": 1.1715567828788402,
      "grad_norm": 1.2129781246185303,
      "learning_rate": 2e-05,
      "loss": 0.7795,
      "step": 3394
    },
    {
      "epoch": 1.1719019675526408,
      "grad_norm": 1.2806657552719116,
      "learning_rate": 2e-05,
      "loss": 0.7661,
      "step": 3395
    },
    {
      "epoch": 1.1722471522264413,
      "grad_norm": 1.3602807521820068,
      "learning_rate": 2e-05,
      "loss": 0.772,
      "step": 3396
    },
    {
      "epoch": 1.1725923369002416,
      "grad_norm": 1.4395910501480103,
      "learning_rate": 2e-05,
      "loss": 0.8356,
      "step": 3397
    },
    {
      "epoch": 1.172937521574042,
      "grad_norm": 1.3538366556167603,
      "learning_rate": 2e-05,
      "loss": 0.8644,
      "step": 3398
    },
    {
      "epoch": 1.1732827062478426,
      "grad_norm": 1.1991331577301025,
      "learning_rate": 2e-05,
      "loss": 0.7687,
      "step": 3399
    },
    {
      "epoch": 1.173627890921643,
      "grad_norm": 1.2048832178115845,
      "learning_rate": 2e-05,
      "loss": 0.7484,
      "step": 3400
    },
    {
      "epoch": 1.1739730755954436,
      "grad_norm": 1.3121238946914673,
      "learning_rate": 2e-05,
      "loss": 0.8361,
      "step": 3401
    },
    {
      "epoch": 1.1743182602692441,
      "grad_norm": 1.1962929964065552,
      "learning_rate": 2e-05,
      "loss": 0.7673,
      "step": 3402
    },
    {
      "epoch": 1.1746634449430444,
      "grad_norm": 1.2614071369171143,
      "learning_rate": 2e-05,
      "loss": 0.7347,
      "step": 3403
    },
    {
      "epoch": 1.175008629616845,
      "grad_norm": 1.3480337858200073,
      "learning_rate": 2e-05,
      "loss": 0.7822,
      "step": 3404
    },
    {
      "epoch": 1.1753538142906454,
      "grad_norm": 1.3355845212936401,
      "learning_rate": 2e-05,
      "loss": 0.7612,
      "step": 3405
    },
    {
      "epoch": 1.175698998964446,
      "grad_norm": 1.3041675090789795,
      "learning_rate": 2e-05,
      "loss": 0.7749,
      "step": 3406
    },
    {
      "epoch": 1.1760441836382465,
      "grad_norm": 1.3768903017044067,
      "learning_rate": 2e-05,
      "loss": 0.7698,
      "step": 3407
    },
    {
      "epoch": 1.176389368312047,
      "grad_norm": 1.3467073440551758,
      "learning_rate": 2e-05,
      "loss": 0.7516,
      "step": 3408
    },
    {
      "epoch": 1.1767345529858475,
      "grad_norm": 1.3231310844421387,
      "learning_rate": 2e-05,
      "loss": 0.816,
      "step": 3409
    },
    {
      "epoch": 1.177079737659648,
      "grad_norm": 1.370851993560791,
      "learning_rate": 2e-05,
      "loss": 0.7971,
      "step": 3410
    },
    {
      "epoch": 1.1774249223334483,
      "grad_norm": 1.2870475053787231,
      "learning_rate": 2e-05,
      "loss": 0.7519,
      "step": 3411
    },
    {
      "epoch": 1.1777701070072488,
      "grad_norm": 1.2329442501068115,
      "learning_rate": 2e-05,
      "loss": 0.7508,
      "step": 3412
    },
    {
      "epoch": 1.1781152916810493,
      "grad_norm": 1.3785475492477417,
      "learning_rate": 2e-05,
      "loss": 0.8014,
      "step": 3413
    },
    {
      "epoch": 1.1784604763548499,
      "grad_norm": 1.405920386314392,
      "learning_rate": 2e-05,
      "loss": 0.7904,
      "step": 3414
    },
    {
      "epoch": 1.1788056610286504,
      "grad_norm": 1.3515578508377075,
      "learning_rate": 2e-05,
      "loss": 0.8034,
      "step": 3415
    },
    {
      "epoch": 1.1791508457024509,
      "grad_norm": 1.2850147485733032,
      "learning_rate": 2e-05,
      "loss": 0.837,
      "step": 3416
    },
    {
      "epoch": 1.1794960303762512,
      "grad_norm": 1.265142560005188,
      "learning_rate": 2e-05,
      "loss": 0.8364,
      "step": 3417
    },
    {
      "epoch": 1.1798412150500517,
      "grad_norm": 1.344377040863037,
      "learning_rate": 2e-05,
      "loss": 0.7477,
      "step": 3418
    },
    {
      "epoch": 1.1801863997238522,
      "grad_norm": 1.306577205657959,
      "learning_rate": 2e-05,
      "loss": 0.7768,
      "step": 3419
    },
    {
      "epoch": 1.1805315843976527,
      "grad_norm": 1.3403136730194092,
      "learning_rate": 2e-05,
      "loss": 0.7862,
      "step": 3420
    },
    {
      "epoch": 1.1808767690714532,
      "grad_norm": 1.3233325481414795,
      "learning_rate": 2e-05,
      "loss": 0.7696,
      "step": 3421
    },
    {
      "epoch": 1.1812219537452537,
      "grad_norm": 1.261964201927185,
      "learning_rate": 2e-05,
      "loss": 0.7274,
      "step": 3422
    },
    {
      "epoch": 1.1815671384190543,
      "grad_norm": 1.5537676811218262,
      "learning_rate": 2e-05,
      "loss": 0.7643,
      "step": 3423
    },
    {
      "epoch": 1.1819123230928548,
      "grad_norm": 1.1930904388427734,
      "learning_rate": 2e-05,
      "loss": 0.6956,
      "step": 3424
    },
    {
      "epoch": 1.1822575077666553,
      "grad_norm": 1.3884460926055908,
      "learning_rate": 2e-05,
      "loss": 0.8053,
      "step": 3425
    },
    {
      "epoch": 1.1826026924404556,
      "grad_norm": 1.3444716930389404,
      "learning_rate": 2e-05,
      "loss": 0.8316,
      "step": 3426
    },
    {
      "epoch": 1.182947877114256,
      "grad_norm": 1.2486132383346558,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 3427
    },
    {
      "epoch": 1.1832930617880566,
      "grad_norm": 1.38356614112854,
      "learning_rate": 2e-05,
      "loss": 0.8531,
      "step": 3428
    },
    {
      "epoch": 1.1836382464618571,
      "grad_norm": 1.3105275630950928,
      "learning_rate": 2e-05,
      "loss": 0.7367,
      "step": 3429
    },
    {
      "epoch": 1.1839834311356576,
      "grad_norm": 1.2987958192825317,
      "learning_rate": 2e-05,
      "loss": 0.8378,
      "step": 3430
    },
    {
      "epoch": 1.1843286158094581,
      "grad_norm": 1.3689863681793213,
      "learning_rate": 2e-05,
      "loss": 0.7632,
      "step": 3431
    },
    {
      "epoch": 1.1846738004832584,
      "grad_norm": 1.3420056104660034,
      "learning_rate": 2e-05,
      "loss": 0.7567,
      "step": 3432
    },
    {
      "epoch": 1.185018985157059,
      "grad_norm": 1.2528034448623657,
      "learning_rate": 2e-05,
      "loss": 0.7809,
      "step": 3433
    },
    {
      "epoch": 1.1853641698308595,
      "grad_norm": 1.415034532546997,
      "learning_rate": 2e-05,
      "loss": 0.7831,
      "step": 3434
    },
    {
      "epoch": 1.18570935450466,
      "grad_norm": 1.2942616939544678,
      "learning_rate": 2e-05,
      "loss": 0.8022,
      "step": 3435
    },
    {
      "epoch": 1.1860545391784605,
      "grad_norm": 1.3081790208816528,
      "learning_rate": 2e-05,
      "loss": 0.8175,
      "step": 3436
    },
    {
      "epoch": 1.186399723852261,
      "grad_norm": 1.139703631401062,
      "learning_rate": 2e-05,
      "loss": 0.727,
      "step": 3437
    },
    {
      "epoch": 1.1867449085260615,
      "grad_norm": 1.2186015844345093,
      "learning_rate": 2e-05,
      "loss": 0.7007,
      "step": 3438
    },
    {
      "epoch": 1.187090093199862,
      "grad_norm": 1.3176285028457642,
      "learning_rate": 2e-05,
      "loss": 0.7707,
      "step": 3439
    },
    {
      "epoch": 1.1874352778736623,
      "grad_norm": 1.284449577331543,
      "learning_rate": 2e-05,
      "loss": 0.8329,
      "step": 3440
    },
    {
      "epoch": 1.1877804625474628,
      "grad_norm": 1.2810559272766113,
      "learning_rate": 2e-05,
      "loss": 0.7098,
      "step": 3441
    },
    {
      "epoch": 1.1881256472212633,
      "grad_norm": 1.313496470451355,
      "learning_rate": 2e-05,
      "loss": 0.8499,
      "step": 3442
    },
    {
      "epoch": 1.1884708318950639,
      "grad_norm": 1.3818761110305786,
      "learning_rate": 2e-05,
      "loss": 0.7994,
      "step": 3443
    },
    {
      "epoch": 1.1888160165688644,
      "grad_norm": 1.3078244924545288,
      "learning_rate": 2e-05,
      "loss": 0.7926,
      "step": 3444
    },
    {
      "epoch": 1.189161201242665,
      "grad_norm": 1.2425602674484253,
      "learning_rate": 2e-05,
      "loss": 0.8219,
      "step": 3445
    },
    {
      "epoch": 1.1895063859164654,
      "grad_norm": 1.4160336256027222,
      "learning_rate": 2e-05,
      "loss": 0.7584,
      "step": 3446
    },
    {
      "epoch": 1.1898515705902657,
      "grad_norm": 1.268433690071106,
      "learning_rate": 2e-05,
      "loss": 0.7149,
      "step": 3447
    },
    {
      "epoch": 1.1901967552640662,
      "grad_norm": 1.3263112306594849,
      "learning_rate": 2e-05,
      "loss": 0.877,
      "step": 3448
    },
    {
      "epoch": 1.1905419399378667,
      "grad_norm": 1.3029931783676147,
      "learning_rate": 2e-05,
      "loss": 0.7869,
      "step": 3449
    },
    {
      "epoch": 1.1908871246116672,
      "grad_norm": 1.366399884223938,
      "learning_rate": 2e-05,
      "loss": 0.8104,
      "step": 3450
    },
    {
      "epoch": 1.1912323092854677,
      "grad_norm": 1.3115228414535522,
      "learning_rate": 2e-05,
      "loss": 0.7484,
      "step": 3451
    },
    {
      "epoch": 1.1915774939592683,
      "grad_norm": 1.383935809135437,
      "learning_rate": 2e-05,
      "loss": 0.8051,
      "step": 3452
    },
    {
      "epoch": 1.1919226786330688,
      "grad_norm": 1.346407413482666,
      "learning_rate": 2e-05,
      "loss": 0.8277,
      "step": 3453
    },
    {
      "epoch": 1.1922678633068693,
      "grad_norm": 1.3020554780960083,
      "learning_rate": 2e-05,
      "loss": 0.7571,
      "step": 3454
    },
    {
      "epoch": 1.1926130479806696,
      "grad_norm": 1.3315397500991821,
      "learning_rate": 2e-05,
      "loss": 0.8162,
      "step": 3455
    },
    {
      "epoch": 1.19295823265447,
      "grad_norm": 1.2334446907043457,
      "learning_rate": 2e-05,
      "loss": 0.7346,
      "step": 3456
    },
    {
      "epoch": 1.1933034173282706,
      "grad_norm": 1.4384446144104004,
      "learning_rate": 2e-05,
      "loss": 0.7285,
      "step": 3457
    },
    {
      "epoch": 1.1936486020020711,
      "grad_norm": 1.304267406463623,
      "learning_rate": 2e-05,
      "loss": 0.7967,
      "step": 3458
    },
    {
      "epoch": 1.1939937866758716,
      "grad_norm": 1.2666515111923218,
      "learning_rate": 2e-05,
      "loss": 0.7144,
      "step": 3459
    },
    {
      "epoch": 1.1943389713496722,
      "grad_norm": 1.3719449043273926,
      "learning_rate": 2e-05,
      "loss": 0.8432,
      "step": 3460
    },
    {
      "epoch": 1.1946841560234724,
      "grad_norm": 5.618249893188477,
      "learning_rate": 2e-05,
      "loss": 0.7184,
      "step": 3461
    },
    {
      "epoch": 1.195029340697273,
      "grad_norm": 1.3739911317825317,
      "learning_rate": 2e-05,
      "loss": 0.8309,
      "step": 3462
    },
    {
      "epoch": 1.1953745253710735,
      "grad_norm": 1.2449676990509033,
      "learning_rate": 2e-05,
      "loss": 0.8005,
      "step": 3463
    },
    {
      "epoch": 1.195719710044874,
      "grad_norm": 1.2973155975341797,
      "learning_rate": 2e-05,
      "loss": 0.7435,
      "step": 3464
    },
    {
      "epoch": 1.1960648947186745,
      "grad_norm": 1.3802179098129272,
      "learning_rate": 2e-05,
      "loss": 0.7547,
      "step": 3465
    },
    {
      "epoch": 1.196410079392475,
      "grad_norm": 1.1979711055755615,
      "learning_rate": 2e-05,
      "loss": 0.759,
      "step": 3466
    },
    {
      "epoch": 1.1967552640662755,
      "grad_norm": 1.3567049503326416,
      "learning_rate": 2e-05,
      "loss": 0.7948,
      "step": 3467
    },
    {
      "epoch": 1.197100448740076,
      "grad_norm": 1.4028822183609009,
      "learning_rate": 2e-05,
      "loss": 0.7718,
      "step": 3468
    },
    {
      "epoch": 1.1974456334138763,
      "grad_norm": 1.3518620729446411,
      "learning_rate": 2e-05,
      "loss": 0.8183,
      "step": 3469
    },
    {
      "epoch": 1.1977908180876768,
      "grad_norm": 1.3923224210739136,
      "learning_rate": 2e-05,
      "loss": 0.7985,
      "step": 3470
    },
    {
      "epoch": 1.1981360027614774,
      "grad_norm": 1.445816159248352,
      "learning_rate": 2e-05,
      "loss": 0.7241,
      "step": 3471
    },
    {
      "epoch": 1.1984811874352779,
      "grad_norm": 1.356945514678955,
      "learning_rate": 2e-05,
      "loss": 0.8638,
      "step": 3472
    },
    {
      "epoch": 1.1988263721090784,
      "grad_norm": 1.2044767141342163,
      "learning_rate": 2e-05,
      "loss": 0.8328,
      "step": 3473
    },
    {
      "epoch": 1.199171556782879,
      "grad_norm": 1.2984302043914795,
      "learning_rate": 2e-05,
      "loss": 0.7754,
      "step": 3474
    },
    {
      "epoch": 1.1995167414566794,
      "grad_norm": 1.2793008089065552,
      "learning_rate": 2e-05,
      "loss": 0.7505,
      "step": 3475
    },
    {
      "epoch": 1.1998619261304797,
      "grad_norm": 1.3192858695983887,
      "learning_rate": 2e-05,
      "loss": 0.8561,
      "step": 3476
    },
    {
      "epoch": 1.2002071108042802,
      "grad_norm": 1.2606773376464844,
      "learning_rate": 2e-05,
      "loss": 0.7861,
      "step": 3477
    },
    {
      "epoch": 1.2005522954780807,
      "grad_norm": 1.2507729530334473,
      "learning_rate": 2e-05,
      "loss": 0.8192,
      "step": 3478
    },
    {
      "epoch": 1.2008974801518812,
      "grad_norm": 1.497609257698059,
      "learning_rate": 2e-05,
      "loss": 0.8761,
      "step": 3479
    },
    {
      "epoch": 1.2012426648256818,
      "grad_norm": 1.4093101024627686,
      "learning_rate": 2e-05,
      "loss": 0.8331,
      "step": 3480
    },
    {
      "epoch": 1.2015878494994823,
      "grad_norm": 1.3727068901062012,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 3481
    },
    {
      "epoch": 1.2019330341732828,
      "grad_norm": 1.3213611841201782,
      "learning_rate": 2e-05,
      "loss": 0.7739,
      "step": 3482
    },
    {
      "epoch": 1.2022782188470833,
      "grad_norm": 1.24142324924469,
      "learning_rate": 2e-05,
      "loss": 0.7212,
      "step": 3483
    },
    {
      "epoch": 1.2026234035208836,
      "grad_norm": 1.2444084882736206,
      "learning_rate": 2e-05,
      "loss": 0.7642,
      "step": 3484
    },
    {
      "epoch": 1.202968588194684,
      "grad_norm": 1.406069278717041,
      "learning_rate": 2e-05,
      "loss": 0.8449,
      "step": 3485
    },
    {
      "epoch": 1.2033137728684846,
      "grad_norm": 1.246311902999878,
      "learning_rate": 2e-05,
      "loss": 0.765,
      "step": 3486
    },
    {
      "epoch": 1.2036589575422851,
      "grad_norm": 1.3868964910507202,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 3487
    },
    {
      "epoch": 1.2040041422160856,
      "grad_norm": 1.5377790927886963,
      "learning_rate": 2e-05,
      "loss": 0.8459,
      "step": 3488
    },
    {
      "epoch": 1.2043493268898862,
      "grad_norm": 1.2026641368865967,
      "learning_rate": 2e-05,
      "loss": 0.6739,
      "step": 3489
    },
    {
      "epoch": 1.2046945115636865,
      "grad_norm": 1.3364408016204834,
      "learning_rate": 2e-05,
      "loss": 0.8019,
      "step": 3490
    },
    {
      "epoch": 1.205039696237487,
      "grad_norm": 1.1246167421340942,
      "learning_rate": 2e-05,
      "loss": 0.7783,
      "step": 3491
    },
    {
      "epoch": 1.2053848809112875,
      "grad_norm": 1.2661285400390625,
      "learning_rate": 2e-05,
      "loss": 0.7412,
      "step": 3492
    },
    {
      "epoch": 1.205730065585088,
      "grad_norm": 1.350832462310791,
      "learning_rate": 2e-05,
      "loss": 0.8474,
      "step": 3493
    },
    {
      "epoch": 1.2060752502588885,
      "grad_norm": 1.2432942390441895,
      "learning_rate": 2e-05,
      "loss": 0.8094,
      "step": 3494
    },
    {
      "epoch": 1.206420434932689,
      "grad_norm": 1.2698568105697632,
      "learning_rate": 2e-05,
      "loss": 0.739,
      "step": 3495
    },
    {
      "epoch": 1.2067656196064895,
      "grad_norm": 1.297290325164795,
      "learning_rate": 2e-05,
      "loss": 0.709,
      "step": 3496
    },
    {
      "epoch": 1.20711080428029,
      "grad_norm": 1.1721563339233398,
      "learning_rate": 2e-05,
      "loss": 0.7581,
      "step": 3497
    },
    {
      "epoch": 1.2074559889540903,
      "grad_norm": 1.5499151945114136,
      "learning_rate": 2e-05,
      "loss": 0.8304,
      "step": 3498
    },
    {
      "epoch": 1.2078011736278909,
      "grad_norm": 1.3653409481048584,
      "learning_rate": 2e-05,
      "loss": 0.6955,
      "step": 3499
    },
    {
      "epoch": 1.2081463583016914,
      "grad_norm": 1.4453665018081665,
      "learning_rate": 2e-05,
      "loss": 0.8384,
      "step": 3500
    },
    {
      "epoch": 1.2084915429754919,
      "grad_norm": 1.3234906196594238,
      "learning_rate": 2e-05,
      "loss": 0.8227,
      "step": 3501
    },
    {
      "epoch": 1.2088367276492924,
      "grad_norm": 1.4446470737457275,
      "learning_rate": 2e-05,
      "loss": 0.7826,
      "step": 3502
    },
    {
      "epoch": 1.209181912323093,
      "grad_norm": 1.2925314903259277,
      "learning_rate": 2e-05,
      "loss": 0.7813,
      "step": 3503
    },
    {
      "epoch": 1.2095270969968934,
      "grad_norm": 1.3284271955490112,
      "learning_rate": 2e-05,
      "loss": 0.8466,
      "step": 3504
    },
    {
      "epoch": 1.2098722816706937,
      "grad_norm": 1.361144781112671,
      "learning_rate": 2e-05,
      "loss": 0.6928,
      "step": 3505
    },
    {
      "epoch": 1.2102174663444942,
      "grad_norm": 1.3894814252853394,
      "learning_rate": 2e-05,
      "loss": 0.8808,
      "step": 3506
    },
    {
      "epoch": 1.2105626510182947,
      "grad_norm": 1.4809014797210693,
      "learning_rate": 2e-05,
      "loss": 0.7792,
      "step": 3507
    },
    {
      "epoch": 1.2109078356920953,
      "grad_norm": 1.2811882495880127,
      "learning_rate": 2e-05,
      "loss": 0.7612,
      "step": 3508
    },
    {
      "epoch": 1.2112530203658958,
      "grad_norm": 1.4026334285736084,
      "learning_rate": 2e-05,
      "loss": 0.8165,
      "step": 3509
    },
    {
      "epoch": 1.2115982050396963,
      "grad_norm": 1.3050411939620972,
      "learning_rate": 2e-05,
      "loss": 0.8148,
      "step": 3510
    },
    {
      "epoch": 1.2119433897134968,
      "grad_norm": 1.361029863357544,
      "learning_rate": 2e-05,
      "loss": 0.8751,
      "step": 3511
    },
    {
      "epoch": 1.2122885743872973,
      "grad_norm": 1.2275735139846802,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 3512
    },
    {
      "epoch": 1.2126337590610976,
      "grad_norm": 1.439704418182373,
      "learning_rate": 2e-05,
      "loss": 0.7439,
      "step": 3513
    },
    {
      "epoch": 1.2129789437348981,
      "grad_norm": 1.2569924592971802,
      "learning_rate": 2e-05,
      "loss": 0.6999,
      "step": 3514
    },
    {
      "epoch": 1.2133241284086986,
      "grad_norm": 1.3367260694503784,
      "learning_rate": 2e-05,
      "loss": 0.8473,
      "step": 3515
    },
    {
      "epoch": 1.2136693130824991,
      "grad_norm": 1.3859820365905762,
      "learning_rate": 2e-05,
      "loss": 0.8552,
      "step": 3516
    },
    {
      "epoch": 1.2140144977562997,
      "grad_norm": 1.2743360996246338,
      "learning_rate": 2e-05,
      "loss": 0.746,
      "step": 3517
    },
    {
      "epoch": 1.2143596824301002,
      "grad_norm": 1.4449539184570312,
      "learning_rate": 2e-05,
      "loss": 0.8144,
      "step": 3518
    },
    {
      "epoch": 1.2147048671039005,
      "grad_norm": 1.4256727695465088,
      "learning_rate": 2e-05,
      "loss": 0.8174,
      "step": 3519
    },
    {
      "epoch": 1.215050051777701,
      "grad_norm": 1.2924691438674927,
      "learning_rate": 2e-05,
      "loss": 0.8098,
      "step": 3520
    },
    {
      "epoch": 1.2153952364515015,
      "grad_norm": 1.320169448852539,
      "learning_rate": 2e-05,
      "loss": 0.7898,
      "step": 3521
    },
    {
      "epoch": 1.215740421125302,
      "grad_norm": 1.2653815746307373,
      "learning_rate": 2e-05,
      "loss": 0.7344,
      "step": 3522
    },
    {
      "epoch": 1.2160856057991025,
      "grad_norm": 1.439693570137024,
      "learning_rate": 2e-05,
      "loss": 0.7339,
      "step": 3523
    },
    {
      "epoch": 1.216430790472903,
      "grad_norm": 1.3374409675598145,
      "learning_rate": 2e-05,
      "loss": 0.78,
      "step": 3524
    },
    {
      "epoch": 1.2167759751467035,
      "grad_norm": 1.3876556158065796,
      "learning_rate": 2e-05,
      "loss": 0.7727,
      "step": 3525
    },
    {
      "epoch": 1.217121159820504,
      "grad_norm": 1.4031208753585815,
      "learning_rate": 2e-05,
      "loss": 0.823,
      "step": 3526
    },
    {
      "epoch": 1.2174663444943046,
      "grad_norm": 1.4459047317504883,
      "learning_rate": 2e-05,
      "loss": 0.7545,
      "step": 3527
    },
    {
      "epoch": 1.2178115291681049,
      "grad_norm": 1.311455488204956,
      "learning_rate": 2e-05,
      "loss": 0.8682,
      "step": 3528
    },
    {
      "epoch": 1.2181567138419054,
      "grad_norm": 1.3424714803695679,
      "learning_rate": 2e-05,
      "loss": 0.7933,
      "step": 3529
    },
    {
      "epoch": 1.218501898515706,
      "grad_norm": 1.4337047338485718,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 3530
    },
    {
      "epoch": 1.2188470831895064,
      "grad_norm": 1.1747797727584839,
      "learning_rate": 2e-05,
      "loss": 0.7792,
      "step": 3531
    },
    {
      "epoch": 1.219192267863307,
      "grad_norm": 1.2273197174072266,
      "learning_rate": 2e-05,
      "loss": 0.7732,
      "step": 3532
    },
    {
      "epoch": 1.2195374525371074,
      "grad_norm": 1.4523333311080933,
      "learning_rate": 2e-05,
      "loss": 0.7474,
      "step": 3533
    },
    {
      "epoch": 1.2198826372109077,
      "grad_norm": 1.2810674905776978,
      "learning_rate": 2e-05,
      "loss": 0.7367,
      "step": 3534
    },
    {
      "epoch": 1.2202278218847082,
      "grad_norm": 1.2858673334121704,
      "learning_rate": 2e-05,
      "loss": 0.8508,
      "step": 3535
    },
    {
      "epoch": 1.2205730065585088,
      "grad_norm": 1.3049004077911377,
      "learning_rate": 2e-05,
      "loss": 0.8668,
      "step": 3536
    },
    {
      "epoch": 1.2209181912323093,
      "grad_norm": 1.3586465120315552,
      "learning_rate": 2e-05,
      "loss": 0.7707,
      "step": 3537
    },
    {
      "epoch": 1.2212633759061098,
      "grad_norm": 1.3404936790466309,
      "learning_rate": 2e-05,
      "loss": 0.7275,
      "step": 3538
    },
    {
      "epoch": 1.2216085605799103,
      "grad_norm": 1.2907986640930176,
      "learning_rate": 2e-05,
      "loss": 0.7529,
      "step": 3539
    },
    {
      "epoch": 1.2219537452537108,
      "grad_norm": 1.340335726737976,
      "learning_rate": 2e-05,
      "loss": 0.7969,
      "step": 3540
    },
    {
      "epoch": 1.2222989299275113,
      "grad_norm": 1.2790021896362305,
      "learning_rate": 2e-05,
      "loss": 0.8358,
      "step": 3541
    },
    {
      "epoch": 1.2226441146013116,
      "grad_norm": 1.3229491710662842,
      "learning_rate": 2e-05,
      "loss": 0.8006,
      "step": 3542
    },
    {
      "epoch": 1.2229892992751121,
      "grad_norm": 1.3985249996185303,
      "learning_rate": 2e-05,
      "loss": 0.7757,
      "step": 3543
    },
    {
      "epoch": 1.2233344839489126,
      "grad_norm": 1.2913752794265747,
      "learning_rate": 2e-05,
      "loss": 0.7811,
      "step": 3544
    },
    {
      "epoch": 1.2236796686227132,
      "grad_norm": 1.340957760810852,
      "learning_rate": 2e-05,
      "loss": 0.8075,
      "step": 3545
    },
    {
      "epoch": 1.2240248532965137,
      "grad_norm": 1.2766876220703125,
      "learning_rate": 2e-05,
      "loss": 0.6767,
      "step": 3546
    },
    {
      "epoch": 1.2243700379703142,
      "grad_norm": 1.2811716794967651,
      "learning_rate": 2e-05,
      "loss": 0.8238,
      "step": 3547
    },
    {
      "epoch": 1.2247152226441147,
      "grad_norm": 1.351934790611267,
      "learning_rate": 2e-05,
      "loss": 0.7248,
      "step": 3548
    },
    {
      "epoch": 1.225060407317915,
      "grad_norm": 1.3441662788391113,
      "learning_rate": 2e-05,
      "loss": 0.8523,
      "step": 3549
    },
    {
      "epoch": 1.2254055919917155,
      "grad_norm": 1.3988200426101685,
      "learning_rate": 2e-05,
      "loss": 0.7696,
      "step": 3550
    },
    {
      "epoch": 1.225750776665516,
      "grad_norm": 1.3022273778915405,
      "learning_rate": 2e-05,
      "loss": 0.7914,
      "step": 3551
    },
    {
      "epoch": 1.2260959613393165,
      "grad_norm": 1.2491704225540161,
      "learning_rate": 2e-05,
      "loss": 0.7593,
      "step": 3552
    },
    {
      "epoch": 1.226441146013117,
      "grad_norm": 1.2207143306732178,
      "learning_rate": 2e-05,
      "loss": 0.734,
      "step": 3553
    },
    {
      "epoch": 1.2267863306869176,
      "grad_norm": 1.4160773754119873,
      "learning_rate": 2e-05,
      "loss": 0.7553,
      "step": 3554
    },
    {
      "epoch": 1.227131515360718,
      "grad_norm": 1.2493606805801392,
      "learning_rate": 2e-05,
      "loss": 0.8079,
      "step": 3555
    },
    {
      "epoch": 1.2274767000345186,
      "grad_norm": 1.3297712802886963,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 3556
    },
    {
      "epoch": 1.2278218847083189,
      "grad_norm": 1.3329482078552246,
      "learning_rate": 2e-05,
      "loss": 0.7793,
      "step": 3557
    },
    {
      "epoch": 1.2281670693821194,
      "grad_norm": 1.2403091192245483,
      "learning_rate": 2e-05,
      "loss": 0.8757,
      "step": 3558
    },
    {
      "epoch": 1.22851225405592,
      "grad_norm": 1.3604086637496948,
      "learning_rate": 2e-05,
      "loss": 0.8142,
      "step": 3559
    },
    {
      "epoch": 1.2288574387297204,
      "grad_norm": 1.4205636978149414,
      "learning_rate": 2e-05,
      "loss": 0.7317,
      "step": 3560
    },
    {
      "epoch": 1.229202623403521,
      "grad_norm": 1.342992901802063,
      "learning_rate": 2e-05,
      "loss": 0.8879,
      "step": 3561
    },
    {
      "epoch": 1.2295478080773214,
      "grad_norm": 1.2707444429397583,
      "learning_rate": 2e-05,
      "loss": 0.8854,
      "step": 3562
    },
    {
      "epoch": 1.2298929927511217,
      "grad_norm": 1.359021544456482,
      "learning_rate": 2e-05,
      "loss": 0.7876,
      "step": 3563
    },
    {
      "epoch": 1.2302381774249223,
      "grad_norm": 1.312880516052246,
      "learning_rate": 2e-05,
      "loss": 0.7225,
      "step": 3564
    },
    {
      "epoch": 1.2305833620987228,
      "grad_norm": 1.2731425762176514,
      "learning_rate": 2e-05,
      "loss": 0.7413,
      "step": 3565
    },
    {
      "epoch": 1.2309285467725233,
      "grad_norm": 1.2640595436096191,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 3566
    },
    {
      "epoch": 1.2312737314463238,
      "grad_norm": 1.3609572649002075,
      "learning_rate": 2e-05,
      "loss": 0.789,
      "step": 3567
    },
    {
      "epoch": 1.2316189161201243,
      "grad_norm": 1.345153570175171,
      "learning_rate": 2e-05,
      "loss": 0.7695,
      "step": 3568
    },
    {
      "epoch": 1.2319641007939248,
      "grad_norm": 1.1949012279510498,
      "learning_rate": 2e-05,
      "loss": 0.7959,
      "step": 3569
    },
    {
      "epoch": 1.2323092854677253,
      "grad_norm": 1.2755684852600098,
      "learning_rate": 2e-05,
      "loss": 0.7527,
      "step": 3570
    },
    {
      "epoch": 1.2326544701415256,
      "grad_norm": 1.2512601613998413,
      "learning_rate": 2e-05,
      "loss": 0.7915,
      "step": 3571
    },
    {
      "epoch": 1.2329996548153261,
      "grad_norm": 1.285248875617981,
      "learning_rate": 2e-05,
      "loss": 0.8012,
      "step": 3572
    },
    {
      "epoch": 1.2333448394891267,
      "grad_norm": 1.3970986604690552,
      "learning_rate": 2e-05,
      "loss": 0.7607,
      "step": 3573
    },
    {
      "epoch": 1.2336900241629272,
      "grad_norm": 1.210639476776123,
      "learning_rate": 2e-05,
      "loss": 0.7626,
      "step": 3574
    },
    {
      "epoch": 1.2340352088367277,
      "grad_norm": 1.328061580657959,
      "learning_rate": 2e-05,
      "loss": 0.8089,
      "step": 3575
    },
    {
      "epoch": 1.2343803935105282,
      "grad_norm": 1.2971090078353882,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 3576
    },
    {
      "epoch": 1.2347255781843287,
      "grad_norm": 1.2802174091339111,
      "learning_rate": 2e-05,
      "loss": 0.7668,
      "step": 3577
    },
    {
      "epoch": 1.235070762858129,
      "grad_norm": 1.396958827972412,
      "learning_rate": 2e-05,
      "loss": 0.8167,
      "step": 3578
    },
    {
      "epoch": 1.2354159475319295,
      "grad_norm": 1.3316537141799927,
      "learning_rate": 2e-05,
      "loss": 0.8356,
      "step": 3579
    },
    {
      "epoch": 1.23576113220573,
      "grad_norm": 1.3318475484848022,
      "learning_rate": 2e-05,
      "loss": 0.7435,
      "step": 3580
    },
    {
      "epoch": 1.2361063168795305,
      "grad_norm": 1.2466232776641846,
      "learning_rate": 2e-05,
      "loss": 0.7281,
      "step": 3581
    },
    {
      "epoch": 1.236451501553331,
      "grad_norm": 1.2300504446029663,
      "learning_rate": 2e-05,
      "loss": 0.8714,
      "step": 3582
    },
    {
      "epoch": 1.2367966862271316,
      "grad_norm": 1.3964807987213135,
      "learning_rate": 2e-05,
      "loss": 0.829,
      "step": 3583
    },
    {
      "epoch": 1.237141870900932,
      "grad_norm": 1.2288895845413208,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 3584
    },
    {
      "epoch": 1.2374870555747326,
      "grad_norm": 1.3073484897613525,
      "learning_rate": 2e-05,
      "loss": 0.7302,
      "step": 3585
    },
    {
      "epoch": 1.237832240248533,
      "grad_norm": 1.3373795747756958,
      "learning_rate": 2e-05,
      "loss": 0.8418,
      "step": 3586
    },
    {
      "epoch": 1.2381774249223334,
      "grad_norm": 1.20798921585083,
      "learning_rate": 2e-05,
      "loss": 0.7028,
      "step": 3587
    },
    {
      "epoch": 1.238522609596134,
      "grad_norm": 1.4614907503128052,
      "learning_rate": 2e-05,
      "loss": 0.7346,
      "step": 3588
    },
    {
      "epoch": 1.2388677942699344,
      "grad_norm": 1.2367854118347168,
      "learning_rate": 2e-05,
      "loss": 0.7501,
      "step": 3589
    },
    {
      "epoch": 1.239212978943735,
      "grad_norm": 1.2269092798233032,
      "learning_rate": 2e-05,
      "loss": 0.7971,
      "step": 3590
    },
    {
      "epoch": 1.2395581636175355,
      "grad_norm": 1.2203435897827148,
      "learning_rate": 2e-05,
      "loss": 0.7622,
      "step": 3591
    },
    {
      "epoch": 1.2399033482913357,
      "grad_norm": 1.3935723304748535,
      "learning_rate": 2e-05,
      "loss": 0.863,
      "step": 3592
    },
    {
      "epoch": 1.2402485329651363,
      "grad_norm": 1.2294037342071533,
      "learning_rate": 2e-05,
      "loss": 0.7235,
      "step": 3593
    },
    {
      "epoch": 1.2405937176389368,
      "grad_norm": 1.3401025533676147,
      "learning_rate": 2e-05,
      "loss": 0.8584,
      "step": 3594
    },
    {
      "epoch": 1.2409389023127373,
      "grad_norm": 1.2474286556243896,
      "learning_rate": 2e-05,
      "loss": 0.7921,
      "step": 3595
    },
    {
      "epoch": 1.2412840869865378,
      "grad_norm": 1.3295267820358276,
      "learning_rate": 2e-05,
      "loss": 0.7444,
      "step": 3596
    },
    {
      "epoch": 1.2416292716603383,
      "grad_norm": 1.2198048830032349,
      "learning_rate": 2e-05,
      "loss": 0.8247,
      "step": 3597
    },
    {
      "epoch": 1.2419744563341388,
      "grad_norm": 1.4350296258926392,
      "learning_rate": 2e-05,
      "loss": 0.7574,
      "step": 3598
    },
    {
      "epoch": 1.2423196410079393,
      "grad_norm": 1.2944883108139038,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 3599
    },
    {
      "epoch": 1.2426648256817396,
      "grad_norm": 1.2587089538574219,
      "learning_rate": 2e-05,
      "loss": 0.7577,
      "step": 3600
    },
    {
      "epoch": 1.2430100103555402,
      "grad_norm": 1.4584921598434448,
      "learning_rate": 2e-05,
      "loss": 0.7923,
      "step": 3601
    },
    {
      "epoch": 1.2433551950293407,
      "grad_norm": 1.3205983638763428,
      "learning_rate": 2e-05,
      "loss": 0.7865,
      "step": 3602
    },
    {
      "epoch": 1.2437003797031412,
      "grad_norm": 1.3060539960861206,
      "learning_rate": 2e-05,
      "loss": 0.7595,
      "step": 3603
    },
    {
      "epoch": 1.2440455643769417,
      "grad_norm": 1.3651577234268188,
      "learning_rate": 2e-05,
      "loss": 0.7884,
      "step": 3604
    },
    {
      "epoch": 1.2443907490507422,
      "grad_norm": 1.2791651487350464,
      "learning_rate": 2e-05,
      "loss": 0.8125,
      "step": 3605
    },
    {
      "epoch": 1.2447359337245427,
      "grad_norm": 1.2697447538375854,
      "learning_rate": 2e-05,
      "loss": 0.8236,
      "step": 3606
    },
    {
      "epoch": 1.245081118398343,
      "grad_norm": 1.3601524829864502,
      "learning_rate": 2e-05,
      "loss": 0.7454,
      "step": 3607
    },
    {
      "epoch": 1.2454263030721435,
      "grad_norm": 1.285919189453125,
      "learning_rate": 2e-05,
      "loss": 0.7884,
      "step": 3608
    },
    {
      "epoch": 1.245771487745944,
      "grad_norm": 1.640931487083435,
      "learning_rate": 2e-05,
      "loss": 0.7917,
      "step": 3609
    },
    {
      "epoch": 1.2461166724197446,
      "grad_norm": 1.2176430225372314,
      "learning_rate": 2e-05,
      "loss": 0.7171,
      "step": 3610
    },
    {
      "epoch": 1.246461857093545,
      "grad_norm": 1.337338924407959,
      "learning_rate": 2e-05,
      "loss": 0.7695,
      "step": 3611
    },
    {
      "epoch": 1.2468070417673456,
      "grad_norm": 1.4424870014190674,
      "learning_rate": 2e-05,
      "loss": 0.7585,
      "step": 3612
    },
    {
      "epoch": 1.247152226441146,
      "grad_norm": 1.3335496187210083,
      "learning_rate": 2e-05,
      "loss": 0.7067,
      "step": 3613
    },
    {
      "epoch": 1.2474974111149466,
      "grad_norm": 1.3260269165039062,
      "learning_rate": 2e-05,
      "loss": 0.8619,
      "step": 3614
    },
    {
      "epoch": 1.247842595788747,
      "grad_norm": 1.2676457166671753,
      "learning_rate": 2e-05,
      "loss": 0.8182,
      "step": 3615
    },
    {
      "epoch": 1.2481877804625474,
      "grad_norm": 1.3643592596054077,
      "learning_rate": 2e-05,
      "loss": 0.8396,
      "step": 3616
    },
    {
      "epoch": 1.248532965136348,
      "grad_norm": 1.363973617553711,
      "learning_rate": 2e-05,
      "loss": 0.7092,
      "step": 3617
    },
    {
      "epoch": 1.2488781498101484,
      "grad_norm": 1.2613316774368286,
      "learning_rate": 2e-05,
      "loss": 0.7517,
      "step": 3618
    },
    {
      "epoch": 1.249223334483949,
      "grad_norm": 1.3941054344177246,
      "learning_rate": 2e-05,
      "loss": 0.8021,
      "step": 3619
    },
    {
      "epoch": 1.2495685191577495,
      "grad_norm": 1.252954125404358,
      "learning_rate": 2e-05,
      "loss": 0.8252,
      "step": 3620
    },
    {
      "epoch": 1.2499137038315498,
      "grad_norm": 1.2762947082519531,
      "learning_rate": 2e-05,
      "loss": 0.7781,
      "step": 3621
    },
    {
      "epoch": 1.2502588885053503,
      "grad_norm": 1.3694158792495728,
      "learning_rate": 2e-05,
      "loss": 0.8362,
      "step": 3622
    },
    {
      "epoch": 1.2506040731791508,
      "grad_norm": 1.227001667022705,
      "learning_rate": 2e-05,
      "loss": 0.7872,
      "step": 3623
    },
    {
      "epoch": 1.2509492578529513,
      "grad_norm": 1.2335269451141357,
      "learning_rate": 2e-05,
      "loss": 0.7752,
      "step": 3624
    },
    {
      "epoch": 1.2512944425267518,
      "grad_norm": 1.4040374755859375,
      "learning_rate": 2e-05,
      "loss": 0.8178,
      "step": 3625
    },
    {
      "epoch": 1.2516396272005523,
      "grad_norm": 1.4053436517715454,
      "learning_rate": 2e-05,
      "loss": 0.6926,
      "step": 3626
    },
    {
      "epoch": 1.2519848118743528,
      "grad_norm": 1.3353067636489868,
      "learning_rate": 2e-05,
      "loss": 0.7905,
      "step": 3627
    },
    {
      "epoch": 1.2523299965481534,
      "grad_norm": 1.4691718816757202,
      "learning_rate": 2e-05,
      "loss": 0.7756,
      "step": 3628
    },
    {
      "epoch": 1.2526751812219539,
      "grad_norm": 1.2494395971298218,
      "learning_rate": 2e-05,
      "loss": 0.7473,
      "step": 3629
    },
    {
      "epoch": 1.2530203658957542,
      "grad_norm": 1.390866756439209,
      "learning_rate": 2e-05,
      "loss": 0.7908,
      "step": 3630
    },
    {
      "epoch": 1.2533655505695547,
      "grad_norm": 1.3252958059310913,
      "learning_rate": 2e-05,
      "loss": 0.7887,
      "step": 3631
    },
    {
      "epoch": 1.2537107352433552,
      "grad_norm": 1.2355608940124512,
      "learning_rate": 2e-05,
      "loss": 0.6875,
      "step": 3632
    },
    {
      "epoch": 1.2540559199171557,
      "grad_norm": 1.2245160341262817,
      "learning_rate": 2e-05,
      "loss": 0.7283,
      "step": 3633
    },
    {
      "epoch": 1.2544011045909562,
      "grad_norm": 1.2533501386642456,
      "learning_rate": 2e-05,
      "loss": 0.7258,
      "step": 3634
    },
    {
      "epoch": 1.2547462892647565,
      "grad_norm": 1.2506091594696045,
      "learning_rate": 2e-05,
      "loss": 0.7604,
      "step": 3635
    },
    {
      "epoch": 1.255091473938557,
      "grad_norm": 1.237808346748352,
      "learning_rate": 2e-05,
      "loss": 0.6614,
      "step": 3636
    },
    {
      "epoch": 1.2554366586123575,
      "grad_norm": 1.273610234260559,
      "learning_rate": 2e-05,
      "loss": 0.7591,
      "step": 3637
    },
    {
      "epoch": 1.255781843286158,
      "grad_norm": 1.2084715366363525,
      "learning_rate": 2e-05,
      "loss": 0.8009,
      "step": 3638
    },
    {
      "epoch": 1.2561270279599586,
      "grad_norm": 1.1362864971160889,
      "learning_rate": 2e-05,
      "loss": 0.724,
      "step": 3639
    },
    {
      "epoch": 1.256472212633759,
      "grad_norm": 1.1901345252990723,
      "learning_rate": 2e-05,
      "loss": 0.803,
      "step": 3640
    },
    {
      "epoch": 1.2568173973075596,
      "grad_norm": 1.284528136253357,
      "learning_rate": 2e-05,
      "loss": 0.7834,
      "step": 3641
    },
    {
      "epoch": 1.25716258198136,
      "grad_norm": 1.3097578287124634,
      "learning_rate": 2e-05,
      "loss": 0.7742,
      "step": 3642
    },
    {
      "epoch": 1.2575077666551606,
      "grad_norm": 1.317078709602356,
      "learning_rate": 2e-05,
      "loss": 0.7859,
      "step": 3643
    },
    {
      "epoch": 1.257852951328961,
      "grad_norm": 1.5170156955718994,
      "learning_rate": 2e-05,
      "loss": 0.8122,
      "step": 3644
    },
    {
      "epoch": 1.2581981360027614,
      "grad_norm": 1.3155348300933838,
      "learning_rate": 2e-05,
      "loss": 0.7988,
      "step": 3645
    },
    {
      "epoch": 1.258543320676562,
      "grad_norm": 1.31395423412323,
      "learning_rate": 2e-05,
      "loss": 0.7559,
      "step": 3646
    },
    {
      "epoch": 1.2588885053503625,
      "grad_norm": 1.1746416091918945,
      "learning_rate": 2e-05,
      "loss": 0.7549,
      "step": 3647
    },
    {
      "epoch": 1.259233690024163,
      "grad_norm": 1.2597047090530396,
      "learning_rate": 2e-05,
      "loss": 0.7727,
      "step": 3648
    },
    {
      "epoch": 1.2595788746979635,
      "grad_norm": 1.2883440256118774,
      "learning_rate": 2e-05,
      "loss": 0.7619,
      "step": 3649
    },
    {
      "epoch": 1.2599240593717638,
      "grad_norm": 1.3803187608718872,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 3650
    },
    {
      "epoch": 1.2602692440455643,
      "grad_norm": 1.2881687879562378,
      "learning_rate": 2e-05,
      "loss": 0.7067,
      "step": 3651
    },
    {
      "epoch": 1.2606144287193648,
      "grad_norm": 1.4308593273162842,
      "learning_rate": 2e-05,
      "loss": 0.797,
      "step": 3652
    },
    {
      "epoch": 1.2609596133931653,
      "grad_norm": 1.282876968383789,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 3653
    },
    {
      "epoch": 1.2613047980669658,
      "grad_norm": 1.382997989654541,
      "learning_rate": 2e-05,
      "loss": 0.812,
      "step": 3654
    },
    {
      "epoch": 1.2616499827407663,
      "grad_norm": 1.2218252420425415,
      "learning_rate": 2e-05,
      "loss": 0.703,
      "step": 3655
    },
    {
      "epoch": 1.2619951674145669,
      "grad_norm": 1.423714280128479,
      "learning_rate": 2e-05,
      "loss": 0.8431,
      "step": 3656
    },
    {
      "epoch": 1.2623403520883674,
      "grad_norm": 1.2604025602340698,
      "learning_rate": 2e-05,
      "loss": 0.7027,
      "step": 3657
    },
    {
      "epoch": 1.2626855367621679,
      "grad_norm": 1.2721086740493774,
      "learning_rate": 2e-05,
      "loss": 0.8277,
      "step": 3658
    },
    {
      "epoch": 1.2630307214359682,
      "grad_norm": 1.3612042665481567,
      "learning_rate": 2e-05,
      "loss": 0.8556,
      "step": 3659
    },
    {
      "epoch": 1.2633759061097687,
      "grad_norm": 1.2688798904418945,
      "learning_rate": 2e-05,
      "loss": 0.7727,
      "step": 3660
    },
    {
      "epoch": 1.2637210907835692,
      "grad_norm": 1.2498441934585571,
      "learning_rate": 2e-05,
      "loss": 0.727,
      "step": 3661
    },
    {
      "epoch": 1.2640662754573697,
      "grad_norm": 1.3742616176605225,
      "learning_rate": 2e-05,
      "loss": 0.773,
      "step": 3662
    },
    {
      "epoch": 1.2644114601311702,
      "grad_norm": 1.2647777795791626,
      "learning_rate": 2e-05,
      "loss": 0.7232,
      "step": 3663
    },
    {
      "epoch": 1.2647566448049707,
      "grad_norm": 1.288910984992981,
      "learning_rate": 2e-05,
      "loss": 0.7067,
      "step": 3664
    },
    {
      "epoch": 1.265101829478771,
      "grad_norm": 1.1825264692306519,
      "learning_rate": 2e-05,
      "loss": 0.7235,
      "step": 3665
    },
    {
      "epoch": 1.2654470141525715,
      "grad_norm": 1.2415660619735718,
      "learning_rate": 2e-05,
      "loss": 0.8588,
      "step": 3666
    },
    {
      "epoch": 1.265792198826372,
      "grad_norm": 1.2140958309173584,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 3667
    },
    {
      "epoch": 1.2661373835001726,
      "grad_norm": 1.3756948709487915,
      "learning_rate": 2e-05,
      "loss": 0.7453,
      "step": 3668
    },
    {
      "epoch": 1.266482568173973,
      "grad_norm": 1.2038849592208862,
      "learning_rate": 2e-05,
      "loss": 0.7364,
      "step": 3669
    },
    {
      "epoch": 1.2668277528477736,
      "grad_norm": 1.3467875719070435,
      "learning_rate": 2e-05,
      "loss": 0.8358,
      "step": 3670
    },
    {
      "epoch": 1.2671729375215741,
      "grad_norm": 1.3491719961166382,
      "learning_rate": 2e-05,
      "loss": 0.7919,
      "step": 3671
    },
    {
      "epoch": 1.2675181221953746,
      "grad_norm": 1.2115561962127686,
      "learning_rate": 2e-05,
      "loss": 0.724,
      "step": 3672
    },
    {
      "epoch": 1.2678633068691751,
      "grad_norm": 1.2874137163162231,
      "learning_rate": 2e-05,
      "loss": 0.7849,
      "step": 3673
    },
    {
      "epoch": 1.2682084915429754,
      "grad_norm": 1.324949026107788,
      "learning_rate": 2e-05,
      "loss": 0.8483,
      "step": 3674
    },
    {
      "epoch": 1.268553676216776,
      "grad_norm": 1.299007534980774,
      "learning_rate": 2e-05,
      "loss": 0.8287,
      "step": 3675
    },
    {
      "epoch": 1.2688988608905765,
      "grad_norm": 1.3684159517288208,
      "learning_rate": 2e-05,
      "loss": 0.8156,
      "step": 3676
    },
    {
      "epoch": 1.269244045564377,
      "grad_norm": 1.4129835367202759,
      "learning_rate": 2e-05,
      "loss": 0.8265,
      "step": 3677
    },
    {
      "epoch": 1.2695892302381775,
      "grad_norm": 1.3445156812667847,
      "learning_rate": 2e-05,
      "loss": 0.7518,
      "step": 3678
    },
    {
      "epoch": 1.2699344149119778,
      "grad_norm": 1.4104580879211426,
      "learning_rate": 2e-05,
      "loss": 0.7987,
      "step": 3679
    },
    {
      "epoch": 1.2702795995857783,
      "grad_norm": 1.2521123886108398,
      "learning_rate": 2e-05,
      "loss": 0.7139,
      "step": 3680
    },
    {
      "epoch": 1.2706247842595788,
      "grad_norm": 1.3952739238739014,
      "learning_rate": 2e-05,
      "loss": 0.768,
      "step": 3681
    },
    {
      "epoch": 1.2709699689333793,
      "grad_norm": 1.1813663244247437,
      "learning_rate": 2e-05,
      "loss": 0.8121,
      "step": 3682
    },
    {
      "epoch": 1.2713151536071798,
      "grad_norm": 1.2817387580871582,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 3683
    },
    {
      "epoch": 1.2716603382809804,
      "grad_norm": 1.378661036491394,
      "learning_rate": 2e-05,
      "loss": 0.7479,
      "step": 3684
    },
    {
      "epoch": 1.2720055229547809,
      "grad_norm": 1.2836031913757324,
      "learning_rate": 2e-05,
      "loss": 0.7777,
      "step": 3685
    },
    {
      "epoch": 1.2723507076285814,
      "grad_norm": 1.1544486284255981,
      "learning_rate": 2e-05,
      "loss": 0.7613,
      "step": 3686
    },
    {
      "epoch": 1.272695892302382,
      "grad_norm": 1.3153886795043945,
      "learning_rate": 2e-05,
      "loss": 0.7918,
      "step": 3687
    },
    {
      "epoch": 1.2730410769761822,
      "grad_norm": 1.3687876462936401,
      "learning_rate": 2e-05,
      "loss": 0.7517,
      "step": 3688
    },
    {
      "epoch": 1.2733862616499827,
      "grad_norm": 1.2605538368225098,
      "learning_rate": 2e-05,
      "loss": 0.7579,
      "step": 3689
    },
    {
      "epoch": 1.2737314463237832,
      "grad_norm": 1.4139958620071411,
      "learning_rate": 2e-05,
      "loss": 0.8326,
      "step": 3690
    },
    {
      "epoch": 1.2740766309975837,
      "grad_norm": 1.315886378288269,
      "learning_rate": 2e-05,
      "loss": 0.7932,
      "step": 3691
    },
    {
      "epoch": 1.2744218156713842,
      "grad_norm": 1.256286859512329,
      "learning_rate": 2e-05,
      "loss": 0.7707,
      "step": 3692
    },
    {
      "epoch": 1.2747670003451848,
      "grad_norm": 1.3962948322296143,
      "learning_rate": 2e-05,
      "loss": 0.861,
      "step": 3693
    },
    {
      "epoch": 1.275112185018985,
      "grad_norm": 1.2426445484161377,
      "learning_rate": 2e-05,
      "loss": 0.8038,
      "step": 3694
    },
    {
      "epoch": 1.2754573696927856,
      "grad_norm": 1.2429296970367432,
      "learning_rate": 2e-05,
      "loss": 0.7008,
      "step": 3695
    },
    {
      "epoch": 1.275802554366586,
      "grad_norm": 1.276380181312561,
      "learning_rate": 2e-05,
      "loss": 0.7076,
      "step": 3696
    },
    {
      "epoch": 1.2761477390403866,
      "grad_norm": 1.3504010438919067,
      "learning_rate": 2e-05,
      "loss": 0.7453,
      "step": 3697
    },
    {
      "epoch": 1.276492923714187,
      "grad_norm": 1.2560245990753174,
      "learning_rate": 2e-05,
      "loss": 0.7514,
      "step": 3698
    },
    {
      "epoch": 1.2768381083879876,
      "grad_norm": 1.4829072952270508,
      "learning_rate": 2e-05,
      "loss": 0.8407,
      "step": 3699
    },
    {
      "epoch": 1.2771832930617881,
      "grad_norm": 1.3900337219238281,
      "learning_rate": 2e-05,
      "loss": 0.7561,
      "step": 3700
    },
    {
      "epoch": 1.2775284777355886,
      "grad_norm": 1.310118317604065,
      "learning_rate": 2e-05,
      "loss": 0.7934,
      "step": 3701
    },
    {
      "epoch": 1.2778736624093892,
      "grad_norm": 1.3755617141723633,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 3702
    },
    {
      "epoch": 1.2782188470831894,
      "grad_norm": 1.2603548765182495,
      "learning_rate": 2e-05,
      "loss": 0.7781,
      "step": 3703
    },
    {
      "epoch": 1.27856403175699,
      "grad_norm": 1.556532621383667,
      "learning_rate": 2e-05,
      "loss": 0.8112,
      "step": 3704
    },
    {
      "epoch": 1.2789092164307905,
      "grad_norm": 1.1700737476348877,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 3705
    },
    {
      "epoch": 1.279254401104591,
      "grad_norm": 1.1786032915115356,
      "learning_rate": 2e-05,
      "loss": 0.8492,
      "step": 3706
    },
    {
      "epoch": 1.2795995857783915,
      "grad_norm": 1.2923710346221924,
      "learning_rate": 2e-05,
      "loss": 0.8016,
      "step": 3707
    },
    {
      "epoch": 1.2799447704521918,
      "grad_norm": 1.2418841123580933,
      "learning_rate": 2e-05,
      "loss": 0.8446,
      "step": 3708
    },
    {
      "epoch": 1.2802899551259923,
      "grad_norm": 1.3836811780929565,
      "learning_rate": 2e-05,
      "loss": 0.7667,
      "step": 3709
    },
    {
      "epoch": 1.2806351397997928,
      "grad_norm": 1.1789239645004272,
      "learning_rate": 2e-05,
      "loss": 0.7998,
      "step": 3710
    },
    {
      "epoch": 1.2809803244735933,
      "grad_norm": 1.2575867176055908,
      "learning_rate": 2e-05,
      "loss": 0.7294,
      "step": 3711
    },
    {
      "epoch": 1.2813255091473938,
      "grad_norm": 1.2959500551223755,
      "learning_rate": 2e-05,
      "loss": 0.7881,
      "step": 3712
    },
    {
      "epoch": 1.2816706938211944,
      "grad_norm": 1.4106054306030273,
      "learning_rate": 2e-05,
      "loss": 0.825,
      "step": 3713
    },
    {
      "epoch": 1.2820158784949949,
      "grad_norm": 1.1818606853485107,
      "learning_rate": 2e-05,
      "loss": 0.7485,
      "step": 3714
    },
    {
      "epoch": 1.2823610631687954,
      "grad_norm": 1.2305818796157837,
      "learning_rate": 2e-05,
      "loss": 0.7339,
      "step": 3715
    },
    {
      "epoch": 1.282706247842596,
      "grad_norm": 1.349876046180725,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 3716
    },
    {
      "epoch": 1.2830514325163962,
      "grad_norm": 1.288369059562683,
      "learning_rate": 2e-05,
      "loss": 0.8347,
      "step": 3717
    },
    {
      "epoch": 1.2833966171901967,
      "grad_norm": 1.2037721872329712,
      "learning_rate": 2e-05,
      "loss": 0.814,
      "step": 3718
    },
    {
      "epoch": 1.2837418018639972,
      "grad_norm": 1.2252075672149658,
      "learning_rate": 2e-05,
      "loss": 0.7401,
      "step": 3719
    },
    {
      "epoch": 1.2840869865377977,
      "grad_norm": 1.347596287727356,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 3720
    },
    {
      "epoch": 1.2844321712115983,
      "grad_norm": 1.297986626625061,
      "learning_rate": 2e-05,
      "loss": 0.7402,
      "step": 3721
    },
    {
      "epoch": 1.2847773558853988,
      "grad_norm": 1.2617738246917725,
      "learning_rate": 2e-05,
      "loss": 0.7537,
      "step": 3722
    },
    {
      "epoch": 1.285122540559199,
      "grad_norm": 1.3265972137451172,
      "learning_rate": 2e-05,
      "loss": 0.749,
      "step": 3723
    },
    {
      "epoch": 1.2854677252329996,
      "grad_norm": 1.3187360763549805,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 3724
    },
    {
      "epoch": 1.2858129099068,
      "grad_norm": 1.4075689315795898,
      "learning_rate": 2e-05,
      "loss": 0.7826,
      "step": 3725
    },
    {
      "epoch": 1.2861580945806006,
      "grad_norm": 1.2916666269302368,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 3726
    },
    {
      "epoch": 1.286503279254401,
      "grad_norm": 1.4036478996276855,
      "learning_rate": 2e-05,
      "loss": 0.7221,
      "step": 3727
    },
    {
      "epoch": 1.2868484639282016,
      "grad_norm": 1.3235527276992798,
      "learning_rate": 2e-05,
      "loss": 0.735,
      "step": 3728
    },
    {
      "epoch": 1.2871936486020021,
      "grad_norm": 1.2832096815109253,
      "learning_rate": 2e-05,
      "loss": 0.7897,
      "step": 3729
    },
    {
      "epoch": 1.2875388332758027,
      "grad_norm": 1.3722784519195557,
      "learning_rate": 2e-05,
      "loss": 0.83,
      "step": 3730
    },
    {
      "epoch": 1.2878840179496032,
      "grad_norm": 1.241215705871582,
      "learning_rate": 2e-05,
      "loss": 0.7698,
      "step": 3731
    },
    {
      "epoch": 1.2882292026234035,
      "grad_norm": 1.3777779340744019,
      "learning_rate": 2e-05,
      "loss": 0.8137,
      "step": 3732
    },
    {
      "epoch": 1.288574387297204,
      "grad_norm": 1.3704743385314941,
      "learning_rate": 2e-05,
      "loss": 0.6965,
      "step": 3733
    },
    {
      "epoch": 1.2889195719710045,
      "grad_norm": 1.3065639734268188,
      "learning_rate": 2e-05,
      "loss": 0.7899,
      "step": 3734
    },
    {
      "epoch": 1.289264756644805,
      "grad_norm": 1.3149757385253906,
      "learning_rate": 2e-05,
      "loss": 0.7718,
      "step": 3735
    },
    {
      "epoch": 1.2896099413186055,
      "grad_norm": 1.3298861980438232,
      "learning_rate": 2e-05,
      "loss": 0.7721,
      "step": 3736
    },
    {
      "epoch": 1.2899551259924058,
      "grad_norm": 1.3320975303649902,
      "learning_rate": 2e-05,
      "loss": 0.7875,
      "step": 3737
    },
    {
      "epoch": 1.2903003106662063,
      "grad_norm": 1.2882016897201538,
      "learning_rate": 2e-05,
      "loss": 0.7852,
      "step": 3738
    },
    {
      "epoch": 1.2906454953400068,
      "grad_norm": 1.2034387588500977,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 3739
    },
    {
      "epoch": 1.2909906800138073,
      "grad_norm": 1.3119374513626099,
      "learning_rate": 2e-05,
      "loss": 0.7851,
      "step": 3740
    },
    {
      "epoch": 1.2913358646876079,
      "grad_norm": 1.3687902688980103,
      "learning_rate": 2e-05,
      "loss": 0.7045,
      "step": 3741
    },
    {
      "epoch": 1.2916810493614084,
      "grad_norm": 1.328424096107483,
      "learning_rate": 2e-05,
      "loss": 0.8296,
      "step": 3742
    },
    {
      "epoch": 1.2920262340352089,
      "grad_norm": 1.3855141401290894,
      "learning_rate": 2e-05,
      "loss": 0.7733,
      "step": 3743
    },
    {
      "epoch": 1.2923714187090094,
      "grad_norm": 1.4707489013671875,
      "learning_rate": 2e-05,
      "loss": 0.828,
      "step": 3744
    },
    {
      "epoch": 1.29271660338281,
      "grad_norm": 1.314648151397705,
      "learning_rate": 2e-05,
      "loss": 0.8027,
      "step": 3745
    },
    {
      "epoch": 1.2930617880566102,
      "grad_norm": 1.3274558782577515,
      "learning_rate": 2e-05,
      "loss": 0.765,
      "step": 3746
    },
    {
      "epoch": 1.2934069727304107,
      "grad_norm": 1.2449897527694702,
      "learning_rate": 2e-05,
      "loss": 0.8118,
      "step": 3747
    },
    {
      "epoch": 1.2937521574042112,
      "grad_norm": 1.372097134590149,
      "learning_rate": 2e-05,
      "loss": 0.7814,
      "step": 3748
    },
    {
      "epoch": 1.2940973420780117,
      "grad_norm": 1.2879470586776733,
      "learning_rate": 2e-05,
      "loss": 0.8316,
      "step": 3749
    },
    {
      "epoch": 1.2944425267518123,
      "grad_norm": 1.2164560556411743,
      "learning_rate": 2e-05,
      "loss": 0.8955,
      "step": 3750
    },
    {
      "epoch": 1.2947877114256128,
      "grad_norm": 1.3175115585327148,
      "learning_rate": 2e-05,
      "loss": 0.7976,
      "step": 3751
    },
    {
      "epoch": 1.295132896099413,
      "grad_norm": 1.367119312286377,
      "learning_rate": 2e-05,
      "loss": 0.8126,
      "step": 3752
    },
    {
      "epoch": 1.2954780807732136,
      "grad_norm": 1.1734248399734497,
      "learning_rate": 2e-05,
      "loss": 0.7208,
      "step": 3753
    },
    {
      "epoch": 1.295823265447014,
      "grad_norm": 1.347294807434082,
      "learning_rate": 2e-05,
      "loss": 0.7334,
      "step": 3754
    },
    {
      "epoch": 1.2961684501208146,
      "grad_norm": 1.296884536743164,
      "learning_rate": 2e-05,
      "loss": 0.7629,
      "step": 3755
    },
    {
      "epoch": 1.2965136347946151,
      "grad_norm": 1.2789814472198486,
      "learning_rate": 2e-05,
      "loss": 0.7664,
      "step": 3756
    },
    {
      "epoch": 1.2968588194684156,
      "grad_norm": 1.3421344757080078,
      "learning_rate": 2e-05,
      "loss": 0.7334,
      "step": 3757
    },
    {
      "epoch": 1.2972040041422161,
      "grad_norm": 1.3216557502746582,
      "learning_rate": 2e-05,
      "loss": 0.7963,
      "step": 3758
    },
    {
      "epoch": 1.2975491888160167,
      "grad_norm": 1.3838984966278076,
      "learning_rate": 2e-05,
      "loss": 0.7771,
      "step": 3759
    },
    {
      "epoch": 1.2978943734898172,
      "grad_norm": 1.3414063453674316,
      "learning_rate": 2e-05,
      "loss": 0.7954,
      "step": 3760
    },
    {
      "epoch": 1.2982395581636175,
      "grad_norm": 1.2447248697280884,
      "learning_rate": 2e-05,
      "loss": 0.7885,
      "step": 3761
    },
    {
      "epoch": 1.298584742837418,
      "grad_norm": 1.2091097831726074,
      "learning_rate": 2e-05,
      "loss": 0.761,
      "step": 3762
    },
    {
      "epoch": 1.2989299275112185,
      "grad_norm": 1.2619730234146118,
      "learning_rate": 2e-05,
      "loss": 0.8348,
      "step": 3763
    },
    {
      "epoch": 1.299275112185019,
      "grad_norm": 1.3742046356201172,
      "learning_rate": 2e-05,
      "loss": 0.8042,
      "step": 3764
    },
    {
      "epoch": 1.2996202968588195,
      "grad_norm": 1.400792121887207,
      "learning_rate": 2e-05,
      "loss": 0.8216,
      "step": 3765
    },
    {
      "epoch": 1.2999654815326198,
      "grad_norm": 1.3689844608306885,
      "learning_rate": 2e-05,
      "loss": 0.7133,
      "step": 3766
    },
    {
      "epoch": 1.3003106662064203,
      "grad_norm": 1.2261896133422852,
      "learning_rate": 2e-05,
      "loss": 0.79,
      "step": 3767
    },
    {
      "epoch": 1.3006558508802208,
      "grad_norm": 1.410098910331726,
      "learning_rate": 2e-05,
      "loss": 0.788,
      "step": 3768
    },
    {
      "epoch": 1.3010010355540214,
      "grad_norm": 1.3599931001663208,
      "learning_rate": 2e-05,
      "loss": 0.8092,
      "step": 3769
    },
    {
      "epoch": 1.3013462202278219,
      "grad_norm": 1.3258243799209595,
      "learning_rate": 2e-05,
      "loss": 0.7468,
      "step": 3770
    },
    {
      "epoch": 1.3016914049016224,
      "grad_norm": 1.3673416376113892,
      "learning_rate": 2e-05,
      "loss": 0.7206,
      "step": 3771
    },
    {
      "epoch": 1.302036589575423,
      "grad_norm": 1.3438282012939453,
      "learning_rate": 2e-05,
      "loss": 0.7262,
      "step": 3772
    },
    {
      "epoch": 1.3023817742492234,
      "grad_norm": 1.2382296323776245,
      "learning_rate": 2e-05,
      "loss": 0.7254,
      "step": 3773
    },
    {
      "epoch": 1.302726958923024,
      "grad_norm": 1.4071953296661377,
      "learning_rate": 2e-05,
      "loss": 0.8067,
      "step": 3774
    },
    {
      "epoch": 1.3030721435968244,
      "grad_norm": 1.2631148099899292,
      "learning_rate": 2e-05,
      "loss": 0.7887,
      "step": 3775
    },
    {
      "epoch": 1.3034173282706247,
      "grad_norm": 1.2555428743362427,
      "learning_rate": 2e-05,
      "loss": 0.8165,
      "step": 3776
    },
    {
      "epoch": 1.3037625129444252,
      "grad_norm": 1.23409104347229,
      "learning_rate": 2e-05,
      "loss": 0.8533,
      "step": 3777
    },
    {
      "epoch": 1.3041076976182258,
      "grad_norm": 1.252975344657898,
      "learning_rate": 2e-05,
      "loss": 0.7879,
      "step": 3778
    },
    {
      "epoch": 1.3044528822920263,
      "grad_norm": 1.4287350177764893,
      "learning_rate": 2e-05,
      "loss": 0.7667,
      "step": 3779
    },
    {
      "epoch": 1.3047980669658268,
      "grad_norm": 1.4435068368911743,
      "learning_rate": 2e-05,
      "loss": 0.7759,
      "step": 3780
    },
    {
      "epoch": 1.305143251639627,
      "grad_norm": 1.2367247343063354,
      "learning_rate": 2e-05,
      "loss": 0.8067,
      "step": 3781
    },
    {
      "epoch": 1.3054884363134276,
      "grad_norm": 1.1951760053634644,
      "learning_rate": 2e-05,
      "loss": 0.7332,
      "step": 3782
    },
    {
      "epoch": 1.305833620987228,
      "grad_norm": 1.2885481119155884,
      "learning_rate": 2e-05,
      "loss": 0.727,
      "step": 3783
    },
    {
      "epoch": 1.3061788056610286,
      "grad_norm": 1.319113850593567,
      "learning_rate": 2e-05,
      "loss": 0.7933,
      "step": 3784
    },
    {
      "epoch": 1.3065239903348291,
      "grad_norm": 1.3161214590072632,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 3785
    },
    {
      "epoch": 1.3068691750086296,
      "grad_norm": 1.2100189924240112,
      "learning_rate": 2e-05,
      "loss": 0.7712,
      "step": 3786
    },
    {
      "epoch": 1.3072143596824302,
      "grad_norm": 1.25575590133667,
      "learning_rate": 2e-05,
      "loss": 0.7847,
      "step": 3787
    },
    {
      "epoch": 1.3075595443562307,
      "grad_norm": 1.3170818090438843,
      "learning_rate": 2e-05,
      "loss": 0.7371,
      "step": 3788
    },
    {
      "epoch": 1.3079047290300312,
      "grad_norm": 1.2473242282867432,
      "learning_rate": 2e-05,
      "loss": 0.7657,
      "step": 3789
    },
    {
      "epoch": 1.3082499137038315,
      "grad_norm": 1.2309662103652954,
      "learning_rate": 2e-05,
      "loss": 0.7624,
      "step": 3790
    },
    {
      "epoch": 1.308595098377632,
      "grad_norm": 1.3221702575683594,
      "learning_rate": 2e-05,
      "loss": 0.8237,
      "step": 3791
    },
    {
      "epoch": 1.3089402830514325,
      "grad_norm": 1.3736950159072876,
      "learning_rate": 2e-05,
      "loss": 0.7314,
      "step": 3792
    },
    {
      "epoch": 1.309285467725233,
      "grad_norm": 1.3800793886184692,
      "learning_rate": 2e-05,
      "loss": 0.831,
      "step": 3793
    },
    {
      "epoch": 1.3096306523990335,
      "grad_norm": 1.33723783493042,
      "learning_rate": 2e-05,
      "loss": 0.7951,
      "step": 3794
    },
    {
      "epoch": 1.309975837072834,
      "grad_norm": 1.36448073387146,
      "learning_rate": 2e-05,
      "loss": 0.7252,
      "step": 3795
    },
    {
      "epoch": 1.3103210217466343,
      "grad_norm": 1.3134657144546509,
      "learning_rate": 2e-05,
      "loss": 0.9038,
      "step": 3796
    },
    {
      "epoch": 1.3106662064204349,
      "grad_norm": 1.1789186000823975,
      "learning_rate": 2e-05,
      "loss": 0.6953,
      "step": 3797
    },
    {
      "epoch": 1.3110113910942354,
      "grad_norm": 1.416981816291809,
      "learning_rate": 2e-05,
      "loss": 0.7681,
      "step": 3798
    },
    {
      "epoch": 1.3113565757680359,
      "grad_norm": 1.2716134786605835,
      "learning_rate": 2e-05,
      "loss": 0.7425,
      "step": 3799
    },
    {
      "epoch": 1.3117017604418364,
      "grad_norm": 1.2044265270233154,
      "learning_rate": 2e-05,
      "loss": 0.7835,
      "step": 3800
    },
    {
      "epoch": 1.312046945115637,
      "grad_norm": 1.2691869735717773,
      "learning_rate": 2e-05,
      "loss": 0.8305,
      "step": 3801
    },
    {
      "epoch": 1.3123921297894374,
      "grad_norm": 1.2943198680877686,
      "learning_rate": 2e-05,
      "loss": 0.8244,
      "step": 3802
    },
    {
      "epoch": 1.312737314463238,
      "grad_norm": 1.3861497640609741,
      "learning_rate": 2e-05,
      "loss": 0.8811,
      "step": 3803
    },
    {
      "epoch": 1.3130824991370385,
      "grad_norm": 1.3029510974884033,
      "learning_rate": 2e-05,
      "loss": 0.7703,
      "step": 3804
    },
    {
      "epoch": 1.3134276838108387,
      "grad_norm": 1.2945078611373901,
      "learning_rate": 2e-05,
      "loss": 0.7899,
      "step": 3805
    },
    {
      "epoch": 1.3137728684846393,
      "grad_norm": 1.1883987188339233,
      "learning_rate": 2e-05,
      "loss": 0.7062,
      "step": 3806
    },
    {
      "epoch": 1.3141180531584398,
      "grad_norm": 1.1501200199127197,
      "learning_rate": 2e-05,
      "loss": 0.6775,
      "step": 3807
    },
    {
      "epoch": 1.3144632378322403,
      "grad_norm": 1.2466270923614502,
      "learning_rate": 2e-05,
      "loss": 0.7221,
      "step": 3808
    },
    {
      "epoch": 1.3148084225060408,
      "grad_norm": 1.2391248941421509,
      "learning_rate": 2e-05,
      "loss": 0.8054,
      "step": 3809
    },
    {
      "epoch": 1.315153607179841,
      "grad_norm": 1.3586149215698242,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 3810
    },
    {
      "epoch": 1.3154987918536416,
      "grad_norm": 1.3994914293289185,
      "learning_rate": 2e-05,
      "loss": 0.7612,
      "step": 3811
    },
    {
      "epoch": 1.3158439765274421,
      "grad_norm": 1.377140998840332,
      "learning_rate": 2e-05,
      "loss": 0.7368,
      "step": 3812
    },
    {
      "epoch": 1.3161891612012426,
      "grad_norm": 1.4065903425216675,
      "learning_rate": 2e-05,
      "loss": 0.7439,
      "step": 3813
    },
    {
      "epoch": 1.3165343458750431,
      "grad_norm": 1.318832278251648,
      "learning_rate": 2e-05,
      "loss": 0.7997,
      "step": 3814
    },
    {
      "epoch": 1.3168795305488437,
      "grad_norm": 1.3129608631134033,
      "learning_rate": 2e-05,
      "loss": 0.7418,
      "step": 3815
    },
    {
      "epoch": 1.3172247152226442,
      "grad_norm": 1.2647229433059692,
      "learning_rate": 2e-05,
      "loss": 0.758,
      "step": 3816
    },
    {
      "epoch": 1.3175698998964447,
      "grad_norm": 1.2046267986297607,
      "learning_rate": 2e-05,
      "loss": 0.7662,
      "step": 3817
    },
    {
      "epoch": 1.3179150845702452,
      "grad_norm": 1.1627990007400513,
      "learning_rate": 2e-05,
      "loss": 0.7289,
      "step": 3818
    },
    {
      "epoch": 1.3182602692440455,
      "grad_norm": 1.3394687175750732,
      "learning_rate": 2e-05,
      "loss": 0.8154,
      "step": 3819
    },
    {
      "epoch": 1.318605453917846,
      "grad_norm": 1.1606332063674927,
      "learning_rate": 2e-05,
      "loss": 0.7679,
      "step": 3820
    },
    {
      "epoch": 1.3189506385916465,
      "grad_norm": 1.312524676322937,
      "learning_rate": 2e-05,
      "loss": 0.7869,
      "step": 3821
    },
    {
      "epoch": 1.319295823265447,
      "grad_norm": 1.5632737874984741,
      "learning_rate": 2e-05,
      "loss": 0.7275,
      "step": 3822
    },
    {
      "epoch": 1.3196410079392475,
      "grad_norm": 1.2824487686157227,
      "learning_rate": 2e-05,
      "loss": 0.825,
      "step": 3823
    },
    {
      "epoch": 1.319986192613048,
      "grad_norm": 1.4072872400283813,
      "learning_rate": 2e-05,
      "loss": 0.8272,
      "step": 3824
    },
    {
      "epoch": 1.3203313772868484,
      "grad_norm": 1.5212726593017578,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 3825
    },
    {
      "epoch": 1.3206765619606489,
      "grad_norm": 1.3338156938552856,
      "learning_rate": 2e-05,
      "loss": 0.8176,
      "step": 3826
    },
    {
      "epoch": 1.3210217466344494,
      "grad_norm": 1.1868034601211548,
      "learning_rate": 2e-05,
      "loss": 0.8167,
      "step": 3827
    },
    {
      "epoch": 1.32136693130825,
      "grad_norm": 1.4675730466842651,
      "learning_rate": 2e-05,
      "loss": 0.801,
      "step": 3828
    },
    {
      "epoch": 1.3217121159820504,
      "grad_norm": 1.3148678541183472,
      "learning_rate": 2e-05,
      "loss": 0.7453,
      "step": 3829
    },
    {
      "epoch": 1.322057300655851,
      "grad_norm": 1.220374345779419,
      "learning_rate": 2e-05,
      "loss": 0.7976,
      "step": 3830
    },
    {
      "epoch": 1.3224024853296514,
      "grad_norm": 1.2846790552139282,
      "learning_rate": 2e-05,
      "loss": 0.7649,
      "step": 3831
    },
    {
      "epoch": 1.322747670003452,
      "grad_norm": 1.2199749946594238,
      "learning_rate": 2e-05,
      "loss": 0.8143,
      "step": 3832
    },
    {
      "epoch": 1.3230928546772525,
      "grad_norm": 1.272977590560913,
      "learning_rate": 2e-05,
      "loss": 0.7607,
      "step": 3833
    },
    {
      "epoch": 1.3234380393510528,
      "grad_norm": 1.1969499588012695,
      "learning_rate": 2e-05,
      "loss": 0.7689,
      "step": 3834
    },
    {
      "epoch": 1.3237832240248533,
      "grad_norm": 1.2192007303237915,
      "learning_rate": 2e-05,
      "loss": 0.8223,
      "step": 3835
    },
    {
      "epoch": 1.3241284086986538,
      "grad_norm": 1.1794825792312622,
      "learning_rate": 2e-05,
      "loss": 0.7503,
      "step": 3836
    },
    {
      "epoch": 1.3244735933724543,
      "grad_norm": 1.3214689493179321,
      "learning_rate": 2e-05,
      "loss": 0.7543,
      "step": 3837
    },
    {
      "epoch": 1.3248187780462548,
      "grad_norm": 1.3538281917572021,
      "learning_rate": 2e-05,
      "loss": 0.8512,
      "step": 3838
    },
    {
      "epoch": 1.325163962720055,
      "grad_norm": 1.312819242477417,
      "learning_rate": 2e-05,
      "loss": 0.7924,
      "step": 3839
    },
    {
      "epoch": 1.3255091473938556,
      "grad_norm": 1.2714734077453613,
      "learning_rate": 2e-05,
      "loss": 0.7893,
      "step": 3840
    },
    {
      "epoch": 1.3258543320676561,
      "grad_norm": 1.229845643043518,
      "learning_rate": 2e-05,
      "loss": 0.765,
      "step": 3841
    },
    {
      "epoch": 1.3261995167414566,
      "grad_norm": 1.2295312881469727,
      "learning_rate": 2e-05,
      "loss": 0.6887,
      "step": 3842
    },
    {
      "epoch": 1.3265447014152572,
      "grad_norm": 1.3267161846160889,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 3843
    },
    {
      "epoch": 1.3268898860890577,
      "grad_norm": 1.3169875144958496,
      "learning_rate": 2e-05,
      "loss": 0.8043,
      "step": 3844
    },
    {
      "epoch": 1.3272350707628582,
      "grad_norm": 1.3028546571731567,
      "learning_rate": 2e-05,
      "loss": 0.8021,
      "step": 3845
    },
    {
      "epoch": 1.3275802554366587,
      "grad_norm": 1.3474318981170654,
      "learning_rate": 2e-05,
      "loss": 0.7912,
      "step": 3846
    },
    {
      "epoch": 1.3279254401104592,
      "grad_norm": 1.3029006719589233,
      "learning_rate": 2e-05,
      "loss": 0.7626,
      "step": 3847
    },
    {
      "epoch": 1.3282706247842595,
      "grad_norm": 1.2969731092453003,
      "learning_rate": 2e-05,
      "loss": 0.7677,
      "step": 3848
    },
    {
      "epoch": 1.32861580945806,
      "grad_norm": 1.1953707933425903,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 3849
    },
    {
      "epoch": 1.3289609941318605,
      "grad_norm": 1.2949492931365967,
      "learning_rate": 2e-05,
      "loss": 0.7538,
      "step": 3850
    },
    {
      "epoch": 1.329306178805661,
      "grad_norm": 1.318030595779419,
      "learning_rate": 2e-05,
      "loss": 0.7487,
      "step": 3851
    },
    {
      "epoch": 1.3296513634794616,
      "grad_norm": 1.328071117401123,
      "learning_rate": 2e-05,
      "loss": 0.7737,
      "step": 3852
    },
    {
      "epoch": 1.329996548153262,
      "grad_norm": 1.2251949310302734,
      "learning_rate": 2e-05,
      "loss": 0.7911,
      "step": 3853
    },
    {
      "epoch": 1.3303417328270624,
      "grad_norm": 1.3593826293945312,
      "learning_rate": 2e-05,
      "loss": 0.7375,
      "step": 3854
    },
    {
      "epoch": 1.3306869175008629,
      "grad_norm": 1.3033100366592407,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 3855
    },
    {
      "epoch": 1.3310321021746634,
      "grad_norm": 1.2835043668746948,
      "learning_rate": 2e-05,
      "loss": 0.7583,
      "step": 3856
    },
    {
      "epoch": 1.331377286848464,
      "grad_norm": 1.2393535375595093,
      "learning_rate": 2e-05,
      "loss": 0.7713,
      "step": 3857
    },
    {
      "epoch": 1.3317224715222644,
      "grad_norm": 1.145664095878601,
      "learning_rate": 2e-05,
      "loss": 0.7791,
      "step": 3858
    },
    {
      "epoch": 1.332067656196065,
      "grad_norm": 1.286584734916687,
      "learning_rate": 2e-05,
      "loss": 0.748,
      "step": 3859
    },
    {
      "epoch": 1.3324128408698654,
      "grad_norm": 1.1973155736923218,
      "learning_rate": 2e-05,
      "loss": 0.768,
      "step": 3860
    },
    {
      "epoch": 1.332758025543666,
      "grad_norm": 1.257117748260498,
      "learning_rate": 2e-05,
      "loss": 0.8228,
      "step": 3861
    },
    {
      "epoch": 1.3331032102174665,
      "grad_norm": 1.2092788219451904,
      "learning_rate": 2e-05,
      "loss": 0.7485,
      "step": 3862
    },
    {
      "epoch": 1.3334483948912668,
      "grad_norm": 1.38450288772583,
      "learning_rate": 2e-05,
      "loss": 0.7577,
      "step": 3863
    },
    {
      "epoch": 1.3337935795650673,
      "grad_norm": 1.3356518745422363,
      "learning_rate": 2e-05,
      "loss": 0.7492,
      "step": 3864
    },
    {
      "epoch": 1.3341387642388678,
      "grad_norm": 1.548973560333252,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 3865
    },
    {
      "epoch": 1.3344839489126683,
      "grad_norm": 1.2980977296829224,
      "learning_rate": 2e-05,
      "loss": 0.7217,
      "step": 3866
    },
    {
      "epoch": 1.3348291335864688,
      "grad_norm": 1.3131545782089233,
      "learning_rate": 2e-05,
      "loss": 0.8415,
      "step": 3867
    },
    {
      "epoch": 1.335174318260269,
      "grad_norm": 1.291700005531311,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 3868
    },
    {
      "epoch": 1.3355195029340696,
      "grad_norm": 1.2625981569290161,
      "learning_rate": 2e-05,
      "loss": 0.7941,
      "step": 3869
    },
    {
      "epoch": 1.3358646876078701,
      "grad_norm": 1.3258709907531738,
      "learning_rate": 2e-05,
      "loss": 0.7944,
      "step": 3870
    },
    {
      "epoch": 1.3362098722816707,
      "grad_norm": 1.2801047563552856,
      "learning_rate": 2e-05,
      "loss": 0.7334,
      "step": 3871
    },
    {
      "epoch": 1.3365550569554712,
      "grad_norm": 1.1979213953018188,
      "learning_rate": 2e-05,
      "loss": 0.8094,
      "step": 3872
    },
    {
      "epoch": 1.3369002416292717,
      "grad_norm": 1.3422025442123413,
      "learning_rate": 2e-05,
      "loss": 0.739,
      "step": 3873
    },
    {
      "epoch": 1.3372454263030722,
      "grad_norm": 1.3142215013504028,
      "learning_rate": 2e-05,
      "loss": 0.7924,
      "step": 3874
    },
    {
      "epoch": 1.3375906109768727,
      "grad_norm": 1.3446062803268433,
      "learning_rate": 2e-05,
      "loss": 0.7815,
      "step": 3875
    },
    {
      "epoch": 1.3379357956506732,
      "grad_norm": 1.2973768711090088,
      "learning_rate": 2e-05,
      "loss": 0.7411,
      "step": 3876
    },
    {
      "epoch": 1.3382809803244735,
      "grad_norm": 1.1992387771606445,
      "learning_rate": 2e-05,
      "loss": 0.667,
      "step": 3877
    },
    {
      "epoch": 1.338626164998274,
      "grad_norm": 1.2586028575897217,
      "learning_rate": 2e-05,
      "loss": 0.7588,
      "step": 3878
    },
    {
      "epoch": 1.3389713496720745,
      "grad_norm": 1.3050525188446045,
      "learning_rate": 2e-05,
      "loss": 0.7204,
      "step": 3879
    },
    {
      "epoch": 1.339316534345875,
      "grad_norm": 1.3645259141921997,
      "learning_rate": 2e-05,
      "loss": 0.7563,
      "step": 3880
    },
    {
      "epoch": 1.3396617190196756,
      "grad_norm": 1.383394479751587,
      "learning_rate": 2e-05,
      "loss": 0.7871,
      "step": 3881
    },
    {
      "epoch": 1.340006903693476,
      "grad_norm": 1.4080370664596558,
      "learning_rate": 2e-05,
      "loss": 0.7906,
      "step": 3882
    },
    {
      "epoch": 1.3403520883672764,
      "grad_norm": 1.2899328470230103,
      "learning_rate": 2e-05,
      "loss": 0.7571,
      "step": 3883
    },
    {
      "epoch": 1.3406972730410769,
      "grad_norm": 1.2202616930007935,
      "learning_rate": 2e-05,
      "loss": 0.7918,
      "step": 3884
    },
    {
      "epoch": 1.3410424577148774,
      "grad_norm": 1.320150375366211,
      "learning_rate": 2e-05,
      "loss": 0.7636,
      "step": 3885
    },
    {
      "epoch": 1.341387642388678,
      "grad_norm": 1.185539960861206,
      "learning_rate": 2e-05,
      "loss": 0.7073,
      "step": 3886
    },
    {
      "epoch": 1.3417328270624784,
      "grad_norm": 1.3163983821868896,
      "learning_rate": 2e-05,
      "loss": 0.7437,
      "step": 3887
    },
    {
      "epoch": 1.342078011736279,
      "grad_norm": 1.240821123123169,
      "learning_rate": 2e-05,
      "loss": 0.7546,
      "step": 3888
    },
    {
      "epoch": 1.3424231964100795,
      "grad_norm": 1.3034672737121582,
      "learning_rate": 2e-05,
      "loss": 0.7405,
      "step": 3889
    },
    {
      "epoch": 1.34276838108388,
      "grad_norm": 1.4336873292922974,
      "learning_rate": 2e-05,
      "loss": 0.7554,
      "step": 3890
    },
    {
      "epoch": 1.3431135657576805,
      "grad_norm": 1.3922086954116821,
      "learning_rate": 2e-05,
      "loss": 0.7532,
      "step": 3891
    },
    {
      "epoch": 1.3434587504314808,
      "grad_norm": 1.2214751243591309,
      "learning_rate": 2e-05,
      "loss": 0.7585,
      "step": 3892
    },
    {
      "epoch": 1.3438039351052813,
      "grad_norm": 1.3087111711502075,
      "learning_rate": 2e-05,
      "loss": 0.7543,
      "step": 3893
    },
    {
      "epoch": 1.3441491197790818,
      "grad_norm": 1.3218218088150024,
      "learning_rate": 2e-05,
      "loss": 0.8293,
      "step": 3894
    },
    {
      "epoch": 1.3444943044528823,
      "grad_norm": 1.3246973752975464,
      "learning_rate": 2e-05,
      "loss": 0.7404,
      "step": 3895
    },
    {
      "epoch": 1.3448394891266828,
      "grad_norm": 1.2643024921417236,
      "learning_rate": 2e-05,
      "loss": 0.7747,
      "step": 3896
    },
    {
      "epoch": 1.3451846738004831,
      "grad_norm": 1.2862331867218018,
      "learning_rate": 2e-05,
      "loss": 0.7177,
      "step": 3897
    },
    {
      "epoch": 1.3455298584742836,
      "grad_norm": 1.3832347393035889,
      "learning_rate": 2e-05,
      "loss": 0.813,
      "step": 3898
    },
    {
      "epoch": 1.3458750431480841,
      "grad_norm": 1.2166670560836792,
      "learning_rate": 2e-05,
      "loss": 0.7761,
      "step": 3899
    },
    {
      "epoch": 1.3462202278218847,
      "grad_norm": 1.4248602390289307,
      "learning_rate": 2e-05,
      "loss": 0.7325,
      "step": 3900
    },
    {
      "epoch": 1.3465654124956852,
      "grad_norm": 1.2835991382598877,
      "learning_rate": 2e-05,
      "loss": 0.7862,
      "step": 3901
    },
    {
      "epoch": 1.3469105971694857,
      "grad_norm": 1.1258518695831299,
      "learning_rate": 2e-05,
      "loss": 0.7735,
      "step": 3902
    },
    {
      "epoch": 1.3472557818432862,
      "grad_norm": 1.3015767335891724,
      "learning_rate": 2e-05,
      "loss": 0.8083,
      "step": 3903
    },
    {
      "epoch": 1.3476009665170867,
      "grad_norm": 1.4165444374084473,
      "learning_rate": 2e-05,
      "loss": 0.7941,
      "step": 3904
    },
    {
      "epoch": 1.3479461511908872,
      "grad_norm": 1.392512559890747,
      "learning_rate": 2e-05,
      "loss": 0.7528,
      "step": 3905
    },
    {
      "epoch": 1.3482913358646877,
      "grad_norm": 1.18560791015625,
      "learning_rate": 2e-05,
      "loss": 0.731,
      "step": 3906
    },
    {
      "epoch": 1.348636520538488,
      "grad_norm": 1.341140627861023,
      "learning_rate": 2e-05,
      "loss": 0.7241,
      "step": 3907
    },
    {
      "epoch": 1.3489817052122886,
      "grad_norm": 1.3761111497879028,
      "learning_rate": 2e-05,
      "loss": 0.8341,
      "step": 3908
    },
    {
      "epoch": 1.349326889886089,
      "grad_norm": 1.2142679691314697,
      "learning_rate": 2e-05,
      "loss": 0.7647,
      "step": 3909
    },
    {
      "epoch": 1.3496720745598896,
      "grad_norm": 1.2388859987258911,
      "learning_rate": 2e-05,
      "loss": 0.7577,
      "step": 3910
    },
    {
      "epoch": 1.35001725923369,
      "grad_norm": 1.4134013652801514,
      "learning_rate": 2e-05,
      "loss": 0.787,
      "step": 3911
    },
    {
      "epoch": 1.3503624439074904,
      "grad_norm": 1.2565544843673706,
      "learning_rate": 2e-05,
      "loss": 0.8018,
      "step": 3912
    },
    {
      "epoch": 1.350707628581291,
      "grad_norm": 1.4422831535339355,
      "learning_rate": 2e-05,
      "loss": 0.7964,
      "step": 3913
    },
    {
      "epoch": 1.3510528132550914,
      "grad_norm": 1.4674822092056274,
      "learning_rate": 2e-05,
      "loss": 0.8278,
      "step": 3914
    },
    {
      "epoch": 1.351397997928892,
      "grad_norm": 1.362257957458496,
      "learning_rate": 2e-05,
      "loss": 0.7438,
      "step": 3915
    },
    {
      "epoch": 1.3517431826026924,
      "grad_norm": 1.2251050472259521,
      "learning_rate": 2e-05,
      "loss": 0.7919,
      "step": 3916
    },
    {
      "epoch": 1.352088367276493,
      "grad_norm": 1.2956416606903076,
      "learning_rate": 2e-05,
      "loss": 0.8147,
      "step": 3917
    },
    {
      "epoch": 1.3524335519502935,
      "grad_norm": 1.2501161098480225,
      "learning_rate": 2e-05,
      "loss": 0.8095,
      "step": 3918
    },
    {
      "epoch": 1.352778736624094,
      "grad_norm": 1.400343418121338,
      "learning_rate": 2e-05,
      "loss": 0.7736,
      "step": 3919
    },
    {
      "epoch": 1.3531239212978945,
      "grad_norm": 1.1737112998962402,
      "learning_rate": 2e-05,
      "loss": 0.7728,
      "step": 3920
    },
    {
      "epoch": 1.3534691059716948,
      "grad_norm": 1.3036599159240723,
      "learning_rate": 2e-05,
      "loss": 0.8126,
      "step": 3921
    },
    {
      "epoch": 1.3538142906454953,
      "grad_norm": 1.6386417150497437,
      "learning_rate": 2e-05,
      "loss": 0.7604,
      "step": 3922
    },
    {
      "epoch": 1.3541594753192958,
      "grad_norm": 1.2562533617019653,
      "learning_rate": 2e-05,
      "loss": 0.7386,
      "step": 3923
    },
    {
      "epoch": 1.3545046599930963,
      "grad_norm": 1.4978513717651367,
      "learning_rate": 2e-05,
      "loss": 0.7198,
      "step": 3924
    },
    {
      "epoch": 1.3548498446668968,
      "grad_norm": 1.229505181312561,
      "learning_rate": 2e-05,
      "loss": 0.7345,
      "step": 3925
    },
    {
      "epoch": 1.3551950293406974,
      "grad_norm": 1.287610411643982,
      "learning_rate": 2e-05,
      "loss": 0.8166,
      "step": 3926
    },
    {
      "epoch": 1.3555402140144976,
      "grad_norm": 1.3000648021697998,
      "learning_rate": 2e-05,
      "loss": 0.8299,
      "step": 3927
    },
    {
      "epoch": 1.3558853986882982,
      "grad_norm": 1.3570866584777832,
      "learning_rate": 2e-05,
      "loss": 0.804,
      "step": 3928
    },
    {
      "epoch": 1.3562305833620987,
      "grad_norm": 1.4070417881011963,
      "learning_rate": 2e-05,
      "loss": 0.7872,
      "step": 3929
    },
    {
      "epoch": 1.3565757680358992,
      "grad_norm": 1.280651569366455,
      "learning_rate": 2e-05,
      "loss": 0.7309,
      "step": 3930
    },
    {
      "epoch": 1.3569209527096997,
      "grad_norm": 1.2635226249694824,
      "learning_rate": 2e-05,
      "loss": 0.7517,
      "step": 3931
    },
    {
      "epoch": 1.3572661373835002,
      "grad_norm": 1.8189884424209595,
      "learning_rate": 2e-05,
      "loss": 0.8688,
      "step": 3932
    },
    {
      "epoch": 1.3576113220573007,
      "grad_norm": 1.3676493167877197,
      "learning_rate": 2e-05,
      "loss": 0.8064,
      "step": 3933
    },
    {
      "epoch": 1.3579565067311012,
      "grad_norm": 1.3433401584625244,
      "learning_rate": 2e-05,
      "loss": 0.7065,
      "step": 3934
    },
    {
      "epoch": 1.3583016914049018,
      "grad_norm": 1.3259207010269165,
      "learning_rate": 2e-05,
      "loss": 0.8597,
      "step": 3935
    },
    {
      "epoch": 1.358646876078702,
      "grad_norm": 1.4813951253890991,
      "learning_rate": 2e-05,
      "loss": 0.7391,
      "step": 3936
    },
    {
      "epoch": 1.3589920607525026,
      "grad_norm": 1.2977608442306519,
      "learning_rate": 2e-05,
      "loss": 0.8369,
      "step": 3937
    },
    {
      "epoch": 1.359337245426303,
      "grad_norm": 1.2684118747711182,
      "learning_rate": 2e-05,
      "loss": 0.8016,
      "step": 3938
    },
    {
      "epoch": 1.3596824301001036,
      "grad_norm": 1.1643589735031128,
      "learning_rate": 2e-05,
      "loss": 0.7874,
      "step": 3939
    },
    {
      "epoch": 1.360027614773904,
      "grad_norm": 1.2916531562805176,
      "learning_rate": 2e-05,
      "loss": 0.7356,
      "step": 3940
    },
    {
      "epoch": 1.3603727994477044,
      "grad_norm": 1.4598854780197144,
      "learning_rate": 2e-05,
      "loss": 0.7812,
      "step": 3941
    },
    {
      "epoch": 1.360717984121505,
      "grad_norm": 1.3120768070220947,
      "learning_rate": 2e-05,
      "loss": 0.7258,
      "step": 3942
    },
    {
      "epoch": 1.3610631687953054,
      "grad_norm": 1.1916242837905884,
      "learning_rate": 2e-05,
      "loss": 0.8082,
      "step": 3943
    },
    {
      "epoch": 1.361408353469106,
      "grad_norm": 1.2982423305511475,
      "learning_rate": 2e-05,
      "loss": 0.7017,
      "step": 3944
    },
    {
      "epoch": 1.3617535381429065,
      "grad_norm": 1.300026297569275,
      "learning_rate": 2e-05,
      "loss": 0.8291,
      "step": 3945
    },
    {
      "epoch": 1.362098722816707,
      "grad_norm": 1.260742425918579,
      "learning_rate": 2e-05,
      "loss": 0.8015,
      "step": 3946
    },
    {
      "epoch": 1.3624439074905075,
      "grad_norm": 1.334373950958252,
      "learning_rate": 2e-05,
      "loss": 0.7193,
      "step": 3947
    },
    {
      "epoch": 1.362789092164308,
      "grad_norm": 1.2716609239578247,
      "learning_rate": 2e-05,
      "loss": 0.6954,
      "step": 3948
    },
    {
      "epoch": 1.3631342768381085,
      "grad_norm": 1.296113133430481,
      "learning_rate": 2e-05,
      "loss": 0.6976,
      "step": 3949
    },
    {
      "epoch": 1.3634794615119088,
      "grad_norm": 1.3432563543319702,
      "learning_rate": 2e-05,
      "loss": 0.7489,
      "step": 3950
    },
    {
      "epoch": 1.3638246461857093,
      "grad_norm": 1.4314706325531006,
      "learning_rate": 2e-05,
      "loss": 0.7321,
      "step": 3951
    },
    {
      "epoch": 1.3641698308595098,
      "grad_norm": 1.228119969367981,
      "learning_rate": 2e-05,
      "loss": 0.8059,
      "step": 3952
    },
    {
      "epoch": 1.3645150155333103,
      "grad_norm": 1.2854411602020264,
      "learning_rate": 2e-05,
      "loss": 0.8129,
      "step": 3953
    },
    {
      "epoch": 1.3648602002071109,
      "grad_norm": 1.3713716268539429,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 3954
    },
    {
      "epoch": 1.3652053848809114,
      "grad_norm": 1.3137470483779907,
      "learning_rate": 2e-05,
      "loss": 0.7531,
      "step": 3955
    },
    {
      "epoch": 1.3655505695547117,
      "grad_norm": 1.249338984489441,
      "learning_rate": 2e-05,
      "loss": 0.7272,
      "step": 3956
    },
    {
      "epoch": 1.3658957542285122,
      "grad_norm": 1.3958641290664673,
      "learning_rate": 2e-05,
      "loss": 0.7923,
      "step": 3957
    },
    {
      "epoch": 1.3662409389023127,
      "grad_norm": 1.4008833169937134,
      "learning_rate": 2e-05,
      "loss": 0.8404,
      "step": 3958
    },
    {
      "epoch": 1.3665861235761132,
      "grad_norm": 1.2902085781097412,
      "learning_rate": 2e-05,
      "loss": 0.7277,
      "step": 3959
    },
    {
      "epoch": 1.3669313082499137,
      "grad_norm": 1.186061978340149,
      "learning_rate": 2e-05,
      "loss": 0.7333,
      "step": 3960
    },
    {
      "epoch": 1.3672764929237142,
      "grad_norm": 1.3097645044326782,
      "learning_rate": 2e-05,
      "loss": 0.7782,
      "step": 3961
    },
    {
      "epoch": 1.3676216775975147,
      "grad_norm": 1.212923526763916,
      "learning_rate": 2e-05,
      "loss": 0.6961,
      "step": 3962
    },
    {
      "epoch": 1.3679668622713153,
      "grad_norm": 1.271079182624817,
      "learning_rate": 2e-05,
      "loss": 0.7819,
      "step": 3963
    },
    {
      "epoch": 1.3683120469451158,
      "grad_norm": 1.2607505321502686,
      "learning_rate": 2e-05,
      "loss": 0.7993,
      "step": 3964
    },
    {
      "epoch": 1.368657231618916,
      "grad_norm": 1.2781139612197876,
      "learning_rate": 2e-05,
      "loss": 0.782,
      "step": 3965
    },
    {
      "epoch": 1.3690024162927166,
      "grad_norm": 1.3923969268798828,
      "learning_rate": 2e-05,
      "loss": 0.8213,
      "step": 3966
    },
    {
      "epoch": 1.369347600966517,
      "grad_norm": 1.3019987344741821,
      "learning_rate": 2e-05,
      "loss": 0.7677,
      "step": 3967
    },
    {
      "epoch": 1.3696927856403176,
      "grad_norm": 1.2312606573104858,
      "learning_rate": 2e-05,
      "loss": 0.758,
      "step": 3968
    },
    {
      "epoch": 1.3700379703141181,
      "grad_norm": 1.2872058153152466,
      "learning_rate": 2e-05,
      "loss": 0.7536,
      "step": 3969
    },
    {
      "epoch": 1.3703831549879184,
      "grad_norm": 1.2570286989212036,
      "learning_rate": 2e-05,
      "loss": 0.7469,
      "step": 3970
    },
    {
      "epoch": 1.370728339661719,
      "grad_norm": 1.3141696453094482,
      "learning_rate": 2e-05,
      "loss": 0.7689,
      "step": 3971
    },
    {
      "epoch": 1.3710735243355194,
      "grad_norm": 1.2918211221694946,
      "learning_rate": 2e-05,
      "loss": 0.7036,
      "step": 3972
    },
    {
      "epoch": 1.37141870900932,
      "grad_norm": 1.3014799356460571,
      "learning_rate": 2e-05,
      "loss": 0.8223,
      "step": 3973
    },
    {
      "epoch": 1.3717638936831205,
      "grad_norm": 1.3502556085586548,
      "learning_rate": 2e-05,
      "loss": 0.8383,
      "step": 3974
    },
    {
      "epoch": 1.372109078356921,
      "grad_norm": 1.4279402494430542,
      "learning_rate": 2e-05,
      "loss": 0.725,
      "step": 3975
    },
    {
      "epoch": 1.3724542630307215,
      "grad_norm": 1.2381147146224976,
      "learning_rate": 2e-05,
      "loss": 0.7349,
      "step": 3976
    },
    {
      "epoch": 1.372799447704522,
      "grad_norm": 1.3841545581817627,
      "learning_rate": 2e-05,
      "loss": 0.8007,
      "step": 3977
    },
    {
      "epoch": 1.3731446323783225,
      "grad_norm": 1.4533158540725708,
      "learning_rate": 2e-05,
      "loss": 0.7293,
      "step": 3978
    },
    {
      "epoch": 1.3734898170521228,
      "grad_norm": 1.274462103843689,
      "learning_rate": 2e-05,
      "loss": 0.7441,
      "step": 3979
    },
    {
      "epoch": 1.3738350017259233,
      "grad_norm": 1.3566346168518066,
      "learning_rate": 2e-05,
      "loss": 0.775,
      "step": 3980
    },
    {
      "epoch": 1.3741801863997238,
      "grad_norm": 1.153383731842041,
      "learning_rate": 2e-05,
      "loss": 0.7471,
      "step": 3981
    },
    {
      "epoch": 1.3745253710735243,
      "grad_norm": 1.2369394302368164,
      "learning_rate": 2e-05,
      "loss": 0.8075,
      "step": 3982
    },
    {
      "epoch": 1.3748705557473249,
      "grad_norm": 1.2852716445922852,
      "learning_rate": 2e-05,
      "loss": 0.7965,
      "step": 3983
    },
    {
      "epoch": 1.3752157404211254,
      "grad_norm": 1.261409878730774,
      "learning_rate": 2e-05,
      "loss": 0.743,
      "step": 3984
    },
    {
      "epoch": 1.3755609250949257,
      "grad_norm": 1.2661364078521729,
      "learning_rate": 2e-05,
      "loss": 0.7685,
      "step": 3985
    },
    {
      "epoch": 1.3759061097687262,
      "grad_norm": 1.3599650859832764,
      "learning_rate": 2e-05,
      "loss": 0.7418,
      "step": 3986
    },
    {
      "epoch": 1.3762512944425267,
      "grad_norm": 1.824868083000183,
      "learning_rate": 2e-05,
      "loss": 0.7289,
      "step": 3987
    },
    {
      "epoch": 1.3765964791163272,
      "grad_norm": 1.35139799118042,
      "learning_rate": 2e-05,
      "loss": 0.9185,
      "step": 3988
    },
    {
      "epoch": 1.3769416637901277,
      "grad_norm": 1.3428473472595215,
      "learning_rate": 2e-05,
      "loss": 0.7901,
      "step": 3989
    },
    {
      "epoch": 1.3772868484639282,
      "grad_norm": 1.3968149423599243,
      "learning_rate": 2e-05,
      "loss": 0.8435,
      "step": 3990
    },
    {
      "epoch": 1.3776320331377288,
      "grad_norm": 1.248666763305664,
      "learning_rate": 2e-05,
      "loss": 0.7116,
      "step": 3991
    },
    {
      "epoch": 1.3779772178115293,
      "grad_norm": 1.2059942483901978,
      "learning_rate": 2e-05,
      "loss": 0.7913,
      "step": 3992
    },
    {
      "epoch": 1.3783224024853298,
      "grad_norm": 1.2344084978103638,
      "learning_rate": 2e-05,
      "loss": 0.7662,
      "step": 3993
    },
    {
      "epoch": 1.37866758715913,
      "grad_norm": 1.3497589826583862,
      "learning_rate": 2e-05,
      "loss": 0.8219,
      "step": 3994
    },
    {
      "epoch": 1.3790127718329306,
      "grad_norm": 1.2236173152923584,
      "learning_rate": 2e-05,
      "loss": 0.7792,
      "step": 3995
    },
    {
      "epoch": 1.379357956506731,
      "grad_norm": 1.4033241271972656,
      "learning_rate": 2e-05,
      "loss": 0.7733,
      "step": 3996
    },
    {
      "epoch": 1.3797031411805316,
      "grad_norm": 1.3256932497024536,
      "learning_rate": 2e-05,
      "loss": 0.8081,
      "step": 3997
    },
    {
      "epoch": 1.3800483258543321,
      "grad_norm": 1.255602478981018,
      "learning_rate": 2e-05,
      "loss": 0.7458,
      "step": 3998
    },
    {
      "epoch": 1.3803935105281324,
      "grad_norm": 1.323038935661316,
      "learning_rate": 2e-05,
      "loss": 0.7107,
      "step": 3999
    },
    {
      "epoch": 1.380738695201933,
      "grad_norm": 1.3376532793045044,
      "learning_rate": 2e-05,
      "loss": 0.8176,
      "step": 4000
    },
    {
      "epoch": 1.3810838798757334,
      "grad_norm": 1.2940739393234253,
      "learning_rate": 2e-05,
      "loss": 0.735,
      "step": 4001
    },
    {
      "epoch": 1.381429064549534,
      "grad_norm": 1.4808269739151,
      "learning_rate": 2e-05,
      "loss": 0.7512,
      "step": 4002
    },
    {
      "epoch": 1.3817742492233345,
      "grad_norm": 1.34853196144104,
      "learning_rate": 2e-05,
      "loss": 0.8338,
      "step": 4003
    },
    {
      "epoch": 1.382119433897135,
      "grad_norm": 1.4278391599655151,
      "learning_rate": 2e-05,
      "loss": 0.7827,
      "step": 4004
    },
    {
      "epoch": 1.3824646185709355,
      "grad_norm": 1.313049554824829,
      "learning_rate": 2e-05,
      "loss": 0.7835,
      "step": 4005
    },
    {
      "epoch": 1.382809803244736,
      "grad_norm": 1.3348901271820068,
      "learning_rate": 2e-05,
      "loss": 0.7985,
      "step": 4006
    },
    {
      "epoch": 1.3831549879185365,
      "grad_norm": 1.2910308837890625,
      "learning_rate": 2e-05,
      "loss": 0.7248,
      "step": 4007
    },
    {
      "epoch": 1.3835001725923368,
      "grad_norm": 1.3174989223480225,
      "learning_rate": 2e-05,
      "loss": 0.7816,
      "step": 4008
    },
    {
      "epoch": 1.3838453572661373,
      "grad_norm": 1.2872546911239624,
      "learning_rate": 2e-05,
      "loss": 0.7714,
      "step": 4009
    },
    {
      "epoch": 1.3841905419399378,
      "grad_norm": 1.397047996520996,
      "learning_rate": 2e-05,
      "loss": 0.7374,
      "step": 4010
    },
    {
      "epoch": 1.3845357266137384,
      "grad_norm": 1.3184889554977417,
      "learning_rate": 2e-05,
      "loss": 0.7379,
      "step": 4011
    },
    {
      "epoch": 1.3848809112875389,
      "grad_norm": 1.2629280090332031,
      "learning_rate": 2e-05,
      "loss": 0.7377,
      "step": 4012
    },
    {
      "epoch": 1.3852260959613394,
      "grad_norm": 1.1571863889694214,
      "learning_rate": 2e-05,
      "loss": 0.791,
      "step": 4013
    },
    {
      "epoch": 1.3855712806351397,
      "grad_norm": 1.2857242822647095,
      "learning_rate": 2e-05,
      "loss": 0.8247,
      "step": 4014
    },
    {
      "epoch": 1.3859164653089402,
      "grad_norm": 1.3343257904052734,
      "learning_rate": 2e-05,
      "loss": 0.8168,
      "step": 4015
    },
    {
      "epoch": 1.3862616499827407,
      "grad_norm": 1.2968530654907227,
      "learning_rate": 2e-05,
      "loss": 0.7656,
      "step": 4016
    },
    {
      "epoch": 1.3866068346565412,
      "grad_norm": 1.3425798416137695,
      "learning_rate": 2e-05,
      "loss": 0.8115,
      "step": 4017
    },
    {
      "epoch": 1.3869520193303417,
      "grad_norm": 1.3185393810272217,
      "learning_rate": 2e-05,
      "loss": 0.8012,
      "step": 4018
    },
    {
      "epoch": 1.3872972040041422,
      "grad_norm": 1.3352659940719604,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 4019
    },
    {
      "epoch": 1.3876423886779428,
      "grad_norm": 1.3511298894882202,
      "learning_rate": 2e-05,
      "loss": 0.6847,
      "step": 4020
    },
    {
      "epoch": 1.3879875733517433,
      "grad_norm": 1.1891975402832031,
      "learning_rate": 2e-05,
      "loss": 0.8161,
      "step": 4021
    },
    {
      "epoch": 1.3883327580255438,
      "grad_norm": 1.3376781940460205,
      "learning_rate": 2e-05,
      "loss": 0.6912,
      "step": 4022
    },
    {
      "epoch": 1.388677942699344,
      "grad_norm": 1.4613302946090698,
      "learning_rate": 2e-05,
      "loss": 0.7666,
      "step": 4023
    },
    {
      "epoch": 1.3890231273731446,
      "grad_norm": 1.3923441171646118,
      "learning_rate": 2e-05,
      "loss": 0.8331,
      "step": 4024
    },
    {
      "epoch": 1.389368312046945,
      "grad_norm": 1.2172249555587769,
      "learning_rate": 2e-05,
      "loss": 0.7523,
      "step": 4025
    },
    {
      "epoch": 1.3897134967207456,
      "grad_norm": 1.300441026687622,
      "learning_rate": 2e-05,
      "loss": 0.8985,
      "step": 4026
    },
    {
      "epoch": 1.3900586813945461,
      "grad_norm": 1.3293167352676392,
      "learning_rate": 2e-05,
      "loss": 0.7621,
      "step": 4027
    },
    {
      "epoch": 1.3904038660683464,
      "grad_norm": 1.3842328786849976,
      "learning_rate": 2e-05,
      "loss": 0.833,
      "step": 4028
    },
    {
      "epoch": 1.390749050742147,
      "grad_norm": 1.4268712997436523,
      "learning_rate": 2e-05,
      "loss": 0.7335,
      "step": 4029
    },
    {
      "epoch": 1.3910942354159475,
      "grad_norm": 1.2392587661743164,
      "learning_rate": 2e-05,
      "loss": 0.7782,
      "step": 4030
    },
    {
      "epoch": 1.391439420089748,
      "grad_norm": 1.2807443141937256,
      "learning_rate": 2e-05,
      "loss": 0.8065,
      "step": 4031
    },
    {
      "epoch": 1.3917846047635485,
      "grad_norm": 1.2783795595169067,
      "learning_rate": 2e-05,
      "loss": 0.6721,
      "step": 4032
    },
    {
      "epoch": 1.392129789437349,
      "grad_norm": 1.2706685066223145,
      "learning_rate": 2e-05,
      "loss": 0.7627,
      "step": 4033
    },
    {
      "epoch": 1.3924749741111495,
      "grad_norm": 1.3030058145523071,
      "learning_rate": 2e-05,
      "loss": 0.8061,
      "step": 4034
    },
    {
      "epoch": 1.39282015878495,
      "grad_norm": 1.3393183946609497,
      "learning_rate": 2e-05,
      "loss": 0.761,
      "step": 4035
    },
    {
      "epoch": 1.3931653434587505,
      "grad_norm": 1.409693717956543,
      "learning_rate": 2e-05,
      "loss": 0.7702,
      "step": 4036
    },
    {
      "epoch": 1.393510528132551,
      "grad_norm": 1.310137152671814,
      "learning_rate": 2e-05,
      "loss": 0.8197,
      "step": 4037
    },
    {
      "epoch": 1.3938557128063513,
      "grad_norm": 1.2880693674087524,
      "learning_rate": 2e-05,
      "loss": 0.8439,
      "step": 4038
    },
    {
      "epoch": 1.3942008974801519,
      "grad_norm": 1.3565287590026855,
      "learning_rate": 2e-05,
      "loss": 0.7349,
      "step": 4039
    },
    {
      "epoch": 1.3945460821539524,
      "grad_norm": 1.2214750051498413,
      "learning_rate": 2e-05,
      "loss": 0.8182,
      "step": 4040
    },
    {
      "epoch": 1.3948912668277529,
      "grad_norm": 1.4084500074386597,
      "learning_rate": 2e-05,
      "loss": 0.7575,
      "step": 4041
    },
    {
      "epoch": 1.3952364515015534,
      "grad_norm": 1.242242693901062,
      "learning_rate": 2e-05,
      "loss": 0.7858,
      "step": 4042
    },
    {
      "epoch": 1.3955816361753537,
      "grad_norm": 1.2483822107315063,
      "learning_rate": 2e-05,
      "loss": 0.784,
      "step": 4043
    },
    {
      "epoch": 1.3959268208491542,
      "grad_norm": 1.2379834651947021,
      "learning_rate": 2e-05,
      "loss": 0.7554,
      "step": 4044
    },
    {
      "epoch": 1.3962720055229547,
      "grad_norm": 1.22407865524292,
      "learning_rate": 2e-05,
      "loss": 0.7255,
      "step": 4045
    },
    {
      "epoch": 1.3966171901967552,
      "grad_norm": 1.3895878791809082,
      "learning_rate": 2e-05,
      "loss": 0.7766,
      "step": 4046
    },
    {
      "epoch": 1.3969623748705557,
      "grad_norm": 1.4184913635253906,
      "learning_rate": 2e-05,
      "loss": 0.7738,
      "step": 4047
    },
    {
      "epoch": 1.3973075595443563,
      "grad_norm": 1.462280035018921,
      "learning_rate": 2e-05,
      "loss": 0.7447,
      "step": 4048
    },
    {
      "epoch": 1.3976527442181568,
      "grad_norm": 1.295759916305542,
      "learning_rate": 2e-05,
      "loss": 0.7278,
      "step": 4049
    },
    {
      "epoch": 1.3979979288919573,
      "grad_norm": 1.351559042930603,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 4050
    },
    {
      "epoch": 1.3983431135657578,
      "grad_norm": 1.2829736471176147,
      "learning_rate": 2e-05,
      "loss": 0.8685,
      "step": 4051
    },
    {
      "epoch": 1.398688298239558,
      "grad_norm": 1.230350136756897,
      "learning_rate": 2e-05,
      "loss": 0.7694,
      "step": 4052
    },
    {
      "epoch": 1.3990334829133586,
      "grad_norm": 1.208199381828308,
      "learning_rate": 2e-05,
      "loss": 0.7004,
      "step": 4053
    },
    {
      "epoch": 1.3993786675871591,
      "grad_norm": 1.3952628374099731,
      "learning_rate": 2e-05,
      "loss": 0.8151,
      "step": 4054
    },
    {
      "epoch": 1.3997238522609596,
      "grad_norm": 1.264305591583252,
      "learning_rate": 2e-05,
      "loss": 0.8067,
      "step": 4055
    },
    {
      "epoch": 1.4000690369347601,
      "grad_norm": 1.2326418161392212,
      "learning_rate": 2e-05,
      "loss": 0.7201,
      "step": 4056
    },
    {
      "epoch": 1.4004142216085607,
      "grad_norm": 1.3901190757751465,
      "learning_rate": 2e-05,
      "loss": 0.8691,
      "step": 4057
    },
    {
      "epoch": 1.400759406282361,
      "grad_norm": 1.2844672203063965,
      "learning_rate": 2e-05,
      "loss": 0.731,
      "step": 4058
    },
    {
      "epoch": 1.4011045909561615,
      "grad_norm": 1.0419034957885742,
      "learning_rate": 2e-05,
      "loss": 0.7469,
      "step": 4059
    },
    {
      "epoch": 1.401449775629962,
      "grad_norm": 1.269912838935852,
      "learning_rate": 2e-05,
      "loss": 0.7498,
      "step": 4060
    },
    {
      "epoch": 1.4017949603037625,
      "grad_norm": 1.3224503993988037,
      "learning_rate": 2e-05,
      "loss": 0.7562,
      "step": 4061
    },
    {
      "epoch": 1.402140144977563,
      "grad_norm": 1.9248476028442383,
      "learning_rate": 2e-05,
      "loss": 0.8479,
      "step": 4062
    },
    {
      "epoch": 1.4024853296513635,
      "grad_norm": 1.1942063570022583,
      "learning_rate": 2e-05,
      "loss": 0.7313,
      "step": 4063
    },
    {
      "epoch": 1.402830514325164,
      "grad_norm": 1.5922590494155884,
      "learning_rate": 2e-05,
      "loss": 0.7966,
      "step": 4064
    },
    {
      "epoch": 1.4031756989989645,
      "grad_norm": 1.232954978942871,
      "learning_rate": 2e-05,
      "loss": 0.7499,
      "step": 4065
    },
    {
      "epoch": 1.403520883672765,
      "grad_norm": 1.272154688835144,
      "learning_rate": 2e-05,
      "loss": 0.7511,
      "step": 4066
    },
    {
      "epoch": 1.4038660683465654,
      "grad_norm": 1.3691447973251343,
      "learning_rate": 2e-05,
      "loss": 0.7655,
      "step": 4067
    },
    {
      "epoch": 1.4042112530203659,
      "grad_norm": 1.321732759475708,
      "learning_rate": 2e-05,
      "loss": 0.7778,
      "step": 4068
    },
    {
      "epoch": 1.4045564376941664,
      "grad_norm": 1.337929129600525,
      "learning_rate": 2e-05,
      "loss": 0.7071,
      "step": 4069
    },
    {
      "epoch": 1.404901622367967,
      "grad_norm": 1.2555125951766968,
      "learning_rate": 2e-05,
      "loss": 0.7313,
      "step": 4070
    },
    {
      "epoch": 1.4052468070417674,
      "grad_norm": 1.1805479526519775,
      "learning_rate": 2e-05,
      "loss": 0.7834,
      "step": 4071
    },
    {
      "epoch": 1.4055919917155677,
      "grad_norm": 1.3368892669677734,
      "learning_rate": 2e-05,
      "loss": 0.7333,
      "step": 4072
    },
    {
      "epoch": 1.4059371763893682,
      "grad_norm": 1.3233314752578735,
      "learning_rate": 2e-05,
      "loss": 0.7044,
      "step": 4073
    },
    {
      "epoch": 1.4062823610631687,
      "grad_norm": 1.2734555006027222,
      "learning_rate": 2e-05,
      "loss": 0.7289,
      "step": 4074
    },
    {
      "epoch": 1.4066275457369692,
      "grad_norm": 1.4102188348770142,
      "learning_rate": 2e-05,
      "loss": 0.722,
      "step": 4075
    },
    {
      "epoch": 1.4069727304107698,
      "grad_norm": 1.2454601526260376,
      "learning_rate": 2e-05,
      "loss": 0.732,
      "step": 4076
    },
    {
      "epoch": 1.4073179150845703,
      "grad_norm": 1.4219200611114502,
      "learning_rate": 2e-05,
      "loss": 0.7801,
      "step": 4077
    },
    {
      "epoch": 1.4076630997583708,
      "grad_norm": 1.3826614618301392,
      "learning_rate": 2e-05,
      "loss": 0.8745,
      "step": 4078
    },
    {
      "epoch": 1.4080082844321713,
      "grad_norm": 1.2559086084365845,
      "learning_rate": 2e-05,
      "loss": 0.813,
      "step": 4079
    },
    {
      "epoch": 1.4083534691059718,
      "grad_norm": 1.26616632938385,
      "learning_rate": 2e-05,
      "loss": 0.7607,
      "step": 4080
    },
    {
      "epoch": 1.408698653779772,
      "grad_norm": 1.1377874612808228,
      "learning_rate": 2e-05,
      "loss": 0.7516,
      "step": 4081
    },
    {
      "epoch": 1.4090438384535726,
      "grad_norm": 1.3099395036697388,
      "learning_rate": 2e-05,
      "loss": 0.7683,
      "step": 4082
    },
    {
      "epoch": 1.4093890231273731,
      "grad_norm": 1.2900933027267456,
      "learning_rate": 2e-05,
      "loss": 0.7783,
      "step": 4083
    },
    {
      "epoch": 1.4097342078011736,
      "grad_norm": 1.3171058893203735,
      "learning_rate": 2e-05,
      "loss": 0.7813,
      "step": 4084
    },
    {
      "epoch": 1.4100793924749742,
      "grad_norm": 1.3446344137191772,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 4085
    },
    {
      "epoch": 1.4104245771487747,
      "grad_norm": 1.2096827030181885,
      "learning_rate": 2e-05,
      "loss": 0.7346,
      "step": 4086
    },
    {
      "epoch": 1.410769761822575,
      "grad_norm": 1.3122116327285767,
      "learning_rate": 2e-05,
      "loss": 0.7915,
      "step": 4087
    },
    {
      "epoch": 1.4111149464963755,
      "grad_norm": 1.3584738969802856,
      "learning_rate": 2e-05,
      "loss": 0.7654,
      "step": 4088
    },
    {
      "epoch": 1.411460131170176,
      "grad_norm": 1.3090815544128418,
      "learning_rate": 2e-05,
      "loss": 0.7712,
      "step": 4089
    },
    {
      "epoch": 1.4118053158439765,
      "grad_norm": 1.2252440452575684,
      "learning_rate": 2e-05,
      "loss": 0.7701,
      "step": 4090
    },
    {
      "epoch": 1.412150500517777,
      "grad_norm": 1.406599998474121,
      "learning_rate": 2e-05,
      "loss": 0.739,
      "step": 4091
    },
    {
      "epoch": 1.4124956851915775,
      "grad_norm": 1.2470479011535645,
      "learning_rate": 2e-05,
      "loss": 0.8075,
      "step": 4092
    },
    {
      "epoch": 1.412840869865378,
      "grad_norm": 1.3638811111450195,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 4093
    },
    {
      "epoch": 1.4131860545391786,
      "grad_norm": 1.2916591167449951,
      "learning_rate": 2e-05,
      "loss": 0.7848,
      "step": 4094
    },
    {
      "epoch": 1.413531239212979,
      "grad_norm": 1.220096230506897,
      "learning_rate": 2e-05,
      "loss": 0.7523,
      "step": 4095
    },
    {
      "epoch": 1.4138764238867794,
      "grad_norm": 1.3351714611053467,
      "learning_rate": 2e-05,
      "loss": 0.746,
      "step": 4096
    },
    {
      "epoch": 1.4142216085605799,
      "grad_norm": 1.3028546571731567,
      "learning_rate": 2e-05,
      "loss": 0.7478,
      "step": 4097
    },
    {
      "epoch": 1.4145667932343804,
      "grad_norm": 1.2469571828842163,
      "learning_rate": 2e-05,
      "loss": 0.7951,
      "step": 4098
    },
    {
      "epoch": 1.414911977908181,
      "grad_norm": 1.2756402492523193,
      "learning_rate": 2e-05,
      "loss": 0.7809,
      "step": 4099
    },
    {
      "epoch": 1.4152571625819814,
      "grad_norm": 1.2662487030029297,
      "learning_rate": 2e-05,
      "loss": 0.7498,
      "step": 4100
    },
    {
      "epoch": 1.4156023472557817,
      "grad_norm": 1.2520778179168701,
      "learning_rate": 2e-05,
      "loss": 0.8443,
      "step": 4101
    },
    {
      "epoch": 1.4159475319295822,
      "grad_norm": 1.2331507205963135,
      "learning_rate": 2e-05,
      "loss": 0.7382,
      "step": 4102
    },
    {
      "epoch": 1.4162927166033827,
      "grad_norm": 1.4358336925506592,
      "learning_rate": 2e-05,
      "loss": 0.7047,
      "step": 4103
    },
    {
      "epoch": 1.4166379012771833,
      "grad_norm": 1.2688244581222534,
      "learning_rate": 2e-05,
      "loss": 0.7381,
      "step": 4104
    },
    {
      "epoch": 1.4169830859509838,
      "grad_norm": 1.2736403942108154,
      "learning_rate": 2e-05,
      "loss": 0.7883,
      "step": 4105
    },
    {
      "epoch": 1.4173282706247843,
      "grad_norm": 1.2474552392959595,
      "learning_rate": 2e-05,
      "loss": 0.7757,
      "step": 4106
    },
    {
      "epoch": 1.4176734552985848,
      "grad_norm": 1.2282236814498901,
      "learning_rate": 2e-05,
      "loss": 0.7132,
      "step": 4107
    },
    {
      "epoch": 1.4180186399723853,
      "grad_norm": 1.2454078197479248,
      "learning_rate": 2e-05,
      "loss": 0.7026,
      "step": 4108
    },
    {
      "epoch": 1.4183638246461858,
      "grad_norm": 1.222062587738037,
      "learning_rate": 2e-05,
      "loss": 0.777,
      "step": 4109
    },
    {
      "epoch": 1.4187090093199861,
      "grad_norm": 1.2805932760238647,
      "learning_rate": 2e-05,
      "loss": 0.8167,
      "step": 4110
    },
    {
      "epoch": 1.4190541939937866,
      "grad_norm": 1.2966686487197876,
      "learning_rate": 2e-05,
      "loss": 0.8017,
      "step": 4111
    },
    {
      "epoch": 1.4193993786675871,
      "grad_norm": 1.235762119293213,
      "learning_rate": 2e-05,
      "loss": 0.7593,
      "step": 4112
    },
    {
      "epoch": 1.4197445633413877,
      "grad_norm": 1.3442130088806152,
      "learning_rate": 2e-05,
      "loss": 0.7296,
      "step": 4113
    },
    {
      "epoch": 1.4200897480151882,
      "grad_norm": 1.2698452472686768,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 4114
    },
    {
      "epoch": 1.4204349326889887,
      "grad_norm": 1.1528102159500122,
      "learning_rate": 2e-05,
      "loss": 0.796,
      "step": 4115
    },
    {
      "epoch": 1.420780117362789,
      "grad_norm": 1.1823853254318237,
      "learning_rate": 2e-05,
      "loss": 0.7405,
      "step": 4116
    },
    {
      "epoch": 1.4211253020365895,
      "grad_norm": 1.2977317571640015,
      "learning_rate": 2e-05,
      "loss": 0.811,
      "step": 4117
    },
    {
      "epoch": 1.42147048671039,
      "grad_norm": 1.2692617177963257,
      "learning_rate": 2e-05,
      "loss": 0.8217,
      "step": 4118
    },
    {
      "epoch": 1.4218156713841905,
      "grad_norm": 1.3978310823440552,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 4119
    },
    {
      "epoch": 1.422160856057991,
      "grad_norm": 1.3168604373931885,
      "learning_rate": 2e-05,
      "loss": 0.7845,
      "step": 4120
    },
    {
      "epoch": 1.4225060407317915,
      "grad_norm": 1.3148480653762817,
      "learning_rate": 2e-05,
      "loss": 0.7729,
      "step": 4121
    },
    {
      "epoch": 1.422851225405592,
      "grad_norm": 1.3504763841629028,
      "learning_rate": 2e-05,
      "loss": 0.7676,
      "step": 4122
    },
    {
      "epoch": 1.4231964100793926,
      "grad_norm": 1.2729851007461548,
      "learning_rate": 2e-05,
      "loss": 0.7365,
      "step": 4123
    },
    {
      "epoch": 1.423541594753193,
      "grad_norm": 1.2977349758148193,
      "learning_rate": 2e-05,
      "loss": 0.7771,
      "step": 4124
    },
    {
      "epoch": 1.4238867794269934,
      "grad_norm": 1.3115222454071045,
      "learning_rate": 2e-05,
      "loss": 0.8022,
      "step": 4125
    },
    {
      "epoch": 1.424231964100794,
      "grad_norm": 1.2508530616760254,
      "learning_rate": 2e-05,
      "loss": 0.8248,
      "step": 4126
    },
    {
      "epoch": 1.4245771487745944,
      "grad_norm": 1.3035037517547607,
      "learning_rate": 2e-05,
      "loss": 0.7611,
      "step": 4127
    },
    {
      "epoch": 1.424922333448395,
      "grad_norm": 1.302635908126831,
      "learning_rate": 2e-05,
      "loss": 0.8411,
      "step": 4128
    },
    {
      "epoch": 1.4252675181221954,
      "grad_norm": 1.2854818105697632,
      "learning_rate": 2e-05,
      "loss": 0.7545,
      "step": 4129
    },
    {
      "epoch": 1.4256127027959957,
      "grad_norm": 1.2101823091506958,
      "learning_rate": 2e-05,
      "loss": 0.7134,
      "step": 4130
    },
    {
      "epoch": 1.4259578874697962,
      "grad_norm": 1.2725355625152588,
      "learning_rate": 2e-05,
      "loss": 0.7457,
      "step": 4131
    },
    {
      "epoch": 1.4263030721435968,
      "grad_norm": 1.3213218450546265,
      "learning_rate": 2e-05,
      "loss": 0.7232,
      "step": 4132
    },
    {
      "epoch": 1.4266482568173973,
      "grad_norm": 1.252840280532837,
      "learning_rate": 2e-05,
      "loss": 0.7429,
      "step": 4133
    },
    {
      "epoch": 1.4269934414911978,
      "grad_norm": 1.2660579681396484,
      "learning_rate": 2e-05,
      "loss": 0.8034,
      "step": 4134
    },
    {
      "epoch": 1.4273386261649983,
      "grad_norm": 1.3235533237457275,
      "learning_rate": 2e-05,
      "loss": 0.8153,
      "step": 4135
    },
    {
      "epoch": 1.4276838108387988,
      "grad_norm": 1.12019944190979,
      "learning_rate": 2e-05,
      "loss": 0.8191,
      "step": 4136
    },
    {
      "epoch": 1.4280289955125993,
      "grad_norm": 1.3759843111038208,
      "learning_rate": 2e-05,
      "loss": 0.7486,
      "step": 4137
    },
    {
      "epoch": 1.4283741801863998,
      "grad_norm": 1.1392513513565063,
      "learning_rate": 2e-05,
      "loss": 0.7461,
      "step": 4138
    },
    {
      "epoch": 1.4287193648602001,
      "grad_norm": 1.3857839107513428,
      "learning_rate": 2e-05,
      "loss": 0.7837,
      "step": 4139
    },
    {
      "epoch": 1.4290645495340006,
      "grad_norm": 1.3154997825622559,
      "learning_rate": 2e-05,
      "loss": 0.7326,
      "step": 4140
    },
    {
      "epoch": 1.4294097342078012,
      "grad_norm": 1.3007186651229858,
      "learning_rate": 2e-05,
      "loss": 0.8224,
      "step": 4141
    },
    {
      "epoch": 1.4297549188816017,
      "grad_norm": 1.188843011856079,
      "learning_rate": 2e-05,
      "loss": 0.7408,
      "step": 4142
    },
    {
      "epoch": 1.4301001035554022,
      "grad_norm": 1.2518470287322998,
      "learning_rate": 2e-05,
      "loss": 0.7894,
      "step": 4143
    },
    {
      "epoch": 1.4304452882292027,
      "grad_norm": 1.3379369974136353,
      "learning_rate": 2e-05,
      "loss": 0.749,
      "step": 4144
    },
    {
      "epoch": 1.430790472903003,
      "grad_norm": 1.311863899230957,
      "learning_rate": 2e-05,
      "loss": 0.7166,
      "step": 4145
    },
    {
      "epoch": 1.4311356575768035,
      "grad_norm": 1.2563594579696655,
      "learning_rate": 2e-05,
      "loss": 0.75,
      "step": 4146
    },
    {
      "epoch": 1.431480842250604,
      "grad_norm": 1.2529486417770386,
      "learning_rate": 2e-05,
      "loss": 0.702,
      "step": 4147
    },
    {
      "epoch": 1.4318260269244045,
      "grad_norm": 1.3042924404144287,
      "learning_rate": 2e-05,
      "loss": 0.8516,
      "step": 4148
    },
    {
      "epoch": 1.432171211598205,
      "grad_norm": 1.3301912546157837,
      "learning_rate": 2e-05,
      "loss": 0.7525,
      "step": 4149
    },
    {
      "epoch": 1.4325163962720056,
      "grad_norm": 1.3229026794433594,
      "learning_rate": 2e-05,
      "loss": 0.6992,
      "step": 4150
    },
    {
      "epoch": 1.432861580945806,
      "grad_norm": 1.4178869724273682,
      "learning_rate": 2e-05,
      "loss": 0.7722,
      "step": 4151
    },
    {
      "epoch": 1.4332067656196066,
      "grad_norm": 1.3999563455581665,
      "learning_rate": 2e-05,
      "loss": 0.8244,
      "step": 4152
    },
    {
      "epoch": 1.433551950293407,
      "grad_norm": 1.3294600248336792,
      "learning_rate": 2e-05,
      "loss": 0.8089,
      "step": 4153
    },
    {
      "epoch": 1.4338971349672074,
      "grad_norm": 1.4648346900939941,
      "learning_rate": 2e-05,
      "loss": 0.853,
      "step": 4154
    },
    {
      "epoch": 1.434242319641008,
      "grad_norm": 1.1197558641433716,
      "learning_rate": 2e-05,
      "loss": 0.7553,
      "step": 4155
    },
    {
      "epoch": 1.4345875043148084,
      "grad_norm": 1.098078966140747,
      "learning_rate": 2e-05,
      "loss": 0.719,
      "step": 4156
    },
    {
      "epoch": 1.434932688988609,
      "grad_norm": 1.3171149492263794,
      "learning_rate": 2e-05,
      "loss": 0.7319,
      "step": 4157
    },
    {
      "epoch": 1.4352778736624094,
      "grad_norm": 1.3661296367645264,
      "learning_rate": 2e-05,
      "loss": 0.7797,
      "step": 4158
    },
    {
      "epoch": 1.4356230583362097,
      "grad_norm": 1.2810051441192627,
      "learning_rate": 2e-05,
      "loss": 0.7716,
      "step": 4159
    },
    {
      "epoch": 1.4359682430100102,
      "grad_norm": 1.3314669132232666,
      "learning_rate": 2e-05,
      "loss": 0.7924,
      "step": 4160
    },
    {
      "epoch": 1.4363134276838108,
      "grad_norm": 1.2387198209762573,
      "learning_rate": 2e-05,
      "loss": 0.7127,
      "step": 4161
    },
    {
      "epoch": 1.4366586123576113,
      "grad_norm": 1.2602859735488892,
      "learning_rate": 2e-05,
      "loss": 0.8853,
      "step": 4162
    },
    {
      "epoch": 1.4370037970314118,
      "grad_norm": 1.513784408569336,
      "learning_rate": 2e-05,
      "loss": 0.794,
      "step": 4163
    },
    {
      "epoch": 1.4373489817052123,
      "grad_norm": 1.1966395378112793,
      "learning_rate": 2e-05,
      "loss": 0.7245,
      "step": 4164
    },
    {
      "epoch": 1.4376941663790128,
      "grad_norm": 1.360361933708191,
      "learning_rate": 2e-05,
      "loss": 0.7757,
      "step": 4165
    },
    {
      "epoch": 1.4380393510528133,
      "grad_norm": 1.423231601715088,
      "learning_rate": 2e-05,
      "loss": 0.7879,
      "step": 4166
    },
    {
      "epoch": 1.4383845357266138,
      "grad_norm": 1.1491883993148804,
      "learning_rate": 2e-05,
      "loss": 0.7406,
      "step": 4167
    },
    {
      "epoch": 1.4387297204004144,
      "grad_norm": 1.2353852987289429,
      "learning_rate": 2e-05,
      "loss": 0.7746,
      "step": 4168
    },
    {
      "epoch": 1.4390749050742146,
      "grad_norm": 1.2013565301895142,
      "learning_rate": 2e-05,
      "loss": 0.7721,
      "step": 4169
    },
    {
      "epoch": 1.4394200897480152,
      "grad_norm": 1.2952991724014282,
      "learning_rate": 2e-05,
      "loss": 0.7269,
      "step": 4170
    },
    {
      "epoch": 1.4397652744218157,
      "grad_norm": 1.307076334953308,
      "learning_rate": 2e-05,
      "loss": 0.7566,
      "step": 4171
    },
    {
      "epoch": 1.4401104590956162,
      "grad_norm": 1.2178930044174194,
      "learning_rate": 2e-05,
      "loss": 0.7659,
      "step": 4172
    },
    {
      "epoch": 1.4404556437694167,
      "grad_norm": 1.267714023590088,
      "learning_rate": 2e-05,
      "loss": 0.6825,
      "step": 4173
    },
    {
      "epoch": 1.440800828443217,
      "grad_norm": 1.1383992433547974,
      "learning_rate": 2e-05,
      "loss": 0.7958,
      "step": 4174
    },
    {
      "epoch": 1.4411460131170175,
      "grad_norm": 1.2996931076049805,
      "learning_rate": 2e-05,
      "loss": 0.7434,
      "step": 4175
    },
    {
      "epoch": 1.441491197790818,
      "grad_norm": 1.2456032037734985,
      "learning_rate": 2e-05,
      "loss": 0.7158,
      "step": 4176
    },
    {
      "epoch": 1.4418363824646185,
      "grad_norm": 1.260985016822815,
      "learning_rate": 2e-05,
      "loss": 0.7155,
      "step": 4177
    },
    {
      "epoch": 1.442181567138419,
      "grad_norm": 1.1804289817810059,
      "learning_rate": 2e-05,
      "loss": 0.7344,
      "step": 4178
    },
    {
      "epoch": 1.4425267518122196,
      "grad_norm": 1.7615360021591187,
      "learning_rate": 2e-05,
      "loss": 0.7774,
      "step": 4179
    },
    {
      "epoch": 1.44287193648602,
      "grad_norm": 1.2157701253890991,
      "learning_rate": 2e-05,
      "loss": 0.8263,
      "step": 4180
    },
    {
      "epoch": 1.4432171211598206,
      "grad_norm": 1.3623015880584717,
      "learning_rate": 2e-05,
      "loss": 0.7379,
      "step": 4181
    },
    {
      "epoch": 1.443562305833621,
      "grad_norm": 1.3006105422973633,
      "learning_rate": 2e-05,
      "loss": 0.7272,
      "step": 4182
    },
    {
      "epoch": 1.4439074905074214,
      "grad_norm": 1.3022010326385498,
      "learning_rate": 2e-05,
      "loss": 0.7623,
      "step": 4183
    },
    {
      "epoch": 1.444252675181222,
      "grad_norm": 1.2100677490234375,
      "learning_rate": 2e-05,
      "loss": 0.7724,
      "step": 4184
    },
    {
      "epoch": 1.4445978598550224,
      "grad_norm": 1.2879822254180908,
      "learning_rate": 2e-05,
      "loss": 0.835,
      "step": 4185
    },
    {
      "epoch": 1.444943044528823,
      "grad_norm": 1.241580605506897,
      "learning_rate": 2e-05,
      "loss": 0.7888,
      "step": 4186
    },
    {
      "epoch": 1.4452882292026235,
      "grad_norm": 1.2986341714859009,
      "learning_rate": 2e-05,
      "loss": 0.7802,
      "step": 4187
    },
    {
      "epoch": 1.445633413876424,
      "grad_norm": 1.2327903509140015,
      "learning_rate": 2e-05,
      "loss": 0.8396,
      "step": 4188
    },
    {
      "epoch": 1.4459785985502243,
      "grad_norm": 1.2484893798828125,
      "learning_rate": 2e-05,
      "loss": 0.7661,
      "step": 4189
    },
    {
      "epoch": 1.4463237832240248,
      "grad_norm": 1.3329182863235474,
      "learning_rate": 2e-05,
      "loss": 0.8484,
      "step": 4190
    },
    {
      "epoch": 1.4466689678978253,
      "grad_norm": 1.4044289588928223,
      "learning_rate": 2e-05,
      "loss": 0.7642,
      "step": 4191
    },
    {
      "epoch": 1.4470141525716258,
      "grad_norm": 1.257516860961914,
      "learning_rate": 2e-05,
      "loss": 0.8664,
      "step": 4192
    },
    {
      "epoch": 1.4473593372454263,
      "grad_norm": 1.2339425086975098,
      "learning_rate": 2e-05,
      "loss": 0.8053,
      "step": 4193
    },
    {
      "epoch": 1.4477045219192268,
      "grad_norm": 1.2839045524597168,
      "learning_rate": 2e-05,
      "loss": 0.7208,
      "step": 4194
    },
    {
      "epoch": 1.4480497065930273,
      "grad_norm": 1.1899611949920654,
      "learning_rate": 2e-05,
      "loss": 0.8624,
      "step": 4195
    },
    {
      "epoch": 1.4483948912668279,
      "grad_norm": 1.278334617614746,
      "learning_rate": 2e-05,
      "loss": 0.6968,
      "step": 4196
    },
    {
      "epoch": 1.4487400759406284,
      "grad_norm": 1.2395867109298706,
      "learning_rate": 2e-05,
      "loss": 0.7445,
      "step": 4197
    },
    {
      "epoch": 1.4490852606144287,
      "grad_norm": 1.329924464225769,
      "learning_rate": 2e-05,
      "loss": 0.8135,
      "step": 4198
    },
    {
      "epoch": 1.4494304452882292,
      "grad_norm": 1.4150134325027466,
      "learning_rate": 2e-05,
      "loss": 0.7538,
      "step": 4199
    },
    {
      "epoch": 1.4497756299620297,
      "grad_norm": 1.3855468034744263,
      "learning_rate": 2e-05,
      "loss": 0.7072,
      "step": 4200
    },
    {
      "epoch": 1.4501208146358302,
      "grad_norm": 1.3741400241851807,
      "learning_rate": 2e-05,
      "loss": 0.7769,
      "step": 4201
    },
    {
      "epoch": 1.4504659993096307,
      "grad_norm": 1.4018785953521729,
      "learning_rate": 2e-05,
      "loss": 0.7361,
      "step": 4202
    },
    {
      "epoch": 1.450811183983431,
      "grad_norm": 1.1788452863693237,
      "learning_rate": 2e-05,
      "loss": 0.7377,
      "step": 4203
    },
    {
      "epoch": 1.4511563686572315,
      "grad_norm": 1.3833231925964355,
      "learning_rate": 2e-05,
      "loss": 0.7029,
      "step": 4204
    },
    {
      "epoch": 1.451501553331032,
      "grad_norm": 1.461479902267456,
      "learning_rate": 2e-05,
      "loss": 0.6923,
      "step": 4205
    },
    {
      "epoch": 1.4518467380048325,
      "grad_norm": 1.2614063024520874,
      "learning_rate": 2e-05,
      "loss": 0.7556,
      "step": 4206
    },
    {
      "epoch": 1.452191922678633,
      "grad_norm": 1.3094123601913452,
      "learning_rate": 2e-05,
      "loss": 0.7719,
      "step": 4207
    },
    {
      "epoch": 1.4525371073524336,
      "grad_norm": 1.3503105640411377,
      "learning_rate": 2e-05,
      "loss": 0.8074,
      "step": 4208
    },
    {
      "epoch": 1.452882292026234,
      "grad_norm": 1.4892113208770752,
      "learning_rate": 2e-05,
      "loss": 0.7437,
      "step": 4209
    },
    {
      "epoch": 1.4532274767000346,
      "grad_norm": 1.3877171277999878,
      "learning_rate": 2e-05,
      "loss": 0.7473,
      "step": 4210
    },
    {
      "epoch": 1.4535726613738351,
      "grad_norm": 1.367641806602478,
      "learning_rate": 2e-05,
      "loss": 0.8349,
      "step": 4211
    },
    {
      "epoch": 1.4539178460476354,
      "grad_norm": 1.2735545635223389,
      "learning_rate": 2e-05,
      "loss": 0.7659,
      "step": 4212
    },
    {
      "epoch": 1.454263030721436,
      "grad_norm": 1.227543830871582,
      "learning_rate": 2e-05,
      "loss": 0.8315,
      "step": 4213
    },
    {
      "epoch": 1.4546082153952364,
      "grad_norm": 1.38556706905365,
      "learning_rate": 2e-05,
      "loss": 0.7481,
      "step": 4214
    },
    {
      "epoch": 1.454953400069037,
      "grad_norm": 1.2142127752304077,
      "learning_rate": 2e-05,
      "loss": 0.8304,
      "step": 4215
    },
    {
      "epoch": 1.4552985847428375,
      "grad_norm": 1.3731629848480225,
      "learning_rate": 2e-05,
      "loss": 0.6821,
      "step": 4216
    },
    {
      "epoch": 1.455643769416638,
      "grad_norm": 1.2648431062698364,
      "learning_rate": 2e-05,
      "loss": 0.7408,
      "step": 4217
    },
    {
      "epoch": 1.4559889540904383,
      "grad_norm": 1.305307149887085,
      "learning_rate": 2e-05,
      "loss": 0.6957,
      "step": 4218
    },
    {
      "epoch": 1.4563341387642388,
      "grad_norm": 1.2128620147705078,
      "learning_rate": 2e-05,
      "loss": 0.7849,
      "step": 4219
    },
    {
      "epoch": 1.4566793234380393,
      "grad_norm": 1.1920113563537598,
      "learning_rate": 2e-05,
      "loss": 0.7274,
      "step": 4220
    },
    {
      "epoch": 1.4570245081118398,
      "grad_norm": 1.1858272552490234,
      "learning_rate": 2e-05,
      "loss": 0.7986,
      "step": 4221
    },
    {
      "epoch": 1.4573696927856403,
      "grad_norm": 1.1798856258392334,
      "learning_rate": 2e-05,
      "loss": 0.7779,
      "step": 4222
    },
    {
      "epoch": 1.4577148774594408,
      "grad_norm": 1.1625919342041016,
      "learning_rate": 2e-05,
      "loss": 0.7173,
      "step": 4223
    },
    {
      "epoch": 1.4580600621332414,
      "grad_norm": 1.2476035356521606,
      "learning_rate": 2e-05,
      "loss": 0.7502,
      "step": 4224
    },
    {
      "epoch": 1.4584052468070419,
      "grad_norm": 1.3358744382858276,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 4225
    },
    {
      "epoch": 1.4587504314808424,
      "grad_norm": 1.313841462135315,
      "learning_rate": 2e-05,
      "loss": 0.7358,
      "step": 4226
    },
    {
      "epoch": 1.4590956161546427,
      "grad_norm": 1.3650456666946411,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 4227
    },
    {
      "epoch": 1.4594408008284432,
      "grad_norm": 1.2703427076339722,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 4228
    },
    {
      "epoch": 1.4597859855022437,
      "grad_norm": 1.3507158756256104,
      "learning_rate": 2e-05,
      "loss": 0.8051,
      "step": 4229
    },
    {
      "epoch": 1.4601311701760442,
      "grad_norm": 1.3153769969940186,
      "learning_rate": 2e-05,
      "loss": 0.6993,
      "step": 4230
    },
    {
      "epoch": 1.4604763548498447,
      "grad_norm": 1.223229169845581,
      "learning_rate": 2e-05,
      "loss": 0.7164,
      "step": 4231
    },
    {
      "epoch": 1.460821539523645,
      "grad_norm": 1.3442552089691162,
      "learning_rate": 2e-05,
      "loss": 0.8163,
      "step": 4232
    },
    {
      "epoch": 1.4611667241974455,
      "grad_norm": 1.2079112529754639,
      "learning_rate": 2e-05,
      "loss": 0.6663,
      "step": 4233
    },
    {
      "epoch": 1.461511908871246,
      "grad_norm": 1.2482585906982422,
      "learning_rate": 2e-05,
      "loss": 0.7842,
      "step": 4234
    },
    {
      "epoch": 1.4618570935450466,
      "grad_norm": 1.2194221019744873,
      "learning_rate": 2e-05,
      "loss": 0.8521,
      "step": 4235
    },
    {
      "epoch": 1.462202278218847,
      "grad_norm": 1.3682327270507812,
      "learning_rate": 2e-05,
      "loss": 0.7617,
      "step": 4236
    },
    {
      "epoch": 1.4625474628926476,
      "grad_norm": 1.2621519565582275,
      "learning_rate": 2e-05,
      "loss": 0.7151,
      "step": 4237
    },
    {
      "epoch": 1.462892647566448,
      "grad_norm": 1.244057059288025,
      "learning_rate": 2e-05,
      "loss": 0.7461,
      "step": 4238
    },
    {
      "epoch": 1.4632378322402486,
      "grad_norm": 1.2767726182937622,
      "learning_rate": 2e-05,
      "loss": 0.8264,
      "step": 4239
    },
    {
      "epoch": 1.4635830169140491,
      "grad_norm": 1.3938542604446411,
      "learning_rate": 2e-05,
      "loss": 0.8724,
      "step": 4240
    },
    {
      "epoch": 1.4639282015878494,
      "grad_norm": 1.2595573663711548,
      "learning_rate": 2e-05,
      "loss": 0.7682,
      "step": 4241
    },
    {
      "epoch": 1.46427338626165,
      "grad_norm": 1.3157087564468384,
      "learning_rate": 2e-05,
      "loss": 0.7347,
      "step": 4242
    },
    {
      "epoch": 1.4646185709354504,
      "grad_norm": 1.3369425535202026,
      "learning_rate": 2e-05,
      "loss": 0.7897,
      "step": 4243
    },
    {
      "epoch": 1.464963755609251,
      "grad_norm": 1.303005337715149,
      "learning_rate": 2e-05,
      "loss": 0.7448,
      "step": 4244
    },
    {
      "epoch": 1.4653089402830515,
      "grad_norm": 1.204110860824585,
      "learning_rate": 2e-05,
      "loss": 0.7319,
      "step": 4245
    },
    {
      "epoch": 1.465654124956852,
      "grad_norm": 1.2755762338638306,
      "learning_rate": 2e-05,
      "loss": 0.732,
      "step": 4246
    },
    {
      "epoch": 1.4659993096306523,
      "grad_norm": 1.2625885009765625,
      "learning_rate": 2e-05,
      "loss": 0.818,
      "step": 4247
    },
    {
      "epoch": 1.4663444943044528,
      "grad_norm": 1.1780121326446533,
      "learning_rate": 2e-05,
      "loss": 0.7442,
      "step": 4248
    },
    {
      "epoch": 1.4666896789782533,
      "grad_norm": 1.1688652038574219,
      "learning_rate": 2e-05,
      "loss": 0.7508,
      "step": 4249
    },
    {
      "epoch": 1.4670348636520538,
      "grad_norm": 1.3554890155792236,
      "learning_rate": 2e-05,
      "loss": 0.7364,
      "step": 4250
    },
    {
      "epoch": 1.4673800483258543,
      "grad_norm": 1.2442677021026611,
      "learning_rate": 2e-05,
      "loss": 0.7756,
      "step": 4251
    },
    {
      "epoch": 1.4677252329996548,
      "grad_norm": 1.2726026773452759,
      "learning_rate": 2e-05,
      "loss": 0.7409,
      "step": 4252
    },
    {
      "epoch": 1.4680704176734554,
      "grad_norm": 1.3830357789993286,
      "learning_rate": 2e-05,
      "loss": 0.8141,
      "step": 4253
    },
    {
      "epoch": 1.4684156023472559,
      "grad_norm": 1.3751065731048584,
      "learning_rate": 2e-05,
      "loss": 0.7507,
      "step": 4254
    },
    {
      "epoch": 1.4687607870210564,
      "grad_norm": 1.2321953773498535,
      "learning_rate": 2e-05,
      "loss": 0.7366,
      "step": 4255
    },
    {
      "epoch": 1.4691059716948567,
      "grad_norm": 1.3414868116378784,
      "learning_rate": 2e-05,
      "loss": 0.7971,
      "step": 4256
    },
    {
      "epoch": 1.4694511563686572,
      "grad_norm": 1.2599982023239136,
      "learning_rate": 2e-05,
      "loss": 0.7773,
      "step": 4257
    },
    {
      "epoch": 1.4697963410424577,
      "grad_norm": 1.1688956022262573,
      "learning_rate": 2e-05,
      "loss": 0.7195,
      "step": 4258
    },
    {
      "epoch": 1.4701415257162582,
      "grad_norm": 1.3077503442764282,
      "learning_rate": 2e-05,
      "loss": 0.7707,
      "step": 4259
    },
    {
      "epoch": 1.4704867103900587,
      "grad_norm": 1.313621997833252,
      "learning_rate": 2e-05,
      "loss": 0.7798,
      "step": 4260
    },
    {
      "epoch": 1.470831895063859,
      "grad_norm": 1.3529393672943115,
      "learning_rate": 2e-05,
      "loss": 0.755,
      "step": 4261
    },
    {
      "epoch": 1.4711770797376595,
      "grad_norm": 1.172642469406128,
      "learning_rate": 2e-05,
      "loss": 0.7745,
      "step": 4262
    },
    {
      "epoch": 1.47152226441146,
      "grad_norm": 1.3352489471435547,
      "learning_rate": 2e-05,
      "loss": 0.8238,
      "step": 4263
    },
    {
      "epoch": 1.4718674490852606,
      "grad_norm": 1.2742111682891846,
      "learning_rate": 2e-05,
      "loss": 0.7606,
      "step": 4264
    },
    {
      "epoch": 1.472212633759061,
      "grad_norm": 1.3255902528762817,
      "learning_rate": 2e-05,
      "loss": 0.7682,
      "step": 4265
    },
    {
      "epoch": 1.4725578184328616,
      "grad_norm": 1.3017206192016602,
      "learning_rate": 2e-05,
      "loss": 0.7755,
      "step": 4266
    },
    {
      "epoch": 1.4729030031066621,
      "grad_norm": 1.2117419242858887,
      "learning_rate": 2e-05,
      "loss": 0.7314,
      "step": 4267
    },
    {
      "epoch": 1.4732481877804626,
      "grad_norm": 1.2344516515731812,
      "learning_rate": 2e-05,
      "loss": 0.7448,
      "step": 4268
    },
    {
      "epoch": 1.4735933724542631,
      "grad_norm": 1.3095048666000366,
      "learning_rate": 2e-05,
      "loss": 0.7853,
      "step": 4269
    },
    {
      "epoch": 1.4739385571280634,
      "grad_norm": 1.206866979598999,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 4270
    },
    {
      "epoch": 1.474283741801864,
      "grad_norm": 1.1936488151550293,
      "learning_rate": 2e-05,
      "loss": 0.7356,
      "step": 4271
    },
    {
      "epoch": 1.4746289264756645,
      "grad_norm": 1.2963404655456543,
      "learning_rate": 2e-05,
      "loss": 0.7825,
      "step": 4272
    },
    {
      "epoch": 1.474974111149465,
      "grad_norm": 1.3481661081314087,
      "learning_rate": 2e-05,
      "loss": 0.75,
      "step": 4273
    },
    {
      "epoch": 1.4753192958232655,
      "grad_norm": 1.3151253461837769,
      "learning_rate": 2e-05,
      "loss": 0.8209,
      "step": 4274
    },
    {
      "epoch": 1.475664480497066,
      "grad_norm": 1.271929383277893,
      "learning_rate": 2e-05,
      "loss": 0.7688,
      "step": 4275
    },
    {
      "epoch": 1.4760096651708663,
      "grad_norm": 1.1834813356399536,
      "learning_rate": 2e-05,
      "loss": 0.7148,
      "step": 4276
    },
    {
      "epoch": 1.4763548498446668,
      "grad_norm": 1.3044663667678833,
      "learning_rate": 2e-05,
      "loss": 0.7018,
      "step": 4277
    },
    {
      "epoch": 1.4767000345184673,
      "grad_norm": 1.3567180633544922,
      "learning_rate": 2e-05,
      "loss": 0.8182,
      "step": 4278
    },
    {
      "epoch": 1.4770452191922678,
      "grad_norm": 1.3441972732543945,
      "learning_rate": 2e-05,
      "loss": 0.7635,
      "step": 4279
    },
    {
      "epoch": 1.4773904038660683,
      "grad_norm": 1.3839995861053467,
      "learning_rate": 2e-05,
      "loss": 0.7706,
      "step": 4280
    },
    {
      "epoch": 1.4777355885398689,
      "grad_norm": 1.292663812637329,
      "learning_rate": 2e-05,
      "loss": 0.7645,
      "step": 4281
    },
    {
      "epoch": 1.4780807732136694,
      "grad_norm": 1.6004629135131836,
      "learning_rate": 2e-05,
      "loss": 0.8004,
      "step": 4282
    },
    {
      "epoch": 1.4784259578874699,
      "grad_norm": 1.4871242046356201,
      "learning_rate": 2e-05,
      "loss": 0.82,
      "step": 4283
    },
    {
      "epoch": 1.4787711425612704,
      "grad_norm": 1.432613492012024,
      "learning_rate": 2e-05,
      "loss": 0.7471,
      "step": 4284
    },
    {
      "epoch": 1.4791163272350707,
      "grad_norm": 1.3297141790390015,
      "learning_rate": 2e-05,
      "loss": 0.7402,
      "step": 4285
    },
    {
      "epoch": 1.4794615119088712,
      "grad_norm": 1.2093576192855835,
      "learning_rate": 2e-05,
      "loss": 0.81,
      "step": 4286
    },
    {
      "epoch": 1.4798066965826717,
      "grad_norm": 1.407172679901123,
      "learning_rate": 2e-05,
      "loss": 0.7673,
      "step": 4287
    },
    {
      "epoch": 1.4801518812564722,
      "grad_norm": 1.2963944673538208,
      "learning_rate": 2e-05,
      "loss": 0.767,
      "step": 4288
    },
    {
      "epoch": 1.4804970659302727,
      "grad_norm": 1.263667106628418,
      "learning_rate": 2e-05,
      "loss": 0.774,
      "step": 4289
    },
    {
      "epoch": 1.480842250604073,
      "grad_norm": 1.3107011318206787,
      "learning_rate": 2e-05,
      "loss": 0.7656,
      "step": 4290
    },
    {
      "epoch": 1.4811874352778736,
      "grad_norm": 1.2639151811599731,
      "learning_rate": 2e-05,
      "loss": 0.8423,
      "step": 4291
    },
    {
      "epoch": 1.481532619951674,
      "grad_norm": 1.2276602983474731,
      "learning_rate": 2e-05,
      "loss": 0.8059,
      "step": 4292
    },
    {
      "epoch": 1.4818778046254746,
      "grad_norm": 1.3260080814361572,
      "learning_rate": 2e-05,
      "loss": 0.7018,
      "step": 4293
    },
    {
      "epoch": 1.482222989299275,
      "grad_norm": 1.2561067342758179,
      "learning_rate": 2e-05,
      "loss": 0.775,
      "step": 4294
    },
    {
      "epoch": 1.4825681739730756,
      "grad_norm": 1.2323503494262695,
      "learning_rate": 2e-05,
      "loss": 0.7372,
      "step": 4295
    },
    {
      "epoch": 1.4829133586468761,
      "grad_norm": 1.2102885246276855,
      "learning_rate": 2e-05,
      "loss": 0.8081,
      "step": 4296
    },
    {
      "epoch": 1.4832585433206766,
      "grad_norm": 1.2133753299713135,
      "learning_rate": 2e-05,
      "loss": 0.7406,
      "step": 4297
    },
    {
      "epoch": 1.4836037279944772,
      "grad_norm": 1.2734624147415161,
      "learning_rate": 2e-05,
      "loss": 0.8034,
      "step": 4298
    },
    {
      "epoch": 1.4839489126682777,
      "grad_norm": 1.3161369562149048,
      "learning_rate": 2e-05,
      "loss": 0.6852,
      "step": 4299
    },
    {
      "epoch": 1.484294097342078,
      "grad_norm": 1.3223320245742798,
      "learning_rate": 2e-05,
      "loss": 0.8416,
      "step": 4300
    },
    {
      "epoch": 1.4846392820158785,
      "grad_norm": 1.4783849716186523,
      "learning_rate": 2e-05,
      "loss": 0.7412,
      "step": 4301
    },
    {
      "epoch": 1.484984466689679,
      "grad_norm": 1.2891448736190796,
      "learning_rate": 2e-05,
      "loss": 0.7736,
      "step": 4302
    },
    {
      "epoch": 1.4853296513634795,
      "grad_norm": 1.2240750789642334,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 4303
    },
    {
      "epoch": 1.48567483603728,
      "grad_norm": 1.12334406375885,
      "learning_rate": 2e-05,
      "loss": 0.7351,
      "step": 4304
    },
    {
      "epoch": 1.4860200207110803,
      "grad_norm": 1.446528673171997,
      "learning_rate": 2e-05,
      "loss": 0.801,
      "step": 4305
    },
    {
      "epoch": 1.4863652053848808,
      "grad_norm": 1.1634341478347778,
      "learning_rate": 2e-05,
      "loss": 0.6994,
      "step": 4306
    },
    {
      "epoch": 1.4867103900586813,
      "grad_norm": 1.2369686365127563,
      "learning_rate": 2e-05,
      "loss": 0.7746,
      "step": 4307
    },
    {
      "epoch": 1.4870555747324818,
      "grad_norm": 1.348019003868103,
      "learning_rate": 2e-05,
      "loss": 0.7915,
      "step": 4308
    },
    {
      "epoch": 1.4874007594062824,
      "grad_norm": 1.4053621292114258,
      "learning_rate": 2e-05,
      "loss": 0.7999,
      "step": 4309
    },
    {
      "epoch": 1.4877459440800829,
      "grad_norm": 1.1698329448699951,
      "learning_rate": 2e-05,
      "loss": 0.8342,
      "step": 4310
    },
    {
      "epoch": 1.4880911287538834,
      "grad_norm": 1.2939754724502563,
      "learning_rate": 2e-05,
      "loss": 0.7604,
      "step": 4311
    },
    {
      "epoch": 1.488436313427684,
      "grad_norm": 1.313394546508789,
      "learning_rate": 2e-05,
      "loss": 0.7485,
      "step": 4312
    },
    {
      "epoch": 1.4887814981014844,
      "grad_norm": 1.3163461685180664,
      "learning_rate": 2e-05,
      "loss": 0.7433,
      "step": 4313
    },
    {
      "epoch": 1.4891266827752847,
      "grad_norm": 1.299557089805603,
      "learning_rate": 2e-05,
      "loss": 0.7963,
      "step": 4314
    },
    {
      "epoch": 1.4894718674490852,
      "grad_norm": 1.2687386274337769,
      "learning_rate": 2e-05,
      "loss": 0.7771,
      "step": 4315
    },
    {
      "epoch": 1.4898170521228857,
      "grad_norm": 1.3444498777389526,
      "learning_rate": 2e-05,
      "loss": 0.7333,
      "step": 4316
    },
    {
      "epoch": 1.4901622367966862,
      "grad_norm": 1.4391769170761108,
      "learning_rate": 2e-05,
      "loss": 0.8136,
      "step": 4317
    },
    {
      "epoch": 1.4905074214704868,
      "grad_norm": 1.2439686059951782,
      "learning_rate": 2e-05,
      "loss": 0.7675,
      "step": 4318
    },
    {
      "epoch": 1.4908526061442873,
      "grad_norm": 1.2797582149505615,
      "learning_rate": 2e-05,
      "loss": 0.7792,
      "step": 4319
    },
    {
      "epoch": 1.4911977908180876,
      "grad_norm": 1.2388185262680054,
      "learning_rate": 2e-05,
      "loss": 0.7625,
      "step": 4320
    },
    {
      "epoch": 1.491542975491888,
      "grad_norm": 1.1874566078186035,
      "learning_rate": 2e-05,
      "loss": 0.758,
      "step": 4321
    },
    {
      "epoch": 1.4918881601656886,
      "grad_norm": 1.2277566194534302,
      "learning_rate": 2e-05,
      "loss": 0.8185,
      "step": 4322
    },
    {
      "epoch": 1.492233344839489,
      "grad_norm": 1.2162967920303345,
      "learning_rate": 2e-05,
      "loss": 0.7914,
      "step": 4323
    },
    {
      "epoch": 1.4925785295132896,
      "grad_norm": 1.282047986984253,
      "learning_rate": 2e-05,
      "loss": 0.8068,
      "step": 4324
    },
    {
      "epoch": 1.4929237141870901,
      "grad_norm": 1.2881962060928345,
      "learning_rate": 2e-05,
      "loss": 0.8162,
      "step": 4325
    },
    {
      "epoch": 1.4932688988608906,
      "grad_norm": 1.3250869512557983,
      "learning_rate": 2e-05,
      "loss": 0.6798,
      "step": 4326
    },
    {
      "epoch": 1.4936140835346912,
      "grad_norm": 1.3259559869766235,
      "learning_rate": 2e-05,
      "loss": 0.723,
      "step": 4327
    },
    {
      "epoch": 1.4939592682084917,
      "grad_norm": 1.3581615686416626,
      "learning_rate": 2e-05,
      "loss": 0.7278,
      "step": 4328
    },
    {
      "epoch": 1.494304452882292,
      "grad_norm": 1.1442147493362427,
      "learning_rate": 2e-05,
      "loss": 0.7614,
      "step": 4329
    },
    {
      "epoch": 1.4946496375560925,
      "grad_norm": 1.338552713394165,
      "learning_rate": 2e-05,
      "loss": 0.782,
      "step": 4330
    },
    {
      "epoch": 1.494994822229893,
      "grad_norm": 1.2314072847366333,
      "learning_rate": 2e-05,
      "loss": 0.813,
      "step": 4331
    },
    {
      "epoch": 1.4953400069036935,
      "grad_norm": 1.2968580722808838,
      "learning_rate": 2e-05,
      "loss": 0.8117,
      "step": 4332
    },
    {
      "epoch": 1.495685191577494,
      "grad_norm": 1.2901325225830078,
      "learning_rate": 2e-05,
      "loss": 0.8384,
      "step": 4333
    },
    {
      "epoch": 1.4960303762512943,
      "grad_norm": 1.2775623798370361,
      "learning_rate": 2e-05,
      "loss": 0.7987,
      "step": 4334
    },
    {
      "epoch": 1.4963755609250948,
      "grad_norm": 1.330970287322998,
      "learning_rate": 2e-05,
      "loss": 0.8098,
      "step": 4335
    },
    {
      "epoch": 1.4967207455988953,
      "grad_norm": 1.2949059009552002,
      "learning_rate": 2e-05,
      "loss": 0.7332,
      "step": 4336
    },
    {
      "epoch": 1.4970659302726959,
      "grad_norm": 1.1954494714736938,
      "learning_rate": 2e-05,
      "loss": 0.7945,
      "step": 4337
    },
    {
      "epoch": 1.4974111149464964,
      "grad_norm": 1.1119053363800049,
      "learning_rate": 2e-05,
      "loss": 0.7145,
      "step": 4338
    },
    {
      "epoch": 1.4977562996202969,
      "grad_norm": 1.3096972703933716,
      "learning_rate": 2e-05,
      "loss": 0.8171,
      "step": 4339
    },
    {
      "epoch": 1.4981014842940974,
      "grad_norm": 1.2163060903549194,
      "learning_rate": 2e-05,
      "loss": 0.7944,
      "step": 4340
    },
    {
      "epoch": 1.498446668967898,
      "grad_norm": 1.3194289207458496,
      "learning_rate": 2e-05,
      "loss": 0.8325,
      "step": 4341
    },
    {
      "epoch": 1.4987918536416984,
      "grad_norm": 1.2892428636550903,
      "learning_rate": 2e-05,
      "loss": 0.7075,
      "step": 4342
    },
    {
      "epoch": 1.4991370383154987,
      "grad_norm": 1.2224280834197998,
      "learning_rate": 2e-05,
      "loss": 0.7677,
      "step": 4343
    },
    {
      "epoch": 1.4994822229892992,
      "grad_norm": 1.1862800121307373,
      "learning_rate": 2e-05,
      "loss": 0.7723,
      "step": 4344
    },
    {
      "epoch": 1.4998274076630997,
      "grad_norm": 1.3594471216201782,
      "learning_rate": 2e-05,
      "loss": 0.83,
      "step": 4345
    },
    {
      "epoch": 1.5001725923369003,
      "grad_norm": 1.227034330368042,
      "learning_rate": 2e-05,
      "loss": 0.817,
      "step": 4346
    },
    {
      "epoch": 1.5005177770107008,
      "grad_norm": 1.384252905845642,
      "learning_rate": 2e-05,
      "loss": 0.8668,
      "step": 4347
    },
    {
      "epoch": 1.500862961684501,
      "grad_norm": 1.343624472618103,
      "learning_rate": 2e-05,
      "loss": 0.7701,
      "step": 4348
    },
    {
      "epoch": 1.5012081463583016,
      "grad_norm": 1.3076146841049194,
      "learning_rate": 2e-05,
      "loss": 0.7651,
      "step": 4349
    },
    {
      "epoch": 1.501553331032102,
      "grad_norm": 1.238219976425171,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 4350
    },
    {
      "epoch": 1.5018985157059026,
      "grad_norm": 1.2657685279846191,
      "learning_rate": 2e-05,
      "loss": 0.7576,
      "step": 4351
    },
    {
      "epoch": 1.5022437003797031,
      "grad_norm": 1.0765947103500366,
      "learning_rate": 2e-05,
      "loss": 0.728,
      "step": 4352
    },
    {
      "epoch": 1.5025888850535036,
      "grad_norm": 1.2726967334747314,
      "learning_rate": 2e-05,
      "loss": 0.7937,
      "step": 4353
    },
    {
      "epoch": 1.5029340697273041,
      "grad_norm": 1.3187775611877441,
      "learning_rate": 2e-05,
      "loss": 0.7279,
      "step": 4354
    },
    {
      "epoch": 1.5032792544011047,
      "grad_norm": 1.3935272693634033,
      "learning_rate": 2e-05,
      "loss": 0.8299,
      "step": 4355
    },
    {
      "epoch": 1.5036244390749052,
      "grad_norm": 1.3159064054489136,
      "learning_rate": 2e-05,
      "loss": 0.7268,
      "step": 4356
    },
    {
      "epoch": 1.5039696237487057,
      "grad_norm": 1.3833144903182983,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 4357
    },
    {
      "epoch": 1.5043148084225062,
      "grad_norm": 1.2055655717849731,
      "learning_rate": 2e-05,
      "loss": 0.7732,
      "step": 4358
    },
    {
      "epoch": 1.5046599930963065,
      "grad_norm": 1.2881238460540771,
      "learning_rate": 2e-05,
      "loss": 0.7628,
      "step": 4359
    },
    {
      "epoch": 1.505005177770107,
      "grad_norm": 1.3200602531433105,
      "learning_rate": 2e-05,
      "loss": 0.7832,
      "step": 4360
    },
    {
      "epoch": 1.5053503624439075,
      "grad_norm": 1.3036346435546875,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 4361
    },
    {
      "epoch": 1.5056955471177078,
      "grad_norm": 1.3293254375457764,
      "learning_rate": 2e-05,
      "loss": 0.7883,
      "step": 4362
    },
    {
      "epoch": 1.5060407317915083,
      "grad_norm": 1.3297923803329468,
      "learning_rate": 2e-05,
      "loss": 0.7471,
      "step": 4363
    },
    {
      "epoch": 1.5063859164653088,
      "grad_norm": 1.3414074182510376,
      "learning_rate": 2e-05,
      "loss": 0.7364,
      "step": 4364
    },
    {
      "epoch": 1.5067311011391094,
      "grad_norm": 1.2561320066452026,
      "learning_rate": 2e-05,
      "loss": 0.823,
      "step": 4365
    },
    {
      "epoch": 1.5070762858129099,
      "grad_norm": 1.2566157579421997,
      "learning_rate": 2e-05,
      "loss": 0.7147,
      "step": 4366
    },
    {
      "epoch": 1.5074214704867104,
      "grad_norm": 1.2007602453231812,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 4367
    },
    {
      "epoch": 1.507766655160511,
      "grad_norm": 1.3757296800613403,
      "learning_rate": 2e-05,
      "loss": 0.752,
      "step": 4368
    },
    {
      "epoch": 1.5081118398343114,
      "grad_norm": 1.3551653623580933,
      "learning_rate": 2e-05,
      "loss": 0.8195,
      "step": 4369
    },
    {
      "epoch": 1.508457024508112,
      "grad_norm": 1.3117109537124634,
      "learning_rate": 2e-05,
      "loss": 0.7413,
      "step": 4370
    },
    {
      "epoch": 1.5088022091819124,
      "grad_norm": 1.3008882999420166,
      "learning_rate": 2e-05,
      "loss": 0.7734,
      "step": 4371
    },
    {
      "epoch": 1.509147393855713,
      "grad_norm": 1.423244833946228,
      "learning_rate": 2e-05,
      "loss": 0.7481,
      "step": 4372
    },
    {
      "epoch": 1.5094925785295132,
      "grad_norm": 1.2509465217590332,
      "learning_rate": 2e-05,
      "loss": 0.782,
      "step": 4373
    },
    {
      "epoch": 1.5098377632033138,
      "grad_norm": 1.2665364742279053,
      "learning_rate": 2e-05,
      "loss": 0.7443,
      "step": 4374
    },
    {
      "epoch": 1.5101829478771143,
      "grad_norm": 1.294839859008789,
      "learning_rate": 2e-05,
      "loss": 0.7216,
      "step": 4375
    },
    {
      "epoch": 1.5105281325509148,
      "grad_norm": 1.346134066581726,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 4376
    },
    {
      "epoch": 1.510873317224715,
      "grad_norm": 1.2338038682937622,
      "learning_rate": 2e-05,
      "loss": 0.7366,
      "step": 4377
    },
    {
      "epoch": 1.5112185018985156,
      "grad_norm": 1.077095627784729,
      "learning_rate": 2e-05,
      "loss": 0.7513,
      "step": 4378
    },
    {
      "epoch": 1.511563686572316,
      "grad_norm": 1.2477734088897705,
      "learning_rate": 2e-05,
      "loss": 0.7535,
      "step": 4379
    },
    {
      "epoch": 1.5119088712461166,
      "grad_norm": 1.20566987991333,
      "learning_rate": 2e-05,
      "loss": 0.7789,
      "step": 4380
    },
    {
      "epoch": 1.5122540559199171,
      "grad_norm": 1.1639200448989868,
      "learning_rate": 2e-05,
      "loss": 0.7365,
      "step": 4381
    },
    {
      "epoch": 1.5125992405937176,
      "grad_norm": 1.175369143486023,
      "learning_rate": 2e-05,
      "loss": 0.7273,
      "step": 4382
    },
    {
      "epoch": 1.5129444252675182,
      "grad_norm": 1.4436193704605103,
      "learning_rate": 2e-05,
      "loss": 0.6859,
      "step": 4383
    },
    {
      "epoch": 1.5132896099413187,
      "grad_norm": 1.282583475112915,
      "learning_rate": 2e-05,
      "loss": 0.8103,
      "step": 4384
    },
    {
      "epoch": 1.5136347946151192,
      "grad_norm": 1.26255464553833,
      "learning_rate": 2e-05,
      "loss": 0.7553,
      "step": 4385
    },
    {
      "epoch": 1.5139799792889197,
      "grad_norm": 1.2666211128234863,
      "learning_rate": 2e-05,
      "loss": 0.7514,
      "step": 4386
    },
    {
      "epoch": 1.5143251639627202,
      "grad_norm": 1.302181363105774,
      "learning_rate": 2e-05,
      "loss": 0.7847,
      "step": 4387
    },
    {
      "epoch": 1.5146703486365205,
      "grad_norm": 1.2870157957077026,
      "learning_rate": 2e-05,
      "loss": 0.763,
      "step": 4388
    },
    {
      "epoch": 1.515015533310321,
      "grad_norm": 1.2625563144683838,
      "learning_rate": 2e-05,
      "loss": 0.815,
      "step": 4389
    },
    {
      "epoch": 1.5153607179841215,
      "grad_norm": 1.2862226963043213,
      "learning_rate": 2e-05,
      "loss": 0.7085,
      "step": 4390
    },
    {
      "epoch": 1.5157059026579218,
      "grad_norm": 1.2455830574035645,
      "learning_rate": 2e-05,
      "loss": 0.7097,
      "step": 4391
    },
    {
      "epoch": 1.5160510873317223,
      "grad_norm": 2.0031161308288574,
      "learning_rate": 2e-05,
      "loss": 0.7331,
      "step": 4392
    },
    {
      "epoch": 1.5163962720055228,
      "grad_norm": 1.186004400253296,
      "learning_rate": 2e-05,
      "loss": 0.793,
      "step": 4393
    },
    {
      "epoch": 1.5167414566793234,
      "grad_norm": 1.2864100933074951,
      "learning_rate": 2e-05,
      "loss": 0.7819,
      "step": 4394
    },
    {
      "epoch": 1.5170866413531239,
      "grad_norm": 1.2105319499969482,
      "learning_rate": 2e-05,
      "loss": 0.7819,
      "step": 4395
    },
    {
      "epoch": 1.5174318260269244,
      "grad_norm": 1.2419743537902832,
      "learning_rate": 2e-05,
      "loss": 0.7404,
      "step": 4396
    },
    {
      "epoch": 1.517777010700725,
      "grad_norm": 1.3712762594223022,
      "learning_rate": 2e-05,
      "loss": 0.7655,
      "step": 4397
    },
    {
      "epoch": 1.5181221953745254,
      "grad_norm": 1.3200039863586426,
      "learning_rate": 2e-05,
      "loss": 0.8145,
      "step": 4398
    },
    {
      "epoch": 1.518467380048326,
      "grad_norm": 1.1187814474105835,
      "learning_rate": 2e-05,
      "loss": 0.7033,
      "step": 4399
    },
    {
      "epoch": 1.5188125647221264,
      "grad_norm": 1.1549640893936157,
      "learning_rate": 2e-05,
      "loss": 0.715,
      "step": 4400
    },
    {
      "epoch": 1.519157749395927,
      "grad_norm": 1.2635689973831177,
      "learning_rate": 2e-05,
      "loss": 0.7269,
      "step": 4401
    },
    {
      "epoch": 1.5195029340697273,
      "grad_norm": 1.273335576057434,
      "learning_rate": 2e-05,
      "loss": 0.7916,
      "step": 4402
    },
    {
      "epoch": 1.5198481187435278,
      "grad_norm": 1.2672162055969238,
      "learning_rate": 2e-05,
      "loss": 0.7379,
      "step": 4403
    },
    {
      "epoch": 1.5201933034173283,
      "grad_norm": 1.3358099460601807,
      "learning_rate": 2e-05,
      "loss": 0.7621,
      "step": 4404
    },
    {
      "epoch": 1.5205384880911288,
      "grad_norm": 1.2771189212799072,
      "learning_rate": 2e-05,
      "loss": 0.8228,
      "step": 4405
    },
    {
      "epoch": 1.520883672764929,
      "grad_norm": 1.241949439048767,
      "learning_rate": 2e-05,
      "loss": 0.7575,
      "step": 4406
    },
    {
      "epoch": 1.5212288574387296,
      "grad_norm": 1.54358971118927,
      "learning_rate": 2e-05,
      "loss": 0.8304,
      "step": 4407
    },
    {
      "epoch": 1.5215740421125301,
      "grad_norm": 1.3180407285690308,
      "learning_rate": 2e-05,
      "loss": 0.7458,
      "step": 4408
    },
    {
      "epoch": 1.5219192267863306,
      "grad_norm": 1.7086197137832642,
      "learning_rate": 2e-05,
      "loss": 0.7215,
      "step": 4409
    },
    {
      "epoch": 1.5222644114601311,
      "grad_norm": 1.1885948181152344,
      "learning_rate": 2e-05,
      "loss": 0.7841,
      "step": 4410
    },
    {
      "epoch": 1.5226095961339317,
      "grad_norm": 1.2398377656936646,
      "learning_rate": 2e-05,
      "loss": 0.7935,
      "step": 4411
    },
    {
      "epoch": 1.5229547808077322,
      "grad_norm": 1.2589677572250366,
      "learning_rate": 2e-05,
      "loss": 0.7389,
      "step": 4412
    },
    {
      "epoch": 1.5232999654815327,
      "grad_norm": 1.4119620323181152,
      "learning_rate": 2e-05,
      "loss": 0.7956,
      "step": 4413
    },
    {
      "epoch": 1.5236451501553332,
      "grad_norm": 1.4429880380630493,
      "learning_rate": 2e-05,
      "loss": 0.7328,
      "step": 4414
    },
    {
      "epoch": 1.5239903348291337,
      "grad_norm": 1.290496826171875,
      "learning_rate": 2e-05,
      "loss": 0.7146,
      "step": 4415
    },
    {
      "epoch": 1.5243355195029342,
      "grad_norm": 1.6090548038482666,
      "learning_rate": 2e-05,
      "loss": 0.7509,
      "step": 4416
    },
    {
      "epoch": 1.5246807041767345,
      "grad_norm": 1.3119169473648071,
      "learning_rate": 2e-05,
      "loss": 0.7103,
      "step": 4417
    },
    {
      "epoch": 1.525025888850535,
      "grad_norm": 1.2971738576889038,
      "learning_rate": 2e-05,
      "loss": 0.8477,
      "step": 4418
    },
    {
      "epoch": 1.5253710735243355,
      "grad_norm": 1.300013780593872,
      "learning_rate": 2e-05,
      "loss": 0.8338,
      "step": 4419
    },
    {
      "epoch": 1.525716258198136,
      "grad_norm": 1.3478679656982422,
      "learning_rate": 2e-05,
      "loss": 0.7871,
      "step": 4420
    },
    {
      "epoch": 1.5260614428719363,
      "grad_norm": 1.258545994758606,
      "learning_rate": 2e-05,
      "loss": 0.774,
      "step": 4421
    },
    {
      "epoch": 1.5264066275457369,
      "grad_norm": 1.3494758605957031,
      "learning_rate": 2e-05,
      "loss": 0.8407,
      "step": 4422
    },
    {
      "epoch": 1.5267518122195374,
      "grad_norm": 1.399638295173645,
      "learning_rate": 2e-05,
      "loss": 0.7635,
      "step": 4423
    },
    {
      "epoch": 1.5270969968933379,
      "grad_norm": 1.2506500482559204,
      "learning_rate": 2e-05,
      "loss": 0.8057,
      "step": 4424
    },
    {
      "epoch": 1.5274421815671384,
      "grad_norm": 1.3764073848724365,
      "learning_rate": 2e-05,
      "loss": 0.8143,
      "step": 4425
    },
    {
      "epoch": 1.527787366240939,
      "grad_norm": 1.221600890159607,
      "learning_rate": 2e-05,
      "loss": 0.7447,
      "step": 4426
    },
    {
      "epoch": 1.5281325509147394,
      "grad_norm": 1.1857250928878784,
      "learning_rate": 2e-05,
      "loss": 0.7727,
      "step": 4427
    },
    {
      "epoch": 1.52847773558854,
      "grad_norm": 1.2367202043533325,
      "learning_rate": 2e-05,
      "loss": 0.7107,
      "step": 4428
    },
    {
      "epoch": 1.5288229202623405,
      "grad_norm": 1.279746174812317,
      "learning_rate": 2e-05,
      "loss": 0.7769,
      "step": 4429
    },
    {
      "epoch": 1.529168104936141,
      "grad_norm": 1.130923867225647,
      "learning_rate": 2e-05,
      "loss": 0.7466,
      "step": 4430
    },
    {
      "epoch": 1.5295132896099415,
      "grad_norm": 1.2553719282150269,
      "learning_rate": 2e-05,
      "loss": 0.7872,
      "step": 4431
    },
    {
      "epoch": 1.5298584742837418,
      "grad_norm": 1.2676684856414795,
      "learning_rate": 2e-05,
      "loss": 0.7278,
      "step": 4432
    },
    {
      "epoch": 1.5302036589575423,
      "grad_norm": 1.9484601020812988,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 4433
    },
    {
      "epoch": 1.5305488436313428,
      "grad_norm": 1.2294425964355469,
      "learning_rate": 2e-05,
      "loss": 0.6685,
      "step": 4434
    },
    {
      "epoch": 1.530894028305143,
      "grad_norm": 1.3599636554718018,
      "learning_rate": 2e-05,
      "loss": 0.7668,
      "step": 4435
    },
    {
      "epoch": 1.5312392129789436,
      "grad_norm": 1.244991421699524,
      "learning_rate": 2e-05,
      "loss": 0.7756,
      "step": 4436
    },
    {
      "epoch": 1.5315843976527441,
      "grad_norm": 1.1489641666412354,
      "learning_rate": 2e-05,
      "loss": 0.7789,
      "step": 4437
    },
    {
      "epoch": 1.5319295823265446,
      "grad_norm": 1.2816656827926636,
      "learning_rate": 2e-05,
      "loss": 0.7514,
      "step": 4438
    },
    {
      "epoch": 1.5322747670003452,
      "grad_norm": 1.2171974182128906,
      "learning_rate": 2e-05,
      "loss": 0.784,
      "step": 4439
    },
    {
      "epoch": 1.5326199516741457,
      "grad_norm": 1.2921799421310425,
      "learning_rate": 2e-05,
      "loss": 0.7097,
      "step": 4440
    },
    {
      "epoch": 1.5329651363479462,
      "grad_norm": 1.325530767440796,
      "learning_rate": 2e-05,
      "loss": 0.7612,
      "step": 4441
    },
    {
      "epoch": 1.5333103210217467,
      "grad_norm": 1.2348566055297852,
      "learning_rate": 2e-05,
      "loss": 0.7951,
      "step": 4442
    },
    {
      "epoch": 1.5336555056955472,
      "grad_norm": 1.2895618677139282,
      "learning_rate": 2e-05,
      "loss": 0.727,
      "step": 4443
    },
    {
      "epoch": 1.5340006903693477,
      "grad_norm": 1.2188392877578735,
      "learning_rate": 2e-05,
      "loss": 0.7286,
      "step": 4444
    },
    {
      "epoch": 1.5343458750431482,
      "grad_norm": 1.177597999572754,
      "learning_rate": 2e-05,
      "loss": 0.6865,
      "step": 4445
    },
    {
      "epoch": 1.5346910597169485,
      "grad_norm": 1.3551841974258423,
      "learning_rate": 2e-05,
      "loss": 0.6989,
      "step": 4446
    },
    {
      "epoch": 1.535036244390749,
      "grad_norm": 1.2761080265045166,
      "learning_rate": 2e-05,
      "loss": 0.7826,
      "step": 4447
    },
    {
      "epoch": 1.5353814290645496,
      "grad_norm": 1.3211625814437866,
      "learning_rate": 2e-05,
      "loss": 0.8349,
      "step": 4448
    },
    {
      "epoch": 1.53572661373835,
      "grad_norm": 1.3065335750579834,
      "learning_rate": 2e-05,
      "loss": 0.8177,
      "step": 4449
    },
    {
      "epoch": 1.5360717984121504,
      "grad_norm": 1.2579851150512695,
      "learning_rate": 2e-05,
      "loss": 0.8076,
      "step": 4450
    },
    {
      "epoch": 1.5364169830859509,
      "grad_norm": 1.253136157989502,
      "learning_rate": 2e-05,
      "loss": 0.6857,
      "step": 4451
    },
    {
      "epoch": 1.5367621677597514,
      "grad_norm": 1.1510546207427979,
      "learning_rate": 2e-05,
      "loss": 0.7117,
      "step": 4452
    },
    {
      "epoch": 1.537107352433552,
      "grad_norm": 1.272925615310669,
      "learning_rate": 2e-05,
      "loss": 0.6973,
      "step": 4453
    },
    {
      "epoch": 1.5374525371073524,
      "grad_norm": 1.2882519960403442,
      "learning_rate": 2e-05,
      "loss": 0.7251,
      "step": 4454
    },
    {
      "epoch": 1.537797721781153,
      "grad_norm": 1.2469351291656494,
      "learning_rate": 2e-05,
      "loss": 0.8242,
      "step": 4455
    },
    {
      "epoch": 1.5381429064549534,
      "grad_norm": 1.3386753797531128,
      "learning_rate": 2e-05,
      "loss": 0.803,
      "step": 4456
    },
    {
      "epoch": 1.538488091128754,
      "grad_norm": 1.344909906387329,
      "learning_rate": 2e-05,
      "loss": 0.7791,
      "step": 4457
    },
    {
      "epoch": 1.5388332758025545,
      "grad_norm": 1.3158117532730103,
      "learning_rate": 2e-05,
      "loss": 0.7234,
      "step": 4458
    },
    {
      "epoch": 1.539178460476355,
      "grad_norm": 1.3932095766067505,
      "learning_rate": 2e-05,
      "loss": 0.795,
      "step": 4459
    },
    {
      "epoch": 1.5395236451501555,
      "grad_norm": 1.3235626220703125,
      "learning_rate": 2e-05,
      "loss": 0.7289,
      "step": 4460
    },
    {
      "epoch": 1.5398688298239558,
      "grad_norm": 1.318697452545166,
      "learning_rate": 2e-05,
      "loss": 0.8892,
      "step": 4461
    },
    {
      "epoch": 1.5402140144977563,
      "grad_norm": 1.2829304933547974,
      "learning_rate": 2e-05,
      "loss": 0.7283,
      "step": 4462
    },
    {
      "epoch": 1.5405591991715568,
      "grad_norm": 1.4077378511428833,
      "learning_rate": 2e-05,
      "loss": 0.7894,
      "step": 4463
    },
    {
      "epoch": 1.540904383845357,
      "grad_norm": 1.2646501064300537,
      "learning_rate": 2e-05,
      "loss": 0.7675,
      "step": 4464
    },
    {
      "epoch": 1.5412495685191576,
      "grad_norm": 1.3142659664154053,
      "learning_rate": 2e-05,
      "loss": 0.7449,
      "step": 4465
    },
    {
      "epoch": 1.5415947531929581,
      "grad_norm": 1.3563635349273682,
      "learning_rate": 2e-05,
      "loss": 0.8119,
      "step": 4466
    },
    {
      "epoch": 1.5419399378667586,
      "grad_norm": 1.1587077379226685,
      "learning_rate": 2e-05,
      "loss": 0.7401,
      "step": 4467
    },
    {
      "epoch": 1.5422851225405592,
      "grad_norm": 1.4753124713897705,
      "learning_rate": 2e-05,
      "loss": 0.7449,
      "step": 4468
    },
    {
      "epoch": 1.5426303072143597,
      "grad_norm": 1.349446177482605,
      "learning_rate": 2e-05,
      "loss": 0.7927,
      "step": 4469
    },
    {
      "epoch": 1.5429754918881602,
      "grad_norm": 1.454859972000122,
      "learning_rate": 2e-05,
      "loss": 0.7159,
      "step": 4470
    },
    {
      "epoch": 1.5433206765619607,
      "grad_norm": 1.2690248489379883,
      "learning_rate": 2e-05,
      "loss": 0.7504,
      "step": 4471
    },
    {
      "epoch": 1.5436658612357612,
      "grad_norm": 1.3276734352111816,
      "learning_rate": 2e-05,
      "loss": 0.7757,
      "step": 4472
    },
    {
      "epoch": 1.5440110459095617,
      "grad_norm": 1.1992233991622925,
      "learning_rate": 2e-05,
      "loss": 0.7557,
      "step": 4473
    },
    {
      "epoch": 1.5443562305833622,
      "grad_norm": 1.2319071292877197,
      "learning_rate": 2e-05,
      "loss": 0.8192,
      "step": 4474
    },
    {
      "epoch": 1.5447014152571625,
      "grad_norm": 1.1687511205673218,
      "learning_rate": 2e-05,
      "loss": 0.7682,
      "step": 4475
    },
    {
      "epoch": 1.545046599930963,
      "grad_norm": 1.3312305212020874,
      "learning_rate": 2e-05,
      "loss": 0.7323,
      "step": 4476
    },
    {
      "epoch": 1.5453917846047636,
      "grad_norm": 1.2743408679962158,
      "learning_rate": 2e-05,
      "loss": 0.7585,
      "step": 4477
    },
    {
      "epoch": 1.545736969278564,
      "grad_norm": 1.2781771421432495,
      "learning_rate": 2e-05,
      "loss": 0.8041,
      "step": 4478
    },
    {
      "epoch": 1.5460821539523644,
      "grad_norm": 1.2674962282180786,
      "learning_rate": 2e-05,
      "loss": 0.8223,
      "step": 4479
    },
    {
      "epoch": 1.5464273386261649,
      "grad_norm": 1.2903822660446167,
      "learning_rate": 2e-05,
      "loss": 0.8032,
      "step": 4480
    },
    {
      "epoch": 1.5467725232999654,
      "grad_norm": 1.23932683467865,
      "learning_rate": 2e-05,
      "loss": 0.7976,
      "step": 4481
    },
    {
      "epoch": 1.547117707973766,
      "grad_norm": 1.253135323524475,
      "learning_rate": 2e-05,
      "loss": 0.7879,
      "step": 4482
    },
    {
      "epoch": 1.5474628926475664,
      "grad_norm": 1.2389086484909058,
      "learning_rate": 2e-05,
      "loss": 0.7655,
      "step": 4483
    },
    {
      "epoch": 1.547808077321367,
      "grad_norm": 1.221273422241211,
      "learning_rate": 2e-05,
      "loss": 0.691,
      "step": 4484
    },
    {
      "epoch": 1.5481532619951675,
      "grad_norm": 1.2336344718933105,
      "learning_rate": 2e-05,
      "loss": 0.7691,
      "step": 4485
    },
    {
      "epoch": 1.548498446668968,
      "grad_norm": 1.0906767845153809,
      "learning_rate": 2e-05,
      "loss": 0.7164,
      "step": 4486
    },
    {
      "epoch": 1.5488436313427685,
      "grad_norm": 1.4316352605819702,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 4487
    },
    {
      "epoch": 1.549188816016569,
      "grad_norm": 1.3125708103179932,
      "learning_rate": 2e-05,
      "loss": 0.7122,
      "step": 4488
    },
    {
      "epoch": 1.5495340006903695,
      "grad_norm": 1.2069042921066284,
      "learning_rate": 2e-05,
      "loss": 0.7968,
      "step": 4489
    },
    {
      "epoch": 1.5498791853641698,
      "grad_norm": 1.2155354022979736,
      "learning_rate": 2e-05,
      "loss": 0.7599,
      "step": 4490
    },
    {
      "epoch": 1.5502243700379703,
      "grad_norm": 1.2372121810913086,
      "learning_rate": 2e-05,
      "loss": 0.6959,
      "step": 4491
    },
    {
      "epoch": 1.5505695547117708,
      "grad_norm": 1.2142550945281982,
      "learning_rate": 2e-05,
      "loss": 0.77,
      "step": 4492
    },
    {
      "epoch": 1.5509147393855711,
      "grad_norm": 1.4349805116653442,
      "learning_rate": 2e-05,
      "loss": 0.8201,
      "step": 4493
    },
    {
      "epoch": 1.5512599240593716,
      "grad_norm": 1.2984946966171265,
      "learning_rate": 2e-05,
      "loss": 0.7764,
      "step": 4494
    },
    {
      "epoch": 1.5516051087331721,
      "grad_norm": 1.2157635688781738,
      "learning_rate": 2e-05,
      "loss": 0.7705,
      "step": 4495
    },
    {
      "epoch": 1.5519502934069727,
      "grad_norm": 1.3660404682159424,
      "learning_rate": 2e-05,
      "loss": 0.751,
      "step": 4496
    },
    {
      "epoch": 1.5522954780807732,
      "grad_norm": 2.330866575241089,
      "learning_rate": 2e-05,
      "loss": 0.7579,
      "step": 4497
    },
    {
      "epoch": 1.5526406627545737,
      "grad_norm": 1.1835130453109741,
      "learning_rate": 2e-05,
      "loss": 0.732,
      "step": 4498
    },
    {
      "epoch": 1.5529858474283742,
      "grad_norm": 1.2392140626907349,
      "learning_rate": 2e-05,
      "loss": 0.7514,
      "step": 4499
    },
    {
      "epoch": 1.5533310321021747,
      "grad_norm": 1.1460816860198975,
      "learning_rate": 2e-05,
      "loss": 0.7238,
      "step": 4500
    },
    {
      "epoch": 1.5536762167759752,
      "grad_norm": 1.321885585784912,
      "learning_rate": 2e-05,
      "loss": 0.7128,
      "step": 4501
    },
    {
      "epoch": 1.5540214014497757,
      "grad_norm": 1.2144321203231812,
      "learning_rate": 2e-05,
      "loss": 0.7184,
      "step": 4502
    },
    {
      "epoch": 1.5543665861235763,
      "grad_norm": 1.3070707321166992,
      "learning_rate": 2e-05,
      "loss": 0.7439,
      "step": 4503
    },
    {
      "epoch": 1.5547117707973765,
      "grad_norm": 1.1852076053619385,
      "learning_rate": 2e-05,
      "loss": 0.792,
      "step": 4504
    },
    {
      "epoch": 1.555056955471177,
      "grad_norm": 1.1652029752731323,
      "learning_rate": 2e-05,
      "loss": 0.7502,
      "step": 4505
    },
    {
      "epoch": 1.5554021401449776,
      "grad_norm": 1.2916877269744873,
      "learning_rate": 2e-05,
      "loss": 0.7197,
      "step": 4506
    },
    {
      "epoch": 1.555747324818778,
      "grad_norm": 1.2124022245407104,
      "learning_rate": 2e-05,
      "loss": 0.7711,
      "step": 4507
    },
    {
      "epoch": 1.5560925094925784,
      "grad_norm": 1.2278496026992798,
      "learning_rate": 2e-05,
      "loss": 0.7113,
      "step": 4508
    },
    {
      "epoch": 1.556437694166379,
      "grad_norm": 1.2588849067687988,
      "learning_rate": 2e-05,
      "loss": 0.8358,
      "step": 4509
    },
    {
      "epoch": 1.5567828788401794,
      "grad_norm": 1.3276666402816772,
      "learning_rate": 2e-05,
      "loss": 0.7195,
      "step": 4510
    },
    {
      "epoch": 1.55712806351398,
      "grad_norm": 1.3781492710113525,
      "learning_rate": 2e-05,
      "loss": 0.7641,
      "step": 4511
    },
    {
      "epoch": 1.5574732481877804,
      "grad_norm": 1.254082441329956,
      "learning_rate": 2e-05,
      "loss": 0.7317,
      "step": 4512
    },
    {
      "epoch": 1.557818432861581,
      "grad_norm": 1.3065235614776611,
      "learning_rate": 2e-05,
      "loss": 0.754,
      "step": 4513
    },
    {
      "epoch": 1.5581636175353815,
      "grad_norm": 1.2954261302947998,
      "learning_rate": 2e-05,
      "loss": 0.7281,
      "step": 4514
    },
    {
      "epoch": 1.558508802209182,
      "grad_norm": 1.237192153930664,
      "learning_rate": 2e-05,
      "loss": 0.7157,
      "step": 4515
    },
    {
      "epoch": 1.5588539868829825,
      "grad_norm": 1.2622979879379272,
      "learning_rate": 2e-05,
      "loss": 0.786,
      "step": 4516
    },
    {
      "epoch": 1.559199171556783,
      "grad_norm": 1.4373438358306885,
      "learning_rate": 2e-05,
      "loss": 0.7691,
      "step": 4517
    },
    {
      "epoch": 1.5595443562305835,
      "grad_norm": 1.295242428779602,
      "learning_rate": 2e-05,
      "loss": 0.84,
      "step": 4518
    },
    {
      "epoch": 1.5598895409043838,
      "grad_norm": 1.3025130033493042,
      "learning_rate": 2e-05,
      "loss": 0.7949,
      "step": 4519
    },
    {
      "epoch": 1.5602347255781843,
      "grad_norm": 1.2022231817245483,
      "learning_rate": 2e-05,
      "loss": 0.7167,
      "step": 4520
    },
    {
      "epoch": 1.5605799102519848,
      "grad_norm": 1.2348017692565918,
      "learning_rate": 2e-05,
      "loss": 0.7837,
      "step": 4521
    },
    {
      "epoch": 1.5609250949257854,
      "grad_norm": 1.252456784248352,
      "learning_rate": 2e-05,
      "loss": 0.7815,
      "step": 4522
    },
    {
      "epoch": 1.5612702795995856,
      "grad_norm": 1.1621129512786865,
      "learning_rate": 2e-05,
      "loss": 0.7495,
      "step": 4523
    },
    {
      "epoch": 1.5616154642733862,
      "grad_norm": 1.2784656286239624,
      "learning_rate": 2e-05,
      "loss": 0.8487,
      "step": 4524
    },
    {
      "epoch": 1.5619606489471867,
      "grad_norm": 1.1308388710021973,
      "learning_rate": 2e-05,
      "loss": 0.7987,
      "step": 4525
    },
    {
      "epoch": 1.5623058336209872,
      "grad_norm": 1.304634690284729,
      "learning_rate": 2e-05,
      "loss": 0.8082,
      "step": 4526
    },
    {
      "epoch": 1.5626510182947877,
      "grad_norm": 1.1714816093444824,
      "learning_rate": 2e-05,
      "loss": 0.6909,
      "step": 4527
    },
    {
      "epoch": 1.5629962029685882,
      "grad_norm": 1.2216715812683105,
      "learning_rate": 2e-05,
      "loss": 0.7435,
      "step": 4528
    },
    {
      "epoch": 1.5633413876423887,
      "grad_norm": 1.203395128250122,
      "learning_rate": 2e-05,
      "loss": 0.6487,
      "step": 4529
    },
    {
      "epoch": 1.5636865723161892,
      "grad_norm": 1.1970045566558838,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 4530
    },
    {
      "epoch": 1.5640317569899898,
      "grad_norm": 1.3644911050796509,
      "learning_rate": 2e-05,
      "loss": 0.7682,
      "step": 4531
    },
    {
      "epoch": 1.5643769416637903,
      "grad_norm": 1.2719060182571411,
      "learning_rate": 2e-05,
      "loss": 0.7463,
      "step": 4532
    },
    {
      "epoch": 1.5647221263375906,
      "grad_norm": 1.2921113967895508,
      "learning_rate": 2e-05,
      "loss": 0.722,
      "step": 4533
    },
    {
      "epoch": 1.565067311011391,
      "grad_norm": 1.2788968086242676,
      "learning_rate": 2e-05,
      "loss": 0.7668,
      "step": 4534
    },
    {
      "epoch": 1.5654124956851916,
      "grad_norm": 1.2656434774398804,
      "learning_rate": 2e-05,
      "loss": 0.7314,
      "step": 4535
    },
    {
      "epoch": 1.565757680358992,
      "grad_norm": 1.341671109199524,
      "learning_rate": 2e-05,
      "loss": 0.7901,
      "step": 4536
    },
    {
      "epoch": 1.5661028650327924,
      "grad_norm": 1.1929394006729126,
      "learning_rate": 2e-05,
      "loss": 0.7112,
      "step": 4537
    },
    {
      "epoch": 1.566448049706593,
      "grad_norm": 1.1874107122421265,
      "learning_rate": 2e-05,
      "loss": 0.7691,
      "step": 4538
    },
    {
      "epoch": 1.5667932343803934,
      "grad_norm": 1.347997784614563,
      "learning_rate": 2e-05,
      "loss": 0.7759,
      "step": 4539
    },
    {
      "epoch": 1.567138419054194,
      "grad_norm": 1.3473588228225708,
      "learning_rate": 2e-05,
      "loss": 0.8355,
      "step": 4540
    },
    {
      "epoch": 1.5674836037279944,
      "grad_norm": 1.2608939409255981,
      "learning_rate": 2e-05,
      "loss": 0.7132,
      "step": 4541
    },
    {
      "epoch": 1.567828788401795,
      "grad_norm": 1.1801860332489014,
      "learning_rate": 2e-05,
      "loss": 0.7515,
      "step": 4542
    },
    {
      "epoch": 1.5681739730755955,
      "grad_norm": 1.2408617734909058,
      "learning_rate": 2e-05,
      "loss": 0.7452,
      "step": 4543
    },
    {
      "epoch": 1.568519157749396,
      "grad_norm": 1.1137863397598267,
      "learning_rate": 2e-05,
      "loss": 0.7435,
      "step": 4544
    },
    {
      "epoch": 1.5688643424231965,
      "grad_norm": 1.2069662809371948,
      "learning_rate": 2e-05,
      "loss": 0.7608,
      "step": 4545
    },
    {
      "epoch": 1.569209527096997,
      "grad_norm": 1.493451476097107,
      "learning_rate": 2e-05,
      "loss": 0.7887,
      "step": 4546
    },
    {
      "epoch": 1.5695547117707975,
      "grad_norm": 1.1537622213363647,
      "learning_rate": 2e-05,
      "loss": 0.7291,
      "step": 4547
    },
    {
      "epoch": 1.5698998964445978,
      "grad_norm": 1.3610233068466187,
      "learning_rate": 2e-05,
      "loss": 0.8519,
      "step": 4548
    },
    {
      "epoch": 1.5702450811183983,
      "grad_norm": 1.1606923341751099,
      "learning_rate": 2e-05,
      "loss": 0.7429,
      "step": 4549
    },
    {
      "epoch": 1.5705902657921988,
      "grad_norm": 1.2951027154922485,
      "learning_rate": 2e-05,
      "loss": 0.7394,
      "step": 4550
    },
    {
      "epoch": 1.5709354504659994,
      "grad_norm": 1.203900933265686,
      "learning_rate": 2e-05,
      "loss": 0.7103,
      "step": 4551
    },
    {
      "epoch": 1.5712806351397997,
      "grad_norm": 1.2730000019073486,
      "learning_rate": 2e-05,
      "loss": 0.6448,
      "step": 4552
    },
    {
      "epoch": 1.5716258198136002,
      "grad_norm": 1.4891455173492432,
      "learning_rate": 2e-05,
      "loss": 0.7968,
      "step": 4553
    },
    {
      "epoch": 1.5719710044874007,
      "grad_norm": 1.2000857591629028,
      "learning_rate": 2e-05,
      "loss": 0.7764,
      "step": 4554
    },
    {
      "epoch": 1.5723161891612012,
      "grad_norm": 1.2771693468093872,
      "learning_rate": 2e-05,
      "loss": 0.7534,
      "step": 4555
    },
    {
      "epoch": 1.5726613738350017,
      "grad_norm": 1.1699345111846924,
      "learning_rate": 2e-05,
      "loss": 0.723,
      "step": 4556
    },
    {
      "epoch": 1.5730065585088022,
      "grad_norm": 1.2239292860031128,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 4557
    },
    {
      "epoch": 1.5733517431826027,
      "grad_norm": 1.2344467639923096,
      "learning_rate": 2e-05,
      "loss": 0.8607,
      "step": 4558
    },
    {
      "epoch": 1.5736969278564032,
      "grad_norm": 1.5367947816848755,
      "learning_rate": 2e-05,
      "loss": 0.7641,
      "step": 4559
    },
    {
      "epoch": 1.5740421125302038,
      "grad_norm": 1.2545654773712158,
      "learning_rate": 2e-05,
      "loss": 0.7659,
      "step": 4560
    },
    {
      "epoch": 1.5743872972040043,
      "grad_norm": 1.257614254951477,
      "learning_rate": 2e-05,
      "loss": 0.7305,
      "step": 4561
    },
    {
      "epoch": 1.5747324818778048,
      "grad_norm": 1.4513187408447266,
      "learning_rate": 2e-05,
      "loss": 0.7801,
      "step": 4562
    },
    {
      "epoch": 1.575077666551605,
      "grad_norm": 1.2263665199279785,
      "learning_rate": 2e-05,
      "loss": 0.7874,
      "step": 4563
    },
    {
      "epoch": 1.5754228512254056,
      "grad_norm": 1.2628827095031738,
      "learning_rate": 2e-05,
      "loss": 0.7101,
      "step": 4564
    },
    {
      "epoch": 1.575768035899206,
      "grad_norm": 1.2502168416976929,
      "learning_rate": 2e-05,
      "loss": 0.821,
      "step": 4565
    },
    {
      "epoch": 1.5761132205730064,
      "grad_norm": 1.3121377229690552,
      "learning_rate": 2e-05,
      "loss": 0.7655,
      "step": 4566
    },
    {
      "epoch": 1.576458405246807,
      "grad_norm": 1.2425241470336914,
      "learning_rate": 2e-05,
      "loss": 0.755,
      "step": 4567
    },
    {
      "epoch": 1.5768035899206074,
      "grad_norm": 1.2547223567962646,
      "learning_rate": 2e-05,
      "loss": 0.7526,
      "step": 4568
    },
    {
      "epoch": 1.577148774594408,
      "grad_norm": 1.160290241241455,
      "learning_rate": 2e-05,
      "loss": 0.7155,
      "step": 4569
    },
    {
      "epoch": 1.5774939592682085,
      "grad_norm": 1.2368674278259277,
      "learning_rate": 2e-05,
      "loss": 0.7212,
      "step": 4570
    },
    {
      "epoch": 1.577839143942009,
      "grad_norm": 1.281950831413269,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 4571
    },
    {
      "epoch": 1.5781843286158095,
      "grad_norm": 1.2469913959503174,
      "learning_rate": 2e-05,
      "loss": 0.7043,
      "step": 4572
    },
    {
      "epoch": 1.57852951328961,
      "grad_norm": 1.2402671575546265,
      "learning_rate": 2e-05,
      "loss": 0.7694,
      "step": 4573
    },
    {
      "epoch": 1.5788746979634105,
      "grad_norm": 1.37687349319458,
      "learning_rate": 2e-05,
      "loss": 0.7521,
      "step": 4574
    },
    {
      "epoch": 1.579219882637211,
      "grad_norm": 1.3253470659255981,
      "learning_rate": 2e-05,
      "loss": 0.7182,
      "step": 4575
    },
    {
      "epoch": 1.5795650673110115,
      "grad_norm": 1.2843304872512817,
      "learning_rate": 2e-05,
      "loss": 0.7325,
      "step": 4576
    },
    {
      "epoch": 1.5799102519848118,
      "grad_norm": 1.283495306968689,
      "learning_rate": 2e-05,
      "loss": 0.733,
      "step": 4577
    },
    {
      "epoch": 1.5802554366586123,
      "grad_norm": 1.2591203451156616,
      "learning_rate": 2e-05,
      "loss": 0.745,
      "step": 4578
    },
    {
      "epoch": 1.5806006213324129,
      "grad_norm": 1.2521584033966064,
      "learning_rate": 2e-05,
      "loss": 0.7482,
      "step": 4579
    },
    {
      "epoch": 1.5809458060062134,
      "grad_norm": 1.2672553062438965,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 4580
    },
    {
      "epoch": 1.5812909906800137,
      "grad_norm": 1.2713088989257812,
      "learning_rate": 2e-05,
      "loss": 0.7744,
      "step": 4581
    },
    {
      "epoch": 1.5816361753538142,
      "grad_norm": 1.2260496616363525,
      "learning_rate": 2e-05,
      "loss": 0.8129,
      "step": 4582
    },
    {
      "epoch": 1.5819813600276147,
      "grad_norm": 1.3164634704589844,
      "learning_rate": 2e-05,
      "loss": 0.7585,
      "step": 4583
    },
    {
      "epoch": 1.5823265447014152,
      "grad_norm": 1.2241870164871216,
      "learning_rate": 2e-05,
      "loss": 0.7679,
      "step": 4584
    },
    {
      "epoch": 1.5826717293752157,
      "grad_norm": 1.3628042936325073,
      "learning_rate": 2e-05,
      "loss": 0.7476,
      "step": 4585
    },
    {
      "epoch": 1.5830169140490162,
      "grad_norm": 1.312720775604248,
      "learning_rate": 2e-05,
      "loss": 0.7288,
      "step": 4586
    },
    {
      "epoch": 1.5833620987228167,
      "grad_norm": 1.220773696899414,
      "learning_rate": 2e-05,
      "loss": 0.669,
      "step": 4587
    },
    {
      "epoch": 1.5837072833966173,
      "grad_norm": 1.2148847579956055,
      "learning_rate": 2e-05,
      "loss": 0.6712,
      "step": 4588
    },
    {
      "epoch": 1.5840524680704178,
      "grad_norm": 1.2861651182174683,
      "learning_rate": 2e-05,
      "loss": 0.7546,
      "step": 4589
    },
    {
      "epoch": 1.5843976527442183,
      "grad_norm": 1.295347809791565,
      "learning_rate": 2e-05,
      "loss": 0.7813,
      "step": 4590
    },
    {
      "epoch": 1.5847428374180188,
      "grad_norm": 1.3814013004302979,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 4591
    },
    {
      "epoch": 1.585088022091819,
      "grad_norm": 1.2485225200653076,
      "learning_rate": 2e-05,
      "loss": 0.7878,
      "step": 4592
    },
    {
      "epoch": 1.5854332067656196,
      "grad_norm": 1.1646133661270142,
      "learning_rate": 2e-05,
      "loss": 0.7784,
      "step": 4593
    },
    {
      "epoch": 1.5857783914394201,
      "grad_norm": 1.2300680875778198,
      "learning_rate": 2e-05,
      "loss": 0.7808,
      "step": 4594
    },
    {
      "epoch": 1.5861235761132204,
      "grad_norm": 1.2614017724990845,
      "learning_rate": 2e-05,
      "loss": 0.854,
      "step": 4595
    },
    {
      "epoch": 1.586468760787021,
      "grad_norm": 1.1419955492019653,
      "learning_rate": 2e-05,
      "loss": 0.7163,
      "step": 4596
    },
    {
      "epoch": 1.5868139454608214,
      "grad_norm": 1.2461354732513428,
      "learning_rate": 2e-05,
      "loss": 0.6438,
      "step": 4597
    },
    {
      "epoch": 1.587159130134622,
      "grad_norm": 1.2425693273544312,
      "learning_rate": 2e-05,
      "loss": 0.7545,
      "step": 4598
    },
    {
      "epoch": 1.5875043148084225,
      "grad_norm": 1.2774946689605713,
      "learning_rate": 2e-05,
      "loss": 0.7195,
      "step": 4599
    },
    {
      "epoch": 1.587849499482223,
      "grad_norm": 1.3108422756195068,
      "learning_rate": 2e-05,
      "loss": 0.705,
      "step": 4600
    },
    {
      "epoch": 1.5881946841560235,
      "grad_norm": 1.40621817111969,
      "learning_rate": 2e-05,
      "loss": 0.748,
      "step": 4601
    },
    {
      "epoch": 1.588539868829824,
      "grad_norm": 1.350271224975586,
      "learning_rate": 2e-05,
      "loss": 0.7439,
      "step": 4602
    },
    {
      "epoch": 1.5888850535036245,
      "grad_norm": 1.3179006576538086,
      "learning_rate": 2e-05,
      "loss": 0.7267,
      "step": 4603
    },
    {
      "epoch": 1.589230238177425,
      "grad_norm": 1.1687954664230347,
      "learning_rate": 2e-05,
      "loss": 0.7574,
      "step": 4604
    },
    {
      "epoch": 1.5895754228512256,
      "grad_norm": 1.2828956842422485,
      "learning_rate": 2e-05,
      "loss": 0.7191,
      "step": 4605
    },
    {
      "epoch": 1.5899206075250258,
      "grad_norm": 1.3362096548080444,
      "learning_rate": 2e-05,
      "loss": 0.7743,
      "step": 4606
    },
    {
      "epoch": 1.5902657921988264,
      "grad_norm": 1.4612256288528442,
      "learning_rate": 2e-05,
      "loss": 0.7353,
      "step": 4607
    },
    {
      "epoch": 1.5906109768726269,
      "grad_norm": 1.3582450151443481,
      "learning_rate": 2e-05,
      "loss": 0.7626,
      "step": 4608
    },
    {
      "epoch": 1.5909561615464274,
      "grad_norm": 1.2843097448349,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 4609
    },
    {
      "epoch": 1.5913013462202277,
      "grad_norm": 1.1811082363128662,
      "learning_rate": 2e-05,
      "loss": 0.7932,
      "step": 4610
    },
    {
      "epoch": 1.5916465308940282,
      "grad_norm": 1.3200103044509888,
      "learning_rate": 2e-05,
      "loss": 0.7331,
      "step": 4611
    },
    {
      "epoch": 1.5919917155678287,
      "grad_norm": 1.373453974723816,
      "learning_rate": 2e-05,
      "loss": 0.7608,
      "step": 4612
    },
    {
      "epoch": 1.5923369002416292,
      "grad_norm": 1.254048466682434,
      "learning_rate": 2e-05,
      "loss": 0.803,
      "step": 4613
    },
    {
      "epoch": 1.5926820849154297,
      "grad_norm": 1.2040764093399048,
      "learning_rate": 2e-05,
      "loss": 0.7763,
      "step": 4614
    },
    {
      "epoch": 1.5930272695892302,
      "grad_norm": 1.3281872272491455,
      "learning_rate": 2e-05,
      "loss": 0.7882,
      "step": 4615
    },
    {
      "epoch": 1.5933724542630308,
      "grad_norm": 1.5087860822677612,
      "learning_rate": 2e-05,
      "loss": 0.813,
      "step": 4616
    },
    {
      "epoch": 1.5937176389368313,
      "grad_norm": 1.2896156311035156,
      "learning_rate": 2e-05,
      "loss": 0.7315,
      "step": 4617
    },
    {
      "epoch": 1.5940628236106318,
      "grad_norm": 1.267306923866272,
      "learning_rate": 2e-05,
      "loss": 0.7575,
      "step": 4618
    },
    {
      "epoch": 1.5944080082844323,
      "grad_norm": 1.2366228103637695,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 4619
    },
    {
      "epoch": 1.5947531929582328,
      "grad_norm": 1.1765412092208862,
      "learning_rate": 2e-05,
      "loss": 0.7446,
      "step": 4620
    },
    {
      "epoch": 1.595098377632033,
      "grad_norm": 1.2133572101593018,
      "learning_rate": 2e-05,
      "loss": 0.7197,
      "step": 4621
    },
    {
      "epoch": 1.5954435623058336,
      "grad_norm": 1.3030436038970947,
      "learning_rate": 2e-05,
      "loss": 0.7046,
      "step": 4622
    },
    {
      "epoch": 1.5957887469796341,
      "grad_norm": 1.230120062828064,
      "learning_rate": 2e-05,
      "loss": 0.7291,
      "step": 4623
    },
    {
      "epoch": 1.5961339316534344,
      "grad_norm": 1.2310644388198853,
      "learning_rate": 2e-05,
      "loss": 0.7854,
      "step": 4624
    },
    {
      "epoch": 1.596479116327235,
      "grad_norm": 1.205661654472351,
      "learning_rate": 2e-05,
      "loss": 0.6628,
      "step": 4625
    },
    {
      "epoch": 1.5968243010010355,
      "grad_norm": 1.3873610496520996,
      "learning_rate": 2e-05,
      "loss": 0.7595,
      "step": 4626
    },
    {
      "epoch": 1.597169485674836,
      "grad_norm": 1.397012710571289,
      "learning_rate": 2e-05,
      "loss": 0.7653,
      "step": 4627
    },
    {
      "epoch": 1.5975146703486365,
      "grad_norm": 1.3007705211639404,
      "learning_rate": 2e-05,
      "loss": 0.7474,
      "step": 4628
    },
    {
      "epoch": 1.597859855022437,
      "grad_norm": 1.2538836002349854,
      "learning_rate": 2e-05,
      "loss": 0.7132,
      "step": 4629
    },
    {
      "epoch": 1.5982050396962375,
      "grad_norm": 1.2060296535491943,
      "learning_rate": 2e-05,
      "loss": 0.7328,
      "step": 4630
    },
    {
      "epoch": 1.598550224370038,
      "grad_norm": 1.2576242685317993,
      "learning_rate": 2e-05,
      "loss": 0.7167,
      "step": 4631
    },
    {
      "epoch": 1.5988954090438385,
      "grad_norm": 1.223004698753357,
      "learning_rate": 2e-05,
      "loss": 0.7997,
      "step": 4632
    },
    {
      "epoch": 1.599240593717639,
      "grad_norm": 1.2008988857269287,
      "learning_rate": 2e-05,
      "loss": 0.6742,
      "step": 4633
    },
    {
      "epoch": 1.5995857783914396,
      "grad_norm": 1.2553349733352661,
      "learning_rate": 2e-05,
      "loss": 0.797,
      "step": 4634
    },
    {
      "epoch": 1.5999309630652399,
      "grad_norm": 1.2238869667053223,
      "learning_rate": 2e-05,
      "loss": 0.7661,
      "step": 4635
    },
    {
      "epoch": 1.6002761477390404,
      "grad_norm": 1.1638858318328857,
      "learning_rate": 2e-05,
      "loss": 0.7013,
      "step": 4636
    },
    {
      "epoch": 1.6006213324128409,
      "grad_norm": 1.1185271739959717,
      "learning_rate": 2e-05,
      "loss": 0.7582,
      "step": 4637
    },
    {
      "epoch": 1.6009665170866414,
      "grad_norm": 1.320621132850647,
      "learning_rate": 2e-05,
      "loss": 0.7819,
      "step": 4638
    },
    {
      "epoch": 1.6013117017604417,
      "grad_norm": 1.2716975212097168,
      "learning_rate": 2e-05,
      "loss": 0.7765,
      "step": 4639
    },
    {
      "epoch": 1.6016568864342422,
      "grad_norm": 1.3153244256973267,
      "learning_rate": 2e-05,
      "loss": 0.7446,
      "step": 4640
    },
    {
      "epoch": 1.6020020711080427,
      "grad_norm": 1.2911744117736816,
      "learning_rate": 2e-05,
      "loss": 0.7664,
      "step": 4641
    },
    {
      "epoch": 1.6023472557818432,
      "grad_norm": 1.2122690677642822,
      "learning_rate": 2e-05,
      "loss": 0.7525,
      "step": 4642
    },
    {
      "epoch": 1.6026924404556437,
      "grad_norm": 1.3981544971466064,
      "learning_rate": 2e-05,
      "loss": 0.7588,
      "step": 4643
    },
    {
      "epoch": 1.6030376251294443,
      "grad_norm": 1.3417309522628784,
      "learning_rate": 2e-05,
      "loss": 0.7849,
      "step": 4644
    },
    {
      "epoch": 1.6033828098032448,
      "grad_norm": 1.2764843702316284,
      "learning_rate": 2e-05,
      "loss": 0.7654,
      "step": 4645
    },
    {
      "epoch": 1.6037279944770453,
      "grad_norm": 1.316608190536499,
      "learning_rate": 2e-05,
      "loss": 0.7556,
      "step": 4646
    },
    {
      "epoch": 1.6040731791508458,
      "grad_norm": 1.3358460664749146,
      "learning_rate": 2e-05,
      "loss": 0.7478,
      "step": 4647
    },
    {
      "epoch": 1.6044183638246463,
      "grad_norm": 1.3603699207305908,
      "learning_rate": 2e-05,
      "loss": 0.7327,
      "step": 4648
    },
    {
      "epoch": 1.6047635484984468,
      "grad_norm": 1.247776746749878,
      "learning_rate": 2e-05,
      "loss": 0.8085,
      "step": 4649
    },
    {
      "epoch": 1.6051087331722471,
      "grad_norm": 1.3471695184707642,
      "learning_rate": 2e-05,
      "loss": 0.8495,
      "step": 4650
    },
    {
      "epoch": 1.6054539178460476,
      "grad_norm": 1.292301058769226,
      "learning_rate": 2e-05,
      "loss": 0.8208,
      "step": 4651
    },
    {
      "epoch": 1.6057991025198481,
      "grad_norm": 1.397847056388855,
      "learning_rate": 2e-05,
      "loss": 0.735,
      "step": 4652
    },
    {
      "epoch": 1.6061442871936487,
      "grad_norm": 1.2115756273269653,
      "learning_rate": 2e-05,
      "loss": 0.7612,
      "step": 4653
    },
    {
      "epoch": 1.606489471867449,
      "grad_norm": 1.2312023639678955,
      "learning_rate": 2e-05,
      "loss": 0.801,
      "step": 4654
    },
    {
      "epoch": 1.6068346565412495,
      "grad_norm": 1.1840171813964844,
      "learning_rate": 2e-05,
      "loss": 0.7834,
      "step": 4655
    },
    {
      "epoch": 1.60717984121505,
      "grad_norm": 1.2051202058792114,
      "learning_rate": 2e-05,
      "loss": 0.7834,
      "step": 4656
    },
    {
      "epoch": 1.6075250258888505,
      "grad_norm": 1.2637258768081665,
      "learning_rate": 2e-05,
      "loss": 0.7143,
      "step": 4657
    },
    {
      "epoch": 1.607870210562651,
      "grad_norm": 1.2773844003677368,
      "learning_rate": 2e-05,
      "loss": 0.7833,
      "step": 4658
    },
    {
      "epoch": 1.6082153952364515,
      "grad_norm": 1.3171058893203735,
      "learning_rate": 2e-05,
      "loss": 0.7883,
      "step": 4659
    },
    {
      "epoch": 1.608560579910252,
      "grad_norm": 1.1740754842758179,
      "learning_rate": 2e-05,
      "loss": 0.7993,
      "step": 4660
    },
    {
      "epoch": 1.6089057645840525,
      "grad_norm": 1.2480478286743164,
      "learning_rate": 2e-05,
      "loss": 0.7769,
      "step": 4661
    },
    {
      "epoch": 1.609250949257853,
      "grad_norm": 1.2354282140731812,
      "learning_rate": 2e-05,
      "loss": 0.8125,
      "step": 4662
    },
    {
      "epoch": 1.6095961339316536,
      "grad_norm": 1.2236562967300415,
      "learning_rate": 2e-05,
      "loss": 0.7607,
      "step": 4663
    },
    {
      "epoch": 1.6099413186054539,
      "grad_norm": 1.2796522378921509,
      "learning_rate": 2e-05,
      "loss": 0.8033,
      "step": 4664
    },
    {
      "epoch": 1.6102865032792544,
      "grad_norm": 1.1620614528656006,
      "learning_rate": 2e-05,
      "loss": 0.6842,
      "step": 4665
    },
    {
      "epoch": 1.610631687953055,
      "grad_norm": 1.248754620552063,
      "learning_rate": 2e-05,
      "loss": 0.7572,
      "step": 4666
    },
    {
      "epoch": 1.6109768726268554,
      "grad_norm": 1.3075594902038574,
      "learning_rate": 2e-05,
      "loss": 0.8301,
      "step": 4667
    },
    {
      "epoch": 1.6113220573006557,
      "grad_norm": 1.2364155054092407,
      "learning_rate": 2e-05,
      "loss": 0.728,
      "step": 4668
    },
    {
      "epoch": 1.6116672419744562,
      "grad_norm": 1.371285080909729,
      "learning_rate": 2e-05,
      "loss": 0.7385,
      "step": 4669
    },
    {
      "epoch": 1.6120124266482567,
      "grad_norm": 1.1600805521011353,
      "learning_rate": 2e-05,
      "loss": 0.7938,
      "step": 4670
    },
    {
      "epoch": 1.6123576113220572,
      "grad_norm": 1.2455124855041504,
      "learning_rate": 2e-05,
      "loss": 0.7191,
      "step": 4671
    },
    {
      "epoch": 1.6127027959958578,
      "grad_norm": 1.3390519618988037,
      "learning_rate": 2e-05,
      "loss": 0.7959,
      "step": 4672
    },
    {
      "epoch": 1.6130479806696583,
      "grad_norm": 1.2489358186721802,
      "learning_rate": 2e-05,
      "loss": 0.8456,
      "step": 4673
    },
    {
      "epoch": 1.6133931653434588,
      "grad_norm": 1.2489289045333862,
      "learning_rate": 2e-05,
      "loss": 0.7905,
      "step": 4674
    },
    {
      "epoch": 1.6137383500172593,
      "grad_norm": 1.1458019018173218,
      "learning_rate": 2e-05,
      "loss": 0.7926,
      "step": 4675
    },
    {
      "epoch": 1.6140835346910598,
      "grad_norm": 1.214400291442871,
      "learning_rate": 2e-05,
      "loss": 0.7295,
      "step": 4676
    },
    {
      "epoch": 1.6144287193648603,
      "grad_norm": 1.3361173868179321,
      "learning_rate": 2e-05,
      "loss": 0.8653,
      "step": 4677
    },
    {
      "epoch": 1.6147739040386608,
      "grad_norm": 1.3240453004837036,
      "learning_rate": 2e-05,
      "loss": 0.7994,
      "step": 4678
    },
    {
      "epoch": 1.6151190887124611,
      "grad_norm": 1.375475525856018,
      "learning_rate": 2e-05,
      "loss": 0.7642,
      "step": 4679
    },
    {
      "epoch": 1.6154642733862616,
      "grad_norm": 1.1972665786743164,
      "learning_rate": 2e-05,
      "loss": 0.7191,
      "step": 4680
    },
    {
      "epoch": 1.6158094580600622,
      "grad_norm": 1.3603543043136597,
      "learning_rate": 2e-05,
      "loss": 0.7474,
      "step": 4681
    },
    {
      "epoch": 1.6161546427338627,
      "grad_norm": 1.1660751104354858,
      "learning_rate": 2e-05,
      "loss": 0.7944,
      "step": 4682
    },
    {
      "epoch": 1.616499827407663,
      "grad_norm": 1.3556838035583496,
      "learning_rate": 2e-05,
      "loss": 0.7396,
      "step": 4683
    },
    {
      "epoch": 1.6168450120814635,
      "grad_norm": 1.281939148902893,
      "learning_rate": 2e-05,
      "loss": 0.7764,
      "step": 4684
    },
    {
      "epoch": 1.617190196755264,
      "grad_norm": 1.4527764320373535,
      "learning_rate": 2e-05,
      "loss": 0.8043,
      "step": 4685
    },
    {
      "epoch": 1.6175353814290645,
      "grad_norm": 1.316577434539795,
      "learning_rate": 2e-05,
      "loss": 0.7296,
      "step": 4686
    },
    {
      "epoch": 1.617880566102865,
      "grad_norm": 1.39560866355896,
      "learning_rate": 2e-05,
      "loss": 0.724,
      "step": 4687
    },
    {
      "epoch": 1.6182257507766655,
      "grad_norm": 1.2382853031158447,
      "learning_rate": 2e-05,
      "loss": 0.7746,
      "step": 4688
    },
    {
      "epoch": 1.618570935450466,
      "grad_norm": 1.3609321117401123,
      "learning_rate": 2e-05,
      "loss": 0.7173,
      "step": 4689
    },
    {
      "epoch": 1.6189161201242666,
      "grad_norm": 1.262766718864441,
      "learning_rate": 2e-05,
      "loss": 0.7777,
      "step": 4690
    },
    {
      "epoch": 1.619261304798067,
      "grad_norm": 1.2570898532867432,
      "learning_rate": 2e-05,
      "loss": 0.7848,
      "step": 4691
    },
    {
      "epoch": 1.6196064894718676,
      "grad_norm": 1.279325246810913,
      "learning_rate": 2e-05,
      "loss": 0.7402,
      "step": 4692
    },
    {
      "epoch": 1.619951674145668,
      "grad_norm": 1.198912501335144,
      "learning_rate": 2e-05,
      "loss": 0.8161,
      "step": 4693
    },
    {
      "epoch": 1.6202968588194684,
      "grad_norm": 1.3340239524841309,
      "learning_rate": 2e-05,
      "loss": 0.7579,
      "step": 4694
    },
    {
      "epoch": 1.620642043493269,
      "grad_norm": 1.2068907022476196,
      "learning_rate": 2e-05,
      "loss": 0.8271,
      "step": 4695
    },
    {
      "epoch": 1.6209872281670694,
      "grad_norm": 1.1680747270584106,
      "learning_rate": 2e-05,
      "loss": 0.7728,
      "step": 4696
    },
    {
      "epoch": 1.6213324128408697,
      "grad_norm": 1.1469117403030396,
      "learning_rate": 2e-05,
      "loss": 0.7371,
      "step": 4697
    },
    {
      "epoch": 1.6216775975146702,
      "grad_norm": 3.623073101043701,
      "learning_rate": 2e-05,
      "loss": 0.7708,
      "step": 4698
    },
    {
      "epoch": 1.6220227821884707,
      "grad_norm": 1.2691768407821655,
      "learning_rate": 2e-05,
      "loss": 0.7109,
      "step": 4699
    },
    {
      "epoch": 1.6223679668622712,
      "grad_norm": 1.3248599767684937,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 4700
    },
    {
      "epoch": 1.6227131515360718,
      "grad_norm": 1.2660561800003052,
      "learning_rate": 2e-05,
      "loss": 0.7267,
      "step": 4701
    },
    {
      "epoch": 1.6230583362098723,
      "grad_norm": 1.3039249181747437,
      "learning_rate": 2e-05,
      "loss": 0.7705,
      "step": 4702
    },
    {
      "epoch": 1.6234035208836728,
      "grad_norm": 1.3646224737167358,
      "learning_rate": 2e-05,
      "loss": 0.7722,
      "step": 4703
    },
    {
      "epoch": 1.6237487055574733,
      "grad_norm": 1.193397045135498,
      "learning_rate": 2e-05,
      "loss": 0.6925,
      "step": 4704
    },
    {
      "epoch": 1.6240938902312738,
      "grad_norm": 1.2555620670318604,
      "learning_rate": 2e-05,
      "loss": 0.7784,
      "step": 4705
    },
    {
      "epoch": 1.6244390749050743,
      "grad_norm": 1.211814522743225,
      "learning_rate": 2e-05,
      "loss": 0.7945,
      "step": 4706
    },
    {
      "epoch": 1.6247842595788748,
      "grad_norm": 1.1557508707046509,
      "learning_rate": 2e-05,
      "loss": 0.7292,
      "step": 4707
    },
    {
      "epoch": 1.6251294442526751,
      "grad_norm": 1.2779042720794678,
      "learning_rate": 2e-05,
      "loss": 0.7504,
      "step": 4708
    },
    {
      "epoch": 1.6254746289264757,
      "grad_norm": 1.31721830368042,
      "learning_rate": 2e-05,
      "loss": 0.8326,
      "step": 4709
    },
    {
      "epoch": 1.6258198136002762,
      "grad_norm": 1.3254666328430176,
      "learning_rate": 2e-05,
      "loss": 0.8353,
      "step": 4710
    },
    {
      "epoch": 1.6261649982740767,
      "grad_norm": 1.2134076356887817,
      "learning_rate": 2e-05,
      "loss": 0.739,
      "step": 4711
    },
    {
      "epoch": 1.626510182947877,
      "grad_norm": 1.2430191040039062,
      "learning_rate": 2e-05,
      "loss": 0.7466,
      "step": 4712
    },
    {
      "epoch": 1.6268553676216775,
      "grad_norm": 1.2419121265411377,
      "learning_rate": 2e-05,
      "loss": 0.7702,
      "step": 4713
    },
    {
      "epoch": 1.627200552295478,
      "grad_norm": 1.3049014806747437,
      "learning_rate": 2e-05,
      "loss": 0.815,
      "step": 4714
    },
    {
      "epoch": 1.6275457369692785,
      "grad_norm": 1.2382798194885254,
      "learning_rate": 2e-05,
      "loss": 0.7608,
      "step": 4715
    },
    {
      "epoch": 1.627890921643079,
      "grad_norm": 1.2801532745361328,
      "learning_rate": 2e-05,
      "loss": 0.7815,
      "step": 4716
    },
    {
      "epoch": 1.6282361063168795,
      "grad_norm": 1.3134840726852417,
      "learning_rate": 2e-05,
      "loss": 0.7712,
      "step": 4717
    },
    {
      "epoch": 1.62858129099068,
      "grad_norm": 1.1615724563598633,
      "learning_rate": 2e-05,
      "loss": 0.7585,
      "step": 4718
    },
    {
      "epoch": 1.6289264756644806,
      "grad_norm": 1.2316395044326782,
      "learning_rate": 2e-05,
      "loss": 0.7488,
      "step": 4719
    },
    {
      "epoch": 1.629271660338281,
      "grad_norm": 1.2049801349639893,
      "learning_rate": 2e-05,
      "loss": 0.7279,
      "step": 4720
    },
    {
      "epoch": 1.6296168450120816,
      "grad_norm": 1.3757928609848022,
      "learning_rate": 2e-05,
      "loss": 0.8049,
      "step": 4721
    },
    {
      "epoch": 1.629962029685882,
      "grad_norm": 1.265729546546936,
      "learning_rate": 2e-05,
      "loss": 0.8101,
      "step": 4722
    },
    {
      "epoch": 1.6303072143596824,
      "grad_norm": 1.4228061437606812,
      "learning_rate": 2e-05,
      "loss": 0.7598,
      "step": 4723
    },
    {
      "epoch": 1.630652399033483,
      "grad_norm": 1.441144585609436,
      "learning_rate": 2e-05,
      "loss": 0.7893,
      "step": 4724
    },
    {
      "epoch": 1.6309975837072834,
      "grad_norm": 1.22637140750885,
      "learning_rate": 2e-05,
      "loss": 0.7162,
      "step": 4725
    },
    {
      "epoch": 1.6313427683810837,
      "grad_norm": 1.1986583471298218,
      "learning_rate": 2e-05,
      "loss": 0.7309,
      "step": 4726
    },
    {
      "epoch": 1.6316879530548842,
      "grad_norm": 1.4267489910125732,
      "learning_rate": 2e-05,
      "loss": 0.7388,
      "step": 4727
    },
    {
      "epoch": 1.6320331377286847,
      "grad_norm": 1.2587153911590576,
      "learning_rate": 2e-05,
      "loss": 0.7412,
      "step": 4728
    },
    {
      "epoch": 1.6323783224024853,
      "grad_norm": 1.2919968366622925,
      "learning_rate": 2e-05,
      "loss": 0.7778,
      "step": 4729
    },
    {
      "epoch": 1.6327235070762858,
      "grad_norm": 1.351171851158142,
      "learning_rate": 2e-05,
      "loss": 0.7998,
      "step": 4730
    },
    {
      "epoch": 1.6330686917500863,
      "grad_norm": 1.2122246026992798,
      "learning_rate": 2e-05,
      "loss": 0.7245,
      "step": 4731
    },
    {
      "epoch": 1.6334138764238868,
      "grad_norm": 1.2799487113952637,
      "learning_rate": 2e-05,
      "loss": 0.742,
      "step": 4732
    },
    {
      "epoch": 1.6337590610976873,
      "grad_norm": 1.340710163116455,
      "learning_rate": 2e-05,
      "loss": 0.6937,
      "step": 4733
    },
    {
      "epoch": 1.6341042457714878,
      "grad_norm": 1.1417356729507446,
      "learning_rate": 2e-05,
      "loss": 0.7273,
      "step": 4734
    },
    {
      "epoch": 1.6344494304452883,
      "grad_norm": 1.187641978263855,
      "learning_rate": 2e-05,
      "loss": 0.7389,
      "step": 4735
    },
    {
      "epoch": 1.6347946151190889,
      "grad_norm": 1.2330729961395264,
      "learning_rate": 2e-05,
      "loss": 0.7677,
      "step": 4736
    },
    {
      "epoch": 1.6351397997928891,
      "grad_norm": 1.2073031663894653,
      "learning_rate": 2e-05,
      "loss": 0.6913,
      "step": 4737
    },
    {
      "epoch": 1.6354849844666897,
      "grad_norm": 1.1506239175796509,
      "learning_rate": 2e-05,
      "loss": 0.7905,
      "step": 4738
    },
    {
      "epoch": 1.6358301691404902,
      "grad_norm": 1.1930145025253296,
      "learning_rate": 2e-05,
      "loss": 0.7604,
      "step": 4739
    },
    {
      "epoch": 1.6361753538142907,
      "grad_norm": 1.1906746625900269,
      "learning_rate": 2e-05,
      "loss": 0.7226,
      "step": 4740
    },
    {
      "epoch": 1.636520538488091,
      "grad_norm": 1.692731499671936,
      "learning_rate": 2e-05,
      "loss": 0.7811,
      "step": 4741
    },
    {
      "epoch": 1.6368657231618915,
      "grad_norm": 1.1729984283447266,
      "learning_rate": 2e-05,
      "loss": 0.7501,
      "step": 4742
    },
    {
      "epoch": 1.637210907835692,
      "grad_norm": 1.1907473802566528,
      "learning_rate": 2e-05,
      "loss": 0.7306,
      "step": 4743
    },
    {
      "epoch": 1.6375560925094925,
      "grad_norm": 1.2866636514663696,
      "learning_rate": 2e-05,
      "loss": 0.6889,
      "step": 4744
    },
    {
      "epoch": 1.637901277183293,
      "grad_norm": 1.418165683746338,
      "learning_rate": 2e-05,
      "loss": 0.836,
      "step": 4745
    },
    {
      "epoch": 1.6382464618570935,
      "grad_norm": 1.230872631072998,
      "learning_rate": 2e-05,
      "loss": 0.7515,
      "step": 4746
    },
    {
      "epoch": 1.638591646530894,
      "grad_norm": 1.196236491203308,
      "learning_rate": 2e-05,
      "loss": 0.6859,
      "step": 4747
    },
    {
      "epoch": 1.6389368312046946,
      "grad_norm": 1.2158995866775513,
      "learning_rate": 2e-05,
      "loss": 0.7075,
      "step": 4748
    },
    {
      "epoch": 1.639282015878495,
      "grad_norm": 1.1889721155166626,
      "learning_rate": 2e-05,
      "loss": 0.7758,
      "step": 4749
    },
    {
      "epoch": 1.6396272005522956,
      "grad_norm": 1.3699791431427002,
      "learning_rate": 2e-05,
      "loss": 0.7841,
      "step": 4750
    },
    {
      "epoch": 1.6399723852260961,
      "grad_norm": 1.1709954738616943,
      "learning_rate": 2e-05,
      "loss": 0.7098,
      "step": 4751
    },
    {
      "epoch": 1.6403175698998964,
      "grad_norm": 1.2273918390274048,
      "learning_rate": 2e-05,
      "loss": 0.7284,
      "step": 4752
    },
    {
      "epoch": 1.640662754573697,
      "grad_norm": 1.2728095054626465,
      "learning_rate": 2e-05,
      "loss": 0.7428,
      "step": 4753
    },
    {
      "epoch": 1.6410079392474974,
      "grad_norm": 1.2454726696014404,
      "learning_rate": 2e-05,
      "loss": 0.8076,
      "step": 4754
    },
    {
      "epoch": 1.6413531239212977,
      "grad_norm": 1.2342965602874756,
      "learning_rate": 2e-05,
      "loss": 0.7564,
      "step": 4755
    },
    {
      "epoch": 1.6416983085950982,
      "grad_norm": 1.3179378509521484,
      "learning_rate": 2e-05,
      "loss": 0.79,
      "step": 4756
    },
    {
      "epoch": 1.6420434932688988,
      "grad_norm": 1.2668784856796265,
      "learning_rate": 2e-05,
      "loss": 0.7192,
      "step": 4757
    },
    {
      "epoch": 1.6423886779426993,
      "grad_norm": 1.314005970954895,
      "learning_rate": 2e-05,
      "loss": 0.7079,
      "step": 4758
    },
    {
      "epoch": 1.6427338626164998,
      "grad_norm": 1.2217799425125122,
      "learning_rate": 2e-05,
      "loss": 0.7478,
      "step": 4759
    },
    {
      "epoch": 1.6430790472903003,
      "grad_norm": 1.3471547365188599,
      "learning_rate": 2e-05,
      "loss": 0.7215,
      "step": 4760
    },
    {
      "epoch": 1.6434242319641008,
      "grad_norm": 1.3208286762237549,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 4761
    },
    {
      "epoch": 1.6437694166379013,
      "grad_norm": 1.3749074935913086,
      "learning_rate": 2e-05,
      "loss": 0.85,
      "step": 4762
    },
    {
      "epoch": 1.6441146013117018,
      "grad_norm": 1.2249547243118286,
      "learning_rate": 2e-05,
      "loss": 0.7762,
      "step": 4763
    },
    {
      "epoch": 1.6444597859855024,
      "grad_norm": 1.2304341793060303,
      "learning_rate": 2e-05,
      "loss": 0.7544,
      "step": 4764
    },
    {
      "epoch": 1.6448049706593029,
      "grad_norm": 1.1552003622055054,
      "learning_rate": 2e-05,
      "loss": 0.7401,
      "step": 4765
    },
    {
      "epoch": 1.6451501553331032,
      "grad_norm": 1.3030990362167358,
      "learning_rate": 2e-05,
      "loss": 0.8041,
      "step": 4766
    },
    {
      "epoch": 1.6454953400069037,
      "grad_norm": 1.2380253076553345,
      "learning_rate": 2e-05,
      "loss": 0.7717,
      "step": 4767
    },
    {
      "epoch": 1.6458405246807042,
      "grad_norm": 1.2360440492630005,
      "learning_rate": 2e-05,
      "loss": 0.8072,
      "step": 4768
    },
    {
      "epoch": 1.6461857093545047,
      "grad_norm": 1.183641791343689,
      "learning_rate": 2e-05,
      "loss": 0.7657,
      "step": 4769
    },
    {
      "epoch": 1.646530894028305,
      "grad_norm": 1.2752817869186401,
      "learning_rate": 2e-05,
      "loss": 0.7445,
      "step": 4770
    },
    {
      "epoch": 1.6468760787021055,
      "grad_norm": 1.3439610004425049,
      "learning_rate": 2e-05,
      "loss": 0.7351,
      "step": 4771
    },
    {
      "epoch": 1.647221263375906,
      "grad_norm": 1.074134349822998,
      "learning_rate": 2e-05,
      "loss": 0.6672,
      "step": 4772
    },
    {
      "epoch": 1.6475664480497065,
      "grad_norm": 1.3523306846618652,
      "learning_rate": 2e-05,
      "loss": 0.8069,
      "step": 4773
    },
    {
      "epoch": 1.647911632723507,
      "grad_norm": 1.279822826385498,
      "learning_rate": 2e-05,
      "loss": 0.729,
      "step": 4774
    },
    {
      "epoch": 1.6482568173973076,
      "grad_norm": 1.1647592782974243,
      "learning_rate": 2e-05,
      "loss": 0.7685,
      "step": 4775
    },
    {
      "epoch": 1.648602002071108,
      "grad_norm": 1.3059484958648682,
      "learning_rate": 2e-05,
      "loss": 0.6971,
      "step": 4776
    },
    {
      "epoch": 1.6489471867449086,
      "grad_norm": 1.1628191471099854,
      "learning_rate": 2e-05,
      "loss": 0.7619,
      "step": 4777
    },
    {
      "epoch": 1.649292371418709,
      "grad_norm": 1.1364017724990845,
      "learning_rate": 2e-05,
      "loss": 0.7552,
      "step": 4778
    },
    {
      "epoch": 1.6496375560925096,
      "grad_norm": 1.2391865253448486,
      "learning_rate": 2e-05,
      "loss": 0.7583,
      "step": 4779
    },
    {
      "epoch": 1.6499827407663101,
      "grad_norm": 1.2668676376342773,
      "learning_rate": 2e-05,
      "loss": 0.7479,
      "step": 4780
    },
    {
      "epoch": 1.6503279254401104,
      "grad_norm": 1.326161503791809,
      "learning_rate": 2e-05,
      "loss": 0.7072,
      "step": 4781
    },
    {
      "epoch": 1.650673110113911,
      "grad_norm": 1.1551553010940552,
      "learning_rate": 2e-05,
      "loss": 0.777,
      "step": 4782
    },
    {
      "epoch": 1.6510182947877114,
      "grad_norm": 1.3870534896850586,
      "learning_rate": 2e-05,
      "loss": 0.761,
      "step": 4783
    },
    {
      "epoch": 1.651363479461512,
      "grad_norm": 1.3748092651367188,
      "learning_rate": 2e-05,
      "loss": 0.718,
      "step": 4784
    },
    {
      "epoch": 1.6517086641353123,
      "grad_norm": 1.3738031387329102,
      "learning_rate": 2e-05,
      "loss": 0.7816,
      "step": 4785
    },
    {
      "epoch": 1.6520538488091128,
      "grad_norm": 1.3144947290420532,
      "learning_rate": 2e-05,
      "loss": 0.7202,
      "step": 4786
    },
    {
      "epoch": 1.6523990334829133,
      "grad_norm": 1.3342812061309814,
      "learning_rate": 2e-05,
      "loss": 0.7743,
      "step": 4787
    },
    {
      "epoch": 1.6527442181567138,
      "grad_norm": 1.2783634662628174,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 4788
    },
    {
      "epoch": 1.6530894028305143,
      "grad_norm": 1.187239646911621,
      "learning_rate": 2e-05,
      "loss": 0.8082,
      "step": 4789
    },
    {
      "epoch": 1.6534345875043148,
      "grad_norm": 1.3191882371902466,
      "learning_rate": 2e-05,
      "loss": 0.7862,
      "step": 4790
    },
    {
      "epoch": 1.6537797721781153,
      "grad_norm": 1.1739081144332886,
      "learning_rate": 2e-05,
      "loss": 0.7317,
      "step": 4791
    },
    {
      "epoch": 1.6541249568519159,
      "grad_norm": 1.356692910194397,
      "learning_rate": 2e-05,
      "loss": 0.7493,
      "step": 4792
    },
    {
      "epoch": 1.6544701415257164,
      "grad_norm": 1.2785232067108154,
      "learning_rate": 2e-05,
      "loss": 0.746,
      "step": 4793
    },
    {
      "epoch": 1.6548153261995169,
      "grad_norm": 1.5080639123916626,
      "learning_rate": 2e-05,
      "loss": 0.7895,
      "step": 4794
    },
    {
      "epoch": 1.6551605108733172,
      "grad_norm": 1.345988392829895,
      "learning_rate": 2e-05,
      "loss": 0.7318,
      "step": 4795
    },
    {
      "epoch": 1.6555056955471177,
      "grad_norm": 1.4180536270141602,
      "learning_rate": 2e-05,
      "loss": 0.7501,
      "step": 4796
    },
    {
      "epoch": 1.6558508802209182,
      "grad_norm": 1.2463645935058594,
      "learning_rate": 2e-05,
      "loss": 0.7465,
      "step": 4797
    },
    {
      "epoch": 1.6561960648947187,
      "grad_norm": 1.3661608695983887,
      "learning_rate": 2e-05,
      "loss": 0.8288,
      "step": 4798
    },
    {
      "epoch": 1.656541249568519,
      "grad_norm": 1.188757300376892,
      "learning_rate": 2e-05,
      "loss": 0.7239,
      "step": 4799
    },
    {
      "epoch": 1.6568864342423195,
      "grad_norm": 1.2013132572174072,
      "learning_rate": 2e-05,
      "loss": 0.7301,
      "step": 4800
    },
    {
      "epoch": 1.65723161891612,
      "grad_norm": 1.3245518207550049,
      "learning_rate": 2e-05,
      "loss": 0.7812,
      "step": 4801
    },
    {
      "epoch": 1.6575768035899205,
      "grad_norm": 1.1573296785354614,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 4802
    },
    {
      "epoch": 1.657921988263721,
      "grad_norm": 1.2466400861740112,
      "learning_rate": 2e-05,
      "loss": 0.7296,
      "step": 4803
    },
    {
      "epoch": 1.6582671729375216,
      "grad_norm": 1.329512119293213,
      "learning_rate": 2e-05,
      "loss": 0.7239,
      "step": 4804
    },
    {
      "epoch": 1.658612357611322,
      "grad_norm": 1.346372365951538,
      "learning_rate": 2e-05,
      "loss": 0.7324,
      "step": 4805
    },
    {
      "epoch": 1.6589575422851226,
      "grad_norm": 1.2597055435180664,
      "learning_rate": 2e-05,
      "loss": 0.7487,
      "step": 4806
    },
    {
      "epoch": 1.6593027269589231,
      "grad_norm": 1.3281711339950562,
      "learning_rate": 2e-05,
      "loss": 0.7938,
      "step": 4807
    },
    {
      "epoch": 1.6596479116327236,
      "grad_norm": 1.294926643371582,
      "learning_rate": 2e-05,
      "loss": 0.7535,
      "step": 4808
    },
    {
      "epoch": 1.6599930963065241,
      "grad_norm": 1.3457260131835938,
      "learning_rate": 2e-05,
      "loss": 0.7729,
      "step": 4809
    },
    {
      "epoch": 1.6603382809803244,
      "grad_norm": 1.3022879362106323,
      "learning_rate": 2e-05,
      "loss": 0.7706,
      "step": 4810
    },
    {
      "epoch": 1.660683465654125,
      "grad_norm": 1.223475456237793,
      "learning_rate": 2e-05,
      "loss": 0.679,
      "step": 4811
    },
    {
      "epoch": 1.6610286503279255,
      "grad_norm": 1.1863911151885986,
      "learning_rate": 2e-05,
      "loss": 0.8159,
      "step": 4812
    },
    {
      "epoch": 1.661373835001726,
      "grad_norm": 1.266916275024414,
      "learning_rate": 2e-05,
      "loss": 0.7084,
      "step": 4813
    },
    {
      "epoch": 1.6617190196755263,
      "grad_norm": 1.2366267442703247,
      "learning_rate": 2e-05,
      "loss": 0.7344,
      "step": 4814
    },
    {
      "epoch": 1.6620642043493268,
      "grad_norm": 1.2488926649093628,
      "learning_rate": 2e-05,
      "loss": 0.807,
      "step": 4815
    },
    {
      "epoch": 1.6624093890231273,
      "grad_norm": 1.3182724714279175,
      "learning_rate": 2e-05,
      "loss": 0.7318,
      "step": 4816
    },
    {
      "epoch": 1.6627545736969278,
      "grad_norm": 1.2859214544296265,
      "learning_rate": 2e-05,
      "loss": 0.7864,
      "step": 4817
    },
    {
      "epoch": 1.6630997583707283,
      "grad_norm": 1.1910789012908936,
      "learning_rate": 2e-05,
      "loss": 0.6467,
      "step": 4818
    },
    {
      "epoch": 1.6634449430445288,
      "grad_norm": 1.19198739528656,
      "learning_rate": 2e-05,
      "loss": 0.7711,
      "step": 4819
    },
    {
      "epoch": 1.6637901277183293,
      "grad_norm": 1.1876741647720337,
      "learning_rate": 2e-05,
      "loss": 0.7828,
      "step": 4820
    },
    {
      "epoch": 1.6641353123921299,
      "grad_norm": 1.2133471965789795,
      "learning_rate": 2e-05,
      "loss": 0.7488,
      "step": 4821
    },
    {
      "epoch": 1.6644804970659304,
      "grad_norm": 1.3146694898605347,
      "learning_rate": 2e-05,
      "loss": 0.7843,
      "step": 4822
    },
    {
      "epoch": 1.664825681739731,
      "grad_norm": 1.2588160037994385,
      "learning_rate": 2e-05,
      "loss": 0.7273,
      "step": 4823
    },
    {
      "epoch": 1.6651708664135314,
      "grad_norm": 1.4726060628890991,
      "learning_rate": 2e-05,
      "loss": 0.8025,
      "step": 4824
    },
    {
      "epoch": 1.6655160510873317,
      "grad_norm": 1.1817498207092285,
      "learning_rate": 2e-05,
      "loss": 0.7609,
      "step": 4825
    },
    {
      "epoch": 1.6658612357611322,
      "grad_norm": 1.3206883668899536,
      "learning_rate": 2e-05,
      "loss": 0.7528,
      "step": 4826
    },
    {
      "epoch": 1.6662064204349327,
      "grad_norm": 1.3086141347885132,
      "learning_rate": 2e-05,
      "loss": 0.8252,
      "step": 4827
    },
    {
      "epoch": 1.666551605108733,
      "grad_norm": 1.1999691724777222,
      "learning_rate": 2e-05,
      "loss": 0.7051,
      "step": 4828
    },
    {
      "epoch": 1.6668967897825335,
      "grad_norm": 1.1369202136993408,
      "learning_rate": 2e-05,
      "loss": 0.8131,
      "step": 4829
    },
    {
      "epoch": 1.667241974456334,
      "grad_norm": 1.1622419357299805,
      "learning_rate": 2e-05,
      "loss": 0.7534,
      "step": 4830
    },
    {
      "epoch": 1.6675871591301346,
      "grad_norm": 1.3470520973205566,
      "learning_rate": 2e-05,
      "loss": 0.7145,
      "step": 4831
    },
    {
      "epoch": 1.667932343803935,
      "grad_norm": 1.3028243780136108,
      "learning_rate": 2e-05,
      "loss": 0.804,
      "step": 4832
    },
    {
      "epoch": 1.6682775284777356,
      "grad_norm": 1.2140588760375977,
      "learning_rate": 2e-05,
      "loss": 0.7682,
      "step": 4833
    },
    {
      "epoch": 1.668622713151536,
      "grad_norm": 1.2400593757629395,
      "learning_rate": 2e-05,
      "loss": 0.735,
      "step": 4834
    },
    {
      "epoch": 1.6689678978253366,
      "grad_norm": 1.3254047632217407,
      "learning_rate": 2e-05,
      "loss": 0.6899,
      "step": 4835
    },
    {
      "epoch": 1.6693130824991371,
      "grad_norm": 1.299768090248108,
      "learning_rate": 2e-05,
      "loss": 0.7591,
      "step": 4836
    },
    {
      "epoch": 1.6696582671729376,
      "grad_norm": 1.3608397245407104,
      "learning_rate": 2e-05,
      "loss": 0.7527,
      "step": 4837
    },
    {
      "epoch": 1.6700034518467382,
      "grad_norm": 1.2672308683395386,
      "learning_rate": 2e-05,
      "loss": 0.6139,
      "step": 4838
    },
    {
      "epoch": 1.6703486365205384,
      "grad_norm": 1.8844444751739502,
      "learning_rate": 2e-05,
      "loss": 0.7403,
      "step": 4839
    },
    {
      "epoch": 1.670693821194339,
      "grad_norm": 1.4103076457977295,
      "learning_rate": 2e-05,
      "loss": 0.7956,
      "step": 4840
    },
    {
      "epoch": 1.6710390058681395,
      "grad_norm": 1.15252685546875,
      "learning_rate": 2e-05,
      "loss": 0.7549,
      "step": 4841
    },
    {
      "epoch": 1.67138419054194,
      "grad_norm": 1.2452996969223022,
      "learning_rate": 2e-05,
      "loss": 0.7125,
      "step": 4842
    },
    {
      "epoch": 1.6717293752157403,
      "grad_norm": 1.283223032951355,
      "learning_rate": 2e-05,
      "loss": 0.7948,
      "step": 4843
    },
    {
      "epoch": 1.6720745598895408,
      "grad_norm": 1.3260529041290283,
      "learning_rate": 2e-05,
      "loss": 0.7995,
      "step": 4844
    },
    {
      "epoch": 1.6724197445633413,
      "grad_norm": 1.22263503074646,
      "learning_rate": 2e-05,
      "loss": 0.7757,
      "step": 4845
    },
    {
      "epoch": 1.6727649292371418,
      "grad_norm": 1.284246563911438,
      "learning_rate": 2e-05,
      "loss": 0.7834,
      "step": 4846
    },
    {
      "epoch": 1.6731101139109423,
      "grad_norm": 1.1766239404678345,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 4847
    },
    {
      "epoch": 1.6734552985847428,
      "grad_norm": 1.3373059034347534,
      "learning_rate": 2e-05,
      "loss": 0.7489,
      "step": 4848
    },
    {
      "epoch": 1.6738004832585434,
      "grad_norm": 1.2468898296356201,
      "learning_rate": 2e-05,
      "loss": 0.7625,
      "step": 4849
    },
    {
      "epoch": 1.6741456679323439,
      "grad_norm": 1.2434521913528442,
      "learning_rate": 2e-05,
      "loss": 0.8259,
      "step": 4850
    },
    {
      "epoch": 1.6744908526061444,
      "grad_norm": 1.1126019954681396,
      "learning_rate": 2e-05,
      "loss": 0.7994,
      "step": 4851
    },
    {
      "epoch": 1.674836037279945,
      "grad_norm": 1.4404958486557007,
      "learning_rate": 2e-05,
      "loss": 0.7681,
      "step": 4852
    },
    {
      "epoch": 1.6751812219537454,
      "grad_norm": 1.2690809965133667,
      "learning_rate": 2e-05,
      "loss": 0.7421,
      "step": 4853
    },
    {
      "epoch": 1.6755264066275457,
      "grad_norm": 1.224021077156067,
      "learning_rate": 2e-05,
      "loss": 0.6587,
      "step": 4854
    },
    {
      "epoch": 1.6758715913013462,
      "grad_norm": 1.3478591442108154,
      "learning_rate": 2e-05,
      "loss": 0.8295,
      "step": 4855
    },
    {
      "epoch": 1.6762167759751467,
      "grad_norm": 1.3460801839828491,
      "learning_rate": 2e-05,
      "loss": 0.7696,
      "step": 4856
    },
    {
      "epoch": 1.676561960648947,
      "grad_norm": 1.3511459827423096,
      "learning_rate": 2e-05,
      "loss": 0.7302,
      "step": 4857
    },
    {
      "epoch": 1.6769071453227475,
      "grad_norm": 1.1723077297210693,
      "learning_rate": 2e-05,
      "loss": 0.7155,
      "step": 4858
    },
    {
      "epoch": 1.677252329996548,
      "grad_norm": 1.3022629022598267,
      "learning_rate": 2e-05,
      "loss": 0.7097,
      "step": 4859
    },
    {
      "epoch": 1.6775975146703486,
      "grad_norm": 1.1476562023162842,
      "learning_rate": 2e-05,
      "loss": 0.7611,
      "step": 4860
    },
    {
      "epoch": 1.677942699344149,
      "grad_norm": 1.1757994890213013,
      "learning_rate": 2e-05,
      "loss": 0.7319,
      "step": 4861
    },
    {
      "epoch": 1.6782878840179496,
      "grad_norm": 1.3261483907699585,
      "learning_rate": 2e-05,
      "loss": 0.8461,
      "step": 4862
    },
    {
      "epoch": 1.67863306869175,
      "grad_norm": 1.2149592638015747,
      "learning_rate": 2e-05,
      "loss": 0.6833,
      "step": 4863
    },
    {
      "epoch": 1.6789782533655506,
      "grad_norm": 1.310802698135376,
      "learning_rate": 2e-05,
      "loss": 0.7491,
      "step": 4864
    },
    {
      "epoch": 1.6793234380393511,
      "grad_norm": 1.1419271230697632,
      "learning_rate": 2e-05,
      "loss": 0.7694,
      "step": 4865
    },
    {
      "epoch": 1.6796686227131516,
      "grad_norm": 1.3769294023513794,
      "learning_rate": 2e-05,
      "loss": 0.7226,
      "step": 4866
    },
    {
      "epoch": 1.6800138073869522,
      "grad_norm": 1.278293251991272,
      "learning_rate": 2e-05,
      "loss": 0.7294,
      "step": 4867
    },
    {
      "epoch": 1.6803589920607525,
      "grad_norm": 1.2985246181488037,
      "learning_rate": 2e-05,
      "loss": 0.6853,
      "step": 4868
    },
    {
      "epoch": 1.680704176734553,
      "grad_norm": 1.3483867645263672,
      "learning_rate": 2e-05,
      "loss": 0.7856,
      "step": 4869
    },
    {
      "epoch": 1.6810493614083535,
      "grad_norm": 1.2891676425933838,
      "learning_rate": 2e-05,
      "loss": 0.7749,
      "step": 4870
    },
    {
      "epoch": 1.681394546082154,
      "grad_norm": 1.2788569927215576,
      "learning_rate": 2e-05,
      "loss": 0.7358,
      "step": 4871
    },
    {
      "epoch": 1.6817397307559543,
      "grad_norm": 1.1865094900131226,
      "learning_rate": 2e-05,
      "loss": 0.671,
      "step": 4872
    },
    {
      "epoch": 1.6820849154297548,
      "grad_norm": 1.2794616222381592,
      "learning_rate": 2e-05,
      "loss": 0.7865,
      "step": 4873
    },
    {
      "epoch": 1.6824301001035553,
      "grad_norm": 1.2073653936386108,
      "learning_rate": 2e-05,
      "loss": 0.7137,
      "step": 4874
    },
    {
      "epoch": 1.6827752847773558,
      "grad_norm": 1.2746639251708984,
      "learning_rate": 2e-05,
      "loss": 0.7199,
      "step": 4875
    },
    {
      "epoch": 1.6831204694511563,
      "grad_norm": 1.2759130001068115,
      "learning_rate": 2e-05,
      "loss": 0.7401,
      "step": 4876
    },
    {
      "epoch": 1.6834656541249569,
      "grad_norm": 1.286576747894287,
      "learning_rate": 2e-05,
      "loss": 0.8091,
      "step": 4877
    },
    {
      "epoch": 1.6838108387987574,
      "grad_norm": 1.344923496246338,
      "learning_rate": 2e-05,
      "loss": 0.772,
      "step": 4878
    },
    {
      "epoch": 1.6841560234725579,
      "grad_norm": 1.3201019763946533,
      "learning_rate": 2e-05,
      "loss": 0.7552,
      "step": 4879
    },
    {
      "epoch": 1.6845012081463584,
      "grad_norm": 1.2352471351623535,
      "learning_rate": 2e-05,
      "loss": 0.7416,
      "step": 4880
    },
    {
      "epoch": 1.684846392820159,
      "grad_norm": 1.1904680728912354,
      "learning_rate": 2e-05,
      "loss": 0.7506,
      "step": 4881
    },
    {
      "epoch": 1.6851915774939594,
      "grad_norm": 1.2680896520614624,
      "learning_rate": 2e-05,
      "loss": 0.7238,
      "step": 4882
    },
    {
      "epoch": 1.6855367621677597,
      "grad_norm": 1.2825123071670532,
      "learning_rate": 2e-05,
      "loss": 0.8327,
      "step": 4883
    },
    {
      "epoch": 1.6858819468415602,
      "grad_norm": 1.3159979581832886,
      "learning_rate": 2e-05,
      "loss": 0.8094,
      "step": 4884
    },
    {
      "epoch": 1.6862271315153607,
      "grad_norm": 1.2459867000579834,
      "learning_rate": 2e-05,
      "loss": 0.8164,
      "step": 4885
    },
    {
      "epoch": 1.686572316189161,
      "grad_norm": 1.3093407154083252,
      "learning_rate": 2e-05,
      "loss": 0.7653,
      "step": 4886
    },
    {
      "epoch": 1.6869175008629615,
      "grad_norm": 1.4122107028961182,
      "learning_rate": 2e-05,
      "loss": 0.8485,
      "step": 4887
    },
    {
      "epoch": 1.687262685536762,
      "grad_norm": 1.2842390537261963,
      "learning_rate": 2e-05,
      "loss": 0.7664,
      "step": 4888
    },
    {
      "epoch": 1.6876078702105626,
      "grad_norm": 1.1235485076904297,
      "learning_rate": 2e-05,
      "loss": 0.7318,
      "step": 4889
    },
    {
      "epoch": 1.687953054884363,
      "grad_norm": 1.3070521354675293,
      "learning_rate": 2e-05,
      "loss": 0.7313,
      "step": 4890
    },
    {
      "epoch": 1.6882982395581636,
      "grad_norm": 1.1629513502120972,
      "learning_rate": 2e-05,
      "loss": 0.8149,
      "step": 4891
    },
    {
      "epoch": 1.6886434242319641,
      "grad_norm": 1.203322410583496,
      "learning_rate": 2e-05,
      "loss": 0.7827,
      "step": 4892
    },
    {
      "epoch": 1.6889886089057646,
      "grad_norm": 1.3037347793579102,
      "learning_rate": 2e-05,
      "loss": 0.7295,
      "step": 4893
    },
    {
      "epoch": 1.6893337935795651,
      "grad_norm": 1.198765754699707,
      "learning_rate": 2e-05,
      "loss": 0.7563,
      "step": 4894
    },
    {
      "epoch": 1.6896789782533657,
      "grad_norm": 1.3429467678070068,
      "learning_rate": 2e-05,
      "loss": 0.7927,
      "step": 4895
    },
    {
      "epoch": 1.6900241629271662,
      "grad_norm": 1.1606234312057495,
      "learning_rate": 2e-05,
      "loss": 0.7696,
      "step": 4896
    },
    {
      "epoch": 1.6903693476009665,
      "grad_norm": 1.4101779460906982,
      "learning_rate": 2e-05,
      "loss": 0.7206,
      "step": 4897
    },
    {
      "epoch": 1.690714532274767,
      "grad_norm": 1.242946982383728,
      "learning_rate": 2e-05,
      "loss": 0.6625,
      "step": 4898
    },
    {
      "epoch": 1.6910597169485675,
      "grad_norm": 1.2842521667480469,
      "learning_rate": 2e-05,
      "loss": 0.7616,
      "step": 4899
    },
    {
      "epoch": 1.691404901622368,
      "grad_norm": 1.2609858512878418,
      "learning_rate": 2e-05,
      "loss": 0.7868,
      "step": 4900
    },
    {
      "epoch": 1.6917500862961683,
      "grad_norm": 1.3587706089019775,
      "learning_rate": 2e-05,
      "loss": 0.7377,
      "step": 4901
    },
    {
      "epoch": 1.6920952709699688,
      "grad_norm": 1.2809088230133057,
      "learning_rate": 2e-05,
      "loss": 0.8049,
      "step": 4902
    },
    {
      "epoch": 1.6924404556437693,
      "grad_norm": 1.2933367490768433,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 4903
    },
    {
      "epoch": 1.6927856403175698,
      "grad_norm": 1.3172551393508911,
      "learning_rate": 2e-05,
      "loss": 0.6602,
      "step": 4904
    },
    {
      "epoch": 1.6931308249913704,
      "grad_norm": 1.2643944025039673,
      "learning_rate": 2e-05,
      "loss": 0.7206,
      "step": 4905
    },
    {
      "epoch": 1.6934760096651709,
      "grad_norm": 1.4970685243606567,
      "learning_rate": 2e-05,
      "loss": 0.7676,
      "step": 4906
    },
    {
      "epoch": 1.6938211943389714,
      "grad_norm": 1.3460882902145386,
      "learning_rate": 2e-05,
      "loss": 0.8453,
      "step": 4907
    },
    {
      "epoch": 1.694166379012772,
      "grad_norm": 1.370487093925476,
      "learning_rate": 2e-05,
      "loss": 0.8062,
      "step": 4908
    },
    {
      "epoch": 1.6945115636865724,
      "grad_norm": 1.3926712274551392,
      "learning_rate": 2e-05,
      "loss": 0.744,
      "step": 4909
    },
    {
      "epoch": 1.694856748360373,
      "grad_norm": 1.0773793458938599,
      "learning_rate": 2e-05,
      "loss": 0.7117,
      "step": 4910
    },
    {
      "epoch": 1.6952019330341734,
      "grad_norm": 1.2868584394454956,
      "learning_rate": 2e-05,
      "loss": 0.7474,
      "step": 4911
    },
    {
      "epoch": 1.6955471177079737,
      "grad_norm": 1.2944589853286743,
      "learning_rate": 2e-05,
      "loss": 0.7548,
      "step": 4912
    },
    {
      "epoch": 1.6958923023817742,
      "grad_norm": 1.2231357097625732,
      "learning_rate": 2e-05,
      "loss": 0.7239,
      "step": 4913
    },
    {
      "epoch": 1.6962374870555748,
      "grad_norm": 1.3053280115127563,
      "learning_rate": 2e-05,
      "loss": 0.7358,
      "step": 4914
    },
    {
      "epoch": 1.6965826717293753,
      "grad_norm": 1.1937099695205688,
      "learning_rate": 2e-05,
      "loss": 0.7612,
      "step": 4915
    },
    {
      "epoch": 1.6969278564031756,
      "grad_norm": 1.2876288890838623,
      "learning_rate": 2e-05,
      "loss": 0.7763,
      "step": 4916
    },
    {
      "epoch": 1.697273041076976,
      "grad_norm": 1.3145780563354492,
      "learning_rate": 2e-05,
      "loss": 0.7462,
      "step": 4917
    },
    {
      "epoch": 1.6976182257507766,
      "grad_norm": 1.2907408475875854,
      "learning_rate": 2e-05,
      "loss": 0.709,
      "step": 4918
    },
    {
      "epoch": 1.697963410424577,
      "grad_norm": 1.2353928089141846,
      "learning_rate": 2e-05,
      "loss": 0.7385,
      "step": 4919
    },
    {
      "epoch": 1.6983085950983776,
      "grad_norm": 1.245771884918213,
      "learning_rate": 2e-05,
      "loss": 0.7236,
      "step": 4920
    },
    {
      "epoch": 1.6986537797721781,
      "grad_norm": 1.3632806539535522,
      "learning_rate": 2e-05,
      "loss": 0.7193,
      "step": 4921
    },
    {
      "epoch": 1.6989989644459786,
      "grad_norm": 1.234557867050171,
      "learning_rate": 2e-05,
      "loss": 0.7726,
      "step": 4922
    },
    {
      "epoch": 1.6993441491197792,
      "grad_norm": 1.4389259815216064,
      "learning_rate": 2e-05,
      "loss": 0.765,
      "step": 4923
    },
    {
      "epoch": 1.6996893337935797,
      "grad_norm": 1.1188369989395142,
      "learning_rate": 2e-05,
      "loss": 0.7582,
      "step": 4924
    },
    {
      "epoch": 1.7000345184673802,
      "grad_norm": 1.3148096799850464,
      "learning_rate": 2e-05,
      "loss": 0.7312,
      "step": 4925
    },
    {
      "epoch": 1.7003797031411805,
      "grad_norm": 1.2550779581069946,
      "learning_rate": 2e-05,
      "loss": 0.8432,
      "step": 4926
    },
    {
      "epoch": 1.700724887814981,
      "grad_norm": 1.1867457628250122,
      "learning_rate": 2e-05,
      "loss": 0.7352,
      "step": 4927
    },
    {
      "epoch": 1.7010700724887815,
      "grad_norm": 1.212850570678711,
      "learning_rate": 2e-05,
      "loss": 0.7884,
      "step": 4928
    },
    {
      "epoch": 1.701415257162582,
      "grad_norm": 1.2773865461349487,
      "learning_rate": 2e-05,
      "loss": 0.8146,
      "step": 4929
    },
    {
      "epoch": 1.7017604418363823,
      "grad_norm": 1.3407787084579468,
      "learning_rate": 2e-05,
      "loss": 0.7547,
      "step": 4930
    },
    {
      "epoch": 1.7021056265101828,
      "grad_norm": 1.2248016595840454,
      "learning_rate": 2e-05,
      "loss": 0.7169,
      "step": 4931
    },
    {
      "epoch": 1.7024508111839833,
      "grad_norm": 1.2593344449996948,
      "learning_rate": 2e-05,
      "loss": 0.7785,
      "step": 4932
    },
    {
      "epoch": 1.7027959958577839,
      "grad_norm": 1.3944956064224243,
      "learning_rate": 2e-05,
      "loss": 0.7772,
      "step": 4933
    },
    {
      "epoch": 1.7031411805315844,
      "grad_norm": 1.2157598733901978,
      "learning_rate": 2e-05,
      "loss": 0.7031,
      "step": 4934
    },
    {
      "epoch": 1.7034863652053849,
      "grad_norm": 1.219918966293335,
      "learning_rate": 2e-05,
      "loss": 0.68,
      "step": 4935
    },
    {
      "epoch": 1.7038315498791854,
      "grad_norm": 1.3474057912826538,
      "learning_rate": 2e-05,
      "loss": 0.7573,
      "step": 4936
    },
    {
      "epoch": 1.704176734552986,
      "grad_norm": 1.427032470703125,
      "learning_rate": 2e-05,
      "loss": 0.7962,
      "step": 4937
    },
    {
      "epoch": 1.7045219192267864,
      "grad_norm": 1.270851731300354,
      "learning_rate": 2e-05,
      "loss": 0.791,
      "step": 4938
    },
    {
      "epoch": 1.704867103900587,
      "grad_norm": 1.308566927909851,
      "learning_rate": 2e-05,
      "loss": 0.7015,
      "step": 4939
    },
    {
      "epoch": 1.7052122885743874,
      "grad_norm": 1.3501882553100586,
      "learning_rate": 2e-05,
      "loss": 0.8251,
      "step": 4940
    },
    {
      "epoch": 1.7055574732481877,
      "grad_norm": 1.2820640802383423,
      "learning_rate": 2e-05,
      "loss": 0.7786,
      "step": 4941
    },
    {
      "epoch": 1.7059026579219883,
      "grad_norm": 1.234452486038208,
      "learning_rate": 2e-05,
      "loss": 0.7291,
      "step": 4942
    },
    {
      "epoch": 1.7062478425957888,
      "grad_norm": 1.2418572902679443,
      "learning_rate": 2e-05,
      "loss": 0.734,
      "step": 4943
    },
    {
      "epoch": 1.7065930272695893,
      "grad_norm": 1.176390290260315,
      "learning_rate": 2e-05,
      "loss": 0.7206,
      "step": 4944
    },
    {
      "epoch": 1.7069382119433896,
      "grad_norm": 1.1944791078567505,
      "learning_rate": 2e-05,
      "loss": 0.7181,
      "step": 4945
    },
    {
      "epoch": 1.70728339661719,
      "grad_norm": 1.2103893756866455,
      "learning_rate": 2e-05,
      "loss": 0.8157,
      "step": 4946
    },
    {
      "epoch": 1.7076285812909906,
      "grad_norm": 1.187684416770935,
      "learning_rate": 2e-05,
      "loss": 0.7589,
      "step": 4947
    },
    {
      "epoch": 1.7079737659647911,
      "grad_norm": 1.5303913354873657,
      "learning_rate": 2e-05,
      "loss": 0.7531,
      "step": 4948
    },
    {
      "epoch": 1.7083189506385916,
      "grad_norm": 1.2574865818023682,
      "learning_rate": 2e-05,
      "loss": 0.7337,
      "step": 4949
    },
    {
      "epoch": 1.7086641353123921,
      "grad_norm": 1.2737398147583008,
      "learning_rate": 2e-05,
      "loss": 0.7695,
      "step": 4950
    },
    {
      "epoch": 1.7090093199861927,
      "grad_norm": 1.1631748676300049,
      "learning_rate": 2e-05,
      "loss": 0.7918,
      "step": 4951
    },
    {
      "epoch": 1.7093545046599932,
      "grad_norm": 1.3002550601959229,
      "learning_rate": 2e-05,
      "loss": 0.757,
      "step": 4952
    },
    {
      "epoch": 1.7096996893337937,
      "grad_norm": 1.1866761445999146,
      "learning_rate": 2e-05,
      "loss": 0.7522,
      "step": 4953
    },
    {
      "epoch": 1.7100448740075942,
      "grad_norm": 1.2235500812530518,
      "learning_rate": 2e-05,
      "loss": 0.8261,
      "step": 4954
    },
    {
      "epoch": 1.7103900586813947,
      "grad_norm": 1.298922061920166,
      "learning_rate": 2e-05,
      "loss": 0.7988,
      "step": 4955
    },
    {
      "epoch": 1.710735243355195,
      "grad_norm": 1.3241549730300903,
      "learning_rate": 2e-05,
      "loss": 0.8066,
      "step": 4956
    },
    {
      "epoch": 1.7110804280289955,
      "grad_norm": 1.2789146900177002,
      "learning_rate": 2e-05,
      "loss": 0.7266,
      "step": 4957
    },
    {
      "epoch": 1.711425612702796,
      "grad_norm": 1.1496546268463135,
      "learning_rate": 2e-05,
      "loss": 0.8315,
      "step": 4958
    },
    {
      "epoch": 1.7117707973765963,
      "grad_norm": 1.3164833784103394,
      "learning_rate": 2e-05,
      "loss": 0.7758,
      "step": 4959
    },
    {
      "epoch": 1.7121159820503968,
      "grad_norm": 1.205501675605774,
      "learning_rate": 2e-05,
      "loss": 0.6596,
      "step": 4960
    },
    {
      "epoch": 1.7124611667241973,
      "grad_norm": 1.2924697399139404,
      "learning_rate": 2e-05,
      "loss": 0.7324,
      "step": 4961
    },
    {
      "epoch": 1.7128063513979979,
      "grad_norm": 1.288447618484497,
      "learning_rate": 2e-05,
      "loss": 0.8075,
      "step": 4962
    },
    {
      "epoch": 1.7131515360717984,
      "grad_norm": 1.2009657621383667,
      "learning_rate": 2e-05,
      "loss": 0.6964,
      "step": 4963
    },
    {
      "epoch": 1.713496720745599,
      "grad_norm": 1.2506088018417358,
      "learning_rate": 2e-05,
      "loss": 0.6459,
      "step": 4964
    },
    {
      "epoch": 1.7138419054193994,
      "grad_norm": 1.287015676498413,
      "learning_rate": 2e-05,
      "loss": 0.7598,
      "step": 4965
    },
    {
      "epoch": 1.7141870900932,
      "grad_norm": 1.1716725826263428,
      "learning_rate": 2e-05,
      "loss": 0.7953,
      "step": 4966
    },
    {
      "epoch": 1.7145322747670004,
      "grad_norm": 1.3297924995422363,
      "learning_rate": 2e-05,
      "loss": 0.7822,
      "step": 4967
    },
    {
      "epoch": 1.714877459440801,
      "grad_norm": 1.3717496395111084,
      "learning_rate": 2e-05,
      "loss": 0.793,
      "step": 4968
    },
    {
      "epoch": 1.7152226441146015,
      "grad_norm": 1.2694180011749268,
      "learning_rate": 2e-05,
      "loss": 0.7764,
      "step": 4969
    },
    {
      "epoch": 1.7155678287884017,
      "grad_norm": 1.1567308902740479,
      "learning_rate": 2e-05,
      "loss": 0.6726,
      "step": 4970
    },
    {
      "epoch": 1.7159130134622023,
      "grad_norm": 1.091450810432434,
      "learning_rate": 2e-05,
      "loss": 0.7545,
      "step": 4971
    },
    {
      "epoch": 1.7162581981360028,
      "grad_norm": 1.2512999773025513,
      "learning_rate": 2e-05,
      "loss": 0.8651,
      "step": 4972
    },
    {
      "epoch": 1.7166033828098033,
      "grad_norm": 1.3638818264007568,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 4973
    },
    {
      "epoch": 1.7169485674836036,
      "grad_norm": 1.3164576292037964,
      "learning_rate": 2e-05,
      "loss": 0.8237,
      "step": 4974
    },
    {
      "epoch": 1.717293752157404,
      "grad_norm": 1.2854505777359009,
      "learning_rate": 2e-05,
      "loss": 0.7456,
      "step": 4975
    },
    {
      "epoch": 1.7176389368312046,
      "grad_norm": 1.1968575716018677,
      "learning_rate": 2e-05,
      "loss": 0.7335,
      "step": 4976
    },
    {
      "epoch": 1.7179841215050051,
      "grad_norm": 1.2560828924179077,
      "learning_rate": 2e-05,
      "loss": 0.7293,
      "step": 4977
    },
    {
      "epoch": 1.7183293061788056,
      "grad_norm": 1.2817248106002808,
      "learning_rate": 2e-05,
      "loss": 0.7544,
      "step": 4978
    },
    {
      "epoch": 1.7186744908526062,
      "grad_norm": 1.1054595708847046,
      "learning_rate": 2e-05,
      "loss": 0.7457,
      "step": 4979
    },
    {
      "epoch": 1.7190196755264067,
      "grad_norm": 1.2496010065078735,
      "learning_rate": 2e-05,
      "loss": 0.7837,
      "step": 4980
    },
    {
      "epoch": 1.7193648602002072,
      "grad_norm": 1.283382773399353,
      "learning_rate": 2e-05,
      "loss": 0.7757,
      "step": 4981
    },
    {
      "epoch": 1.7197100448740077,
      "grad_norm": 1.2635797262191772,
      "learning_rate": 2e-05,
      "loss": 0.8432,
      "step": 4982
    },
    {
      "epoch": 1.7200552295478082,
      "grad_norm": 1.2761406898498535,
      "learning_rate": 2e-05,
      "loss": 0.7891,
      "step": 4983
    },
    {
      "epoch": 1.7204004142216087,
      "grad_norm": 1.287886619567871,
      "learning_rate": 2e-05,
      "loss": 0.7672,
      "step": 4984
    },
    {
      "epoch": 1.720745598895409,
      "grad_norm": 1.2914005517959595,
      "learning_rate": 2e-05,
      "loss": 0.7613,
      "step": 4985
    },
    {
      "epoch": 1.7210907835692095,
      "grad_norm": 1.1705658435821533,
      "learning_rate": 2e-05,
      "loss": 0.6574,
      "step": 4986
    },
    {
      "epoch": 1.72143596824301,
      "grad_norm": 1.389042615890503,
      "learning_rate": 2e-05,
      "loss": 0.7204,
      "step": 4987
    },
    {
      "epoch": 1.7217811529168103,
      "grad_norm": 1.3186745643615723,
      "learning_rate": 2e-05,
      "loss": 0.7459,
      "step": 4988
    },
    {
      "epoch": 1.7221263375906108,
      "grad_norm": 1.1717864274978638,
      "learning_rate": 2e-05,
      "loss": 0.7077,
      "step": 4989
    },
    {
      "epoch": 1.7224715222644114,
      "grad_norm": 1.1573480367660522,
      "learning_rate": 2e-05,
      "loss": 0.7172,
      "step": 4990
    },
    {
      "epoch": 1.7228167069382119,
      "grad_norm": 1.28749418258667,
      "learning_rate": 2e-05,
      "loss": 0.7632,
      "step": 4991
    },
    {
      "epoch": 1.7231618916120124,
      "grad_norm": 1.2197104692459106,
      "learning_rate": 2e-05,
      "loss": 0.7337,
      "step": 4992
    },
    {
      "epoch": 1.723507076285813,
      "grad_norm": 1.205116629600525,
      "learning_rate": 2e-05,
      "loss": 0.766,
      "step": 4993
    },
    {
      "epoch": 1.7238522609596134,
      "grad_norm": 1.2227368354797363,
      "learning_rate": 2e-05,
      "loss": 0.7395,
      "step": 4994
    },
    {
      "epoch": 1.724197445633414,
      "grad_norm": 1.68984854221344,
      "learning_rate": 2e-05,
      "loss": 0.7891,
      "step": 4995
    },
    {
      "epoch": 1.7245426303072144,
      "grad_norm": 1.2683767080307007,
      "learning_rate": 2e-05,
      "loss": 0.7193,
      "step": 4996
    },
    {
      "epoch": 1.724887814981015,
      "grad_norm": 1.2339273691177368,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 4997
    },
    {
      "epoch": 1.7252329996548155,
      "grad_norm": 1.1883717775344849,
      "learning_rate": 2e-05,
      "loss": 0.7274,
      "step": 4998
    },
    {
      "epoch": 1.7255781843286158,
      "grad_norm": 1.2979166507720947,
      "learning_rate": 2e-05,
      "loss": 0.7583,
      "step": 4999
    },
    {
      "epoch": 1.7259233690024163,
      "grad_norm": 1.1676586866378784,
      "learning_rate": 2e-05,
      "loss": 0.7186,
      "step": 5000
    },
    {
      "epoch": 1.7262685536762168,
      "grad_norm": 1.2103641033172607,
      "learning_rate": 2e-05,
      "loss": 0.7795,
      "step": 5001
    },
    {
      "epoch": 1.7266137383500173,
      "grad_norm": 1.3766367435455322,
      "learning_rate": 2e-05,
      "loss": 0.7303,
      "step": 5002
    },
    {
      "epoch": 1.7269589230238176,
      "grad_norm": 1.2193701267242432,
      "learning_rate": 2e-05,
      "loss": 0.6925,
      "step": 5003
    },
    {
      "epoch": 1.727304107697618,
      "grad_norm": 1.2046066522598267,
      "learning_rate": 2e-05,
      "loss": 0.7985,
      "step": 5004
    },
    {
      "epoch": 1.7276492923714186,
      "grad_norm": 1.106970191001892,
      "learning_rate": 2e-05,
      "loss": 0.7248,
      "step": 5005
    },
    {
      "epoch": 1.7279944770452191,
      "grad_norm": 1.242828607559204,
      "learning_rate": 2e-05,
      "loss": 0.7065,
      "step": 5006
    },
    {
      "epoch": 1.7283396617190196,
      "grad_norm": 1.3087959289550781,
      "learning_rate": 2e-05,
      "loss": 0.7539,
      "step": 5007
    },
    {
      "epoch": 1.7286848463928202,
      "grad_norm": 1.9703856706619263,
      "learning_rate": 2e-05,
      "loss": 0.7517,
      "step": 5008
    },
    {
      "epoch": 1.7290300310666207,
      "grad_norm": 1.1873077154159546,
      "learning_rate": 2e-05,
      "loss": 0.7071,
      "step": 5009
    },
    {
      "epoch": 1.7293752157404212,
      "grad_norm": 1.3763378858566284,
      "learning_rate": 2e-05,
      "loss": 0.8278,
      "step": 5010
    },
    {
      "epoch": 1.7297204004142217,
      "grad_norm": 1.3564703464508057,
      "learning_rate": 2e-05,
      "loss": 0.7515,
      "step": 5011
    },
    {
      "epoch": 1.7300655850880222,
      "grad_norm": 1.3195852041244507,
      "learning_rate": 2e-05,
      "loss": 0.8062,
      "step": 5012
    },
    {
      "epoch": 1.7304107697618227,
      "grad_norm": 1.1545448303222656,
      "learning_rate": 2e-05,
      "loss": 0.7715,
      "step": 5013
    },
    {
      "epoch": 1.730755954435623,
      "grad_norm": 1.243609070777893,
      "learning_rate": 2e-05,
      "loss": 0.7173,
      "step": 5014
    },
    {
      "epoch": 1.7311011391094235,
      "grad_norm": 1.2868963479995728,
      "learning_rate": 2e-05,
      "loss": 0.79,
      "step": 5015
    },
    {
      "epoch": 1.731446323783224,
      "grad_norm": 1.229810357093811,
      "learning_rate": 2e-05,
      "loss": 0.7544,
      "step": 5016
    },
    {
      "epoch": 1.7317915084570243,
      "grad_norm": 1.1644153594970703,
      "learning_rate": 2e-05,
      "loss": 0.7508,
      "step": 5017
    },
    {
      "epoch": 1.7321366931308249,
      "grad_norm": 1.3246997594833374,
      "learning_rate": 2e-05,
      "loss": 0.7216,
      "step": 5018
    },
    {
      "epoch": 1.7324818778046254,
      "grad_norm": 1.2714861631393433,
      "learning_rate": 2e-05,
      "loss": 0.7013,
      "step": 5019
    },
    {
      "epoch": 1.7328270624784259,
      "grad_norm": 1.3408945798873901,
      "learning_rate": 2e-05,
      "loss": 0.8014,
      "step": 5020
    },
    {
      "epoch": 1.7331722471522264,
      "grad_norm": 1.2874526977539062,
      "learning_rate": 2e-05,
      "loss": 0.7462,
      "step": 5021
    },
    {
      "epoch": 1.733517431826027,
      "grad_norm": 1.2048041820526123,
      "learning_rate": 2e-05,
      "loss": 0.7724,
      "step": 5022
    },
    {
      "epoch": 1.7338626164998274,
      "grad_norm": 1.2528327703475952,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 5023
    },
    {
      "epoch": 1.734207801173628,
      "grad_norm": 1.1941078901290894,
      "learning_rate": 2e-05,
      "loss": 0.7602,
      "step": 5024
    },
    {
      "epoch": 1.7345529858474285,
      "grad_norm": 1.5734490156173706,
      "learning_rate": 2e-05,
      "loss": 0.7896,
      "step": 5025
    },
    {
      "epoch": 1.734898170521229,
      "grad_norm": 1.2631031274795532,
      "learning_rate": 2e-05,
      "loss": 0.7441,
      "step": 5026
    },
    {
      "epoch": 1.7352433551950295,
      "grad_norm": 1.277951717376709,
      "learning_rate": 2e-05,
      "loss": 0.7689,
      "step": 5027
    },
    {
      "epoch": 1.7355885398688298,
      "grad_norm": 1.2476437091827393,
      "learning_rate": 2e-05,
      "loss": 0.7607,
      "step": 5028
    },
    {
      "epoch": 1.7359337245426303,
      "grad_norm": 1.1513757705688477,
      "learning_rate": 2e-05,
      "loss": 0.694,
      "step": 5029
    },
    {
      "epoch": 1.7362789092164308,
      "grad_norm": 1.2062535285949707,
      "learning_rate": 2e-05,
      "loss": 0.8342,
      "step": 5030
    },
    {
      "epoch": 1.7366240938902313,
      "grad_norm": 1.208353042602539,
      "learning_rate": 2e-05,
      "loss": 0.7189,
      "step": 5031
    },
    {
      "epoch": 1.7369692785640316,
      "grad_norm": 1.1790777444839478,
      "learning_rate": 2e-05,
      "loss": 0.6946,
      "step": 5032
    },
    {
      "epoch": 1.7373144632378321,
      "grad_norm": 1.1265555620193481,
      "learning_rate": 2e-05,
      "loss": 0.7465,
      "step": 5033
    },
    {
      "epoch": 1.7376596479116326,
      "grad_norm": 1.2596784830093384,
      "learning_rate": 2e-05,
      "loss": 0.7648,
      "step": 5034
    },
    {
      "epoch": 1.7380048325854331,
      "grad_norm": 1.2540290355682373,
      "learning_rate": 2e-05,
      "loss": 0.7909,
      "step": 5035
    },
    {
      "epoch": 1.7383500172592337,
      "grad_norm": 1.227267861366272,
      "learning_rate": 2e-05,
      "loss": 0.7367,
      "step": 5036
    },
    {
      "epoch": 1.7386952019330342,
      "grad_norm": 1.3292464017868042,
      "learning_rate": 2e-05,
      "loss": 0.7388,
      "step": 5037
    },
    {
      "epoch": 1.7390403866068347,
      "grad_norm": 1.236393690109253,
      "learning_rate": 2e-05,
      "loss": 0.7296,
      "step": 5038
    },
    {
      "epoch": 1.7393855712806352,
      "grad_norm": 1.3128365278244019,
      "learning_rate": 2e-05,
      "loss": 0.7708,
      "step": 5039
    },
    {
      "epoch": 1.7397307559544357,
      "grad_norm": 1.067940354347229,
      "learning_rate": 2e-05,
      "loss": 0.7334,
      "step": 5040
    },
    {
      "epoch": 1.7400759406282362,
      "grad_norm": 1.1776219606399536,
      "learning_rate": 2e-05,
      "loss": 0.776,
      "step": 5041
    },
    {
      "epoch": 1.7404211253020367,
      "grad_norm": 1.333391785621643,
      "learning_rate": 2e-05,
      "loss": 0.7404,
      "step": 5042
    },
    {
      "epoch": 1.740766309975837,
      "grad_norm": 1.1776459217071533,
      "learning_rate": 2e-05,
      "loss": 0.7649,
      "step": 5043
    },
    {
      "epoch": 1.7411114946496375,
      "grad_norm": 1.4470824003219604,
      "learning_rate": 2e-05,
      "loss": 0.6908,
      "step": 5044
    },
    {
      "epoch": 1.741456679323438,
      "grad_norm": 1.152015209197998,
      "learning_rate": 2e-05,
      "loss": 0.7907,
      "step": 5045
    },
    {
      "epoch": 1.7418018639972386,
      "grad_norm": 1.1736176013946533,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 5046
    },
    {
      "epoch": 1.7421470486710389,
      "grad_norm": 1.2607500553131104,
      "learning_rate": 2e-05,
      "loss": 0.7875,
      "step": 5047
    },
    {
      "epoch": 1.7424922333448394,
      "grad_norm": 1.3005856275558472,
      "learning_rate": 2e-05,
      "loss": 0.789,
      "step": 5048
    },
    {
      "epoch": 1.74283741801864,
      "grad_norm": 1.2172871828079224,
      "learning_rate": 2e-05,
      "loss": 0.7536,
      "step": 5049
    },
    {
      "epoch": 1.7431826026924404,
      "grad_norm": 1.2731704711914062,
      "learning_rate": 2e-05,
      "loss": 0.8008,
      "step": 5050
    },
    {
      "epoch": 1.743527787366241,
      "grad_norm": 1.2074309587478638,
      "learning_rate": 2e-05,
      "loss": 0.7539,
      "step": 5051
    },
    {
      "epoch": 1.7438729720400414,
      "grad_norm": 1.3698182106018066,
      "learning_rate": 2e-05,
      "loss": 0.7394,
      "step": 5052
    },
    {
      "epoch": 1.744218156713842,
      "grad_norm": 1.188926339149475,
      "learning_rate": 2e-05,
      "loss": 0.7894,
      "step": 5053
    },
    {
      "epoch": 1.7445633413876425,
      "grad_norm": 1.2802358865737915,
      "learning_rate": 2e-05,
      "loss": 0.7899,
      "step": 5054
    },
    {
      "epoch": 1.744908526061443,
      "grad_norm": 1.156071424484253,
      "learning_rate": 2e-05,
      "loss": 0.6899,
      "step": 5055
    },
    {
      "epoch": 1.7452537107352435,
      "grad_norm": 1.3268153667449951,
      "learning_rate": 2e-05,
      "loss": 0.7983,
      "step": 5056
    },
    {
      "epoch": 1.745598895409044,
      "grad_norm": 1.275388240814209,
      "learning_rate": 2e-05,
      "loss": 0.7725,
      "step": 5057
    },
    {
      "epoch": 1.7459440800828443,
      "grad_norm": 1.2374415397644043,
      "learning_rate": 2e-05,
      "loss": 0.7615,
      "step": 5058
    },
    {
      "epoch": 1.7462892647566448,
      "grad_norm": 1.3031388521194458,
      "learning_rate": 2e-05,
      "loss": 0.734,
      "step": 5059
    },
    {
      "epoch": 1.7466344494304453,
      "grad_norm": 1.2304866313934326,
      "learning_rate": 2e-05,
      "loss": 0.8805,
      "step": 5060
    },
    {
      "epoch": 1.7469796341042456,
      "grad_norm": 1.2503561973571777,
      "learning_rate": 2e-05,
      "loss": 0.7748,
      "step": 5061
    },
    {
      "epoch": 1.7473248187780461,
      "grad_norm": 1.1402676105499268,
      "learning_rate": 2e-05,
      "loss": 0.7162,
      "step": 5062
    },
    {
      "epoch": 1.7476700034518466,
      "grad_norm": 1.2459592819213867,
      "learning_rate": 2e-05,
      "loss": 0.7421,
      "step": 5063
    },
    {
      "epoch": 1.7480151881256472,
      "grad_norm": 1.2930067777633667,
      "learning_rate": 2e-05,
      "loss": 0.8138,
      "step": 5064
    },
    {
      "epoch": 1.7483603727994477,
      "grad_norm": 1.2326017618179321,
      "learning_rate": 2e-05,
      "loss": 0.6884,
      "step": 5065
    },
    {
      "epoch": 1.7487055574732482,
      "grad_norm": 1.1573976278305054,
      "learning_rate": 2e-05,
      "loss": 0.8273,
      "step": 5066
    },
    {
      "epoch": 1.7490507421470487,
      "grad_norm": 1.2453659772872925,
      "learning_rate": 2e-05,
      "loss": 0.749,
      "step": 5067
    },
    {
      "epoch": 1.7493959268208492,
      "grad_norm": 1.4547792673110962,
      "learning_rate": 2e-05,
      "loss": 0.7945,
      "step": 5068
    },
    {
      "epoch": 1.7497411114946497,
      "grad_norm": 1.2708032131195068,
      "learning_rate": 2e-05,
      "loss": 0.7812,
      "step": 5069
    },
    {
      "epoch": 1.7500862961684502,
      "grad_norm": 1.3188362121582031,
      "learning_rate": 2e-05,
      "loss": 0.7927,
      "step": 5070
    },
    {
      "epoch": 1.7504314808422508,
      "grad_norm": 1.2729456424713135,
      "learning_rate": 2e-05,
      "loss": 0.7796,
      "step": 5071
    },
    {
      "epoch": 1.750776665516051,
      "grad_norm": 1.2648876905441284,
      "learning_rate": 2e-05,
      "loss": 0.7843,
      "step": 5072
    },
    {
      "epoch": 1.7511218501898516,
      "grad_norm": 1.2198070287704468,
      "learning_rate": 2e-05,
      "loss": 0.7361,
      "step": 5073
    },
    {
      "epoch": 1.751467034863652,
      "grad_norm": 1.169531226158142,
      "learning_rate": 2e-05,
      "loss": 0.7216,
      "step": 5074
    },
    {
      "epoch": 1.7518122195374526,
      "grad_norm": 1.2588720321655273,
      "learning_rate": 2e-05,
      "loss": 0.8029,
      "step": 5075
    },
    {
      "epoch": 1.7521574042112529,
      "grad_norm": 1.153448462486267,
      "learning_rate": 2e-05,
      "loss": 0.742,
      "step": 5076
    },
    {
      "epoch": 1.7525025888850534,
      "grad_norm": 1.1925029754638672,
      "learning_rate": 2e-05,
      "loss": 0.7157,
      "step": 5077
    },
    {
      "epoch": 1.752847773558854,
      "grad_norm": 1.147013783454895,
      "learning_rate": 2e-05,
      "loss": 0.7182,
      "step": 5078
    },
    {
      "epoch": 1.7531929582326544,
      "grad_norm": 1.3149091005325317,
      "learning_rate": 2e-05,
      "loss": 0.8106,
      "step": 5079
    },
    {
      "epoch": 1.753538142906455,
      "grad_norm": 1.2138566970825195,
      "learning_rate": 2e-05,
      "loss": 0.7714,
      "step": 5080
    },
    {
      "epoch": 1.7538833275802554,
      "grad_norm": 1.1464354991912842,
      "learning_rate": 2e-05,
      "loss": 0.7463,
      "step": 5081
    },
    {
      "epoch": 1.754228512254056,
      "grad_norm": 1.1905423402786255,
      "learning_rate": 2e-05,
      "loss": 0.7543,
      "step": 5082
    },
    {
      "epoch": 1.7545736969278565,
      "grad_norm": 1.1879805326461792,
      "learning_rate": 2e-05,
      "loss": 0.7987,
      "step": 5083
    },
    {
      "epoch": 1.754918881601657,
      "grad_norm": 1.4853968620300293,
      "learning_rate": 2e-05,
      "loss": 0.7901,
      "step": 5084
    },
    {
      "epoch": 1.7552640662754575,
      "grad_norm": 1.230271339416504,
      "learning_rate": 2e-05,
      "loss": 0.7527,
      "step": 5085
    },
    {
      "epoch": 1.755609250949258,
      "grad_norm": 1.2282153367996216,
      "learning_rate": 2e-05,
      "loss": 0.7708,
      "step": 5086
    },
    {
      "epoch": 1.7559544356230583,
      "grad_norm": 1.2438410520553589,
      "learning_rate": 2e-05,
      "loss": 0.7524,
      "step": 5087
    },
    {
      "epoch": 1.7562996202968588,
      "grad_norm": 1.134765863418579,
      "learning_rate": 2e-05,
      "loss": 0.7563,
      "step": 5088
    },
    {
      "epoch": 1.7566448049706593,
      "grad_norm": 1.3461360931396484,
      "learning_rate": 2e-05,
      "loss": 0.796,
      "step": 5089
    },
    {
      "epoch": 1.7569899896444596,
      "grad_norm": 1.2372207641601562,
      "learning_rate": 2e-05,
      "loss": 0.7281,
      "step": 5090
    },
    {
      "epoch": 1.7573351743182601,
      "grad_norm": 1.157556414604187,
      "learning_rate": 2e-05,
      "loss": 0.7648,
      "step": 5091
    },
    {
      "epoch": 1.7576803589920607,
      "grad_norm": 1.246762990951538,
      "learning_rate": 2e-05,
      "loss": 0.8115,
      "step": 5092
    },
    {
      "epoch": 1.7580255436658612,
      "grad_norm": 1.2755498886108398,
      "learning_rate": 2e-05,
      "loss": 0.762,
      "step": 5093
    },
    {
      "epoch": 1.7583707283396617,
      "grad_norm": 1.1981252431869507,
      "learning_rate": 2e-05,
      "loss": 0.7126,
      "step": 5094
    },
    {
      "epoch": 1.7587159130134622,
      "grad_norm": 1.3888368606567383,
      "learning_rate": 2e-05,
      "loss": 0.7805,
      "step": 5095
    },
    {
      "epoch": 1.7590610976872627,
      "grad_norm": 1.330428123474121,
      "learning_rate": 2e-05,
      "loss": 0.7112,
      "step": 5096
    },
    {
      "epoch": 1.7594062823610632,
      "grad_norm": 1.238553524017334,
      "learning_rate": 2e-05,
      "loss": 0.7706,
      "step": 5097
    },
    {
      "epoch": 1.7597514670348637,
      "grad_norm": 1.144129753112793,
      "learning_rate": 2e-05,
      "loss": 0.7174,
      "step": 5098
    },
    {
      "epoch": 1.7600966517086643,
      "grad_norm": 1.2052823305130005,
      "learning_rate": 2e-05,
      "loss": 0.8288,
      "step": 5099
    },
    {
      "epoch": 1.7604418363824648,
      "grad_norm": 1.2840741872787476,
      "learning_rate": 2e-05,
      "loss": 0.7083,
      "step": 5100
    },
    {
      "epoch": 1.760787021056265,
      "grad_norm": 1.4176560640335083,
      "learning_rate": 2e-05,
      "loss": 0.7479,
      "step": 5101
    },
    {
      "epoch": 1.7611322057300656,
      "grad_norm": 1.187872052192688,
      "learning_rate": 2e-05,
      "loss": 0.7636,
      "step": 5102
    },
    {
      "epoch": 1.761477390403866,
      "grad_norm": 1.1737849712371826,
      "learning_rate": 2e-05,
      "loss": 0.7006,
      "step": 5103
    },
    {
      "epoch": 1.7618225750776666,
      "grad_norm": 1.1693165302276611,
      "learning_rate": 2e-05,
      "loss": 0.8056,
      "step": 5104
    },
    {
      "epoch": 1.7621677597514669,
      "grad_norm": 1.2704648971557617,
      "learning_rate": 2e-05,
      "loss": 0.7426,
      "step": 5105
    },
    {
      "epoch": 1.7625129444252674,
      "grad_norm": 1.2074185609817505,
      "learning_rate": 2e-05,
      "loss": 0.8107,
      "step": 5106
    },
    {
      "epoch": 1.762858129099068,
      "grad_norm": 1.1205486059188843,
      "learning_rate": 2e-05,
      "loss": 0.7427,
      "step": 5107
    },
    {
      "epoch": 1.7632033137728684,
      "grad_norm": 1.2221752405166626,
      "learning_rate": 2e-05,
      "loss": 0.8032,
      "step": 5108
    },
    {
      "epoch": 1.763548498446669,
      "grad_norm": 1.3088186979293823,
      "learning_rate": 2e-05,
      "loss": 0.7856,
      "step": 5109
    },
    {
      "epoch": 1.7638936831204695,
      "grad_norm": 1.422784447669983,
      "learning_rate": 2e-05,
      "loss": 0.8193,
      "step": 5110
    },
    {
      "epoch": 1.76423886779427,
      "grad_norm": 1.1565049886703491,
      "learning_rate": 2e-05,
      "loss": 0.7487,
      "step": 5111
    },
    {
      "epoch": 1.7645840524680705,
      "grad_norm": 1.1512351036071777,
      "learning_rate": 2e-05,
      "loss": 0.7969,
      "step": 5112
    },
    {
      "epoch": 1.764929237141871,
      "grad_norm": 1.2694671154022217,
      "learning_rate": 2e-05,
      "loss": 0.7566,
      "step": 5113
    },
    {
      "epoch": 1.7652744218156715,
      "grad_norm": 1.3585749864578247,
      "learning_rate": 2e-05,
      "loss": 0.7514,
      "step": 5114
    },
    {
      "epoch": 1.765619606489472,
      "grad_norm": 1.2200632095336914,
      "learning_rate": 2e-05,
      "loss": 0.7213,
      "step": 5115
    },
    {
      "epoch": 1.7659647911632723,
      "grad_norm": 1.3086305856704712,
      "learning_rate": 2e-05,
      "loss": 0.7788,
      "step": 5116
    },
    {
      "epoch": 1.7663099758370728,
      "grad_norm": 1.3652818202972412,
      "learning_rate": 2e-05,
      "loss": 0.7946,
      "step": 5117
    },
    {
      "epoch": 1.7666551605108733,
      "grad_norm": 1.3083887100219727,
      "learning_rate": 2e-05,
      "loss": 0.7745,
      "step": 5118
    },
    {
      "epoch": 1.7670003451846736,
      "grad_norm": 1.2857807874679565,
      "learning_rate": 2e-05,
      "loss": 0.7127,
      "step": 5119
    },
    {
      "epoch": 1.7673455298584742,
      "grad_norm": 1.2175098657608032,
      "learning_rate": 2e-05,
      "loss": 0.7221,
      "step": 5120
    },
    {
      "epoch": 1.7676907145322747,
      "grad_norm": 1.3152234554290771,
      "learning_rate": 2e-05,
      "loss": 0.7629,
      "step": 5121
    },
    {
      "epoch": 1.7680358992060752,
      "grad_norm": 1.2990715503692627,
      "learning_rate": 2e-05,
      "loss": 0.7896,
      "step": 5122
    },
    {
      "epoch": 1.7683810838798757,
      "grad_norm": 1.4310011863708496,
      "learning_rate": 2e-05,
      "loss": 0.7675,
      "step": 5123
    },
    {
      "epoch": 1.7687262685536762,
      "grad_norm": 1.212995171546936,
      "learning_rate": 2e-05,
      "loss": 0.7788,
      "step": 5124
    },
    {
      "epoch": 1.7690714532274767,
      "grad_norm": 1.1379233598709106,
      "learning_rate": 2e-05,
      "loss": 0.6756,
      "step": 5125
    },
    {
      "epoch": 1.7694166379012772,
      "grad_norm": 1.3259233236312866,
      "learning_rate": 2e-05,
      "loss": 0.8001,
      "step": 5126
    },
    {
      "epoch": 1.7697618225750777,
      "grad_norm": 1.2983944416046143,
      "learning_rate": 2e-05,
      "loss": 0.7411,
      "step": 5127
    },
    {
      "epoch": 1.7701070072488783,
      "grad_norm": 1.2067034244537354,
      "learning_rate": 2e-05,
      "loss": 0.7733,
      "step": 5128
    },
    {
      "epoch": 1.7704521919226788,
      "grad_norm": 1.1914215087890625,
      "learning_rate": 2e-05,
      "loss": 0.777,
      "step": 5129
    },
    {
      "epoch": 1.770797376596479,
      "grad_norm": 1.1168060302734375,
      "learning_rate": 2e-05,
      "loss": 0.7365,
      "step": 5130
    },
    {
      "epoch": 1.7711425612702796,
      "grad_norm": 1.09300696849823,
      "learning_rate": 2e-05,
      "loss": 0.8037,
      "step": 5131
    },
    {
      "epoch": 1.77148774594408,
      "grad_norm": 1.2918574810028076,
      "learning_rate": 2e-05,
      "loss": 0.6952,
      "step": 5132
    },
    {
      "epoch": 1.7718329306178806,
      "grad_norm": 1.2495049238204956,
      "learning_rate": 2e-05,
      "loss": 0.7512,
      "step": 5133
    },
    {
      "epoch": 1.772178115291681,
      "grad_norm": 1.195353627204895,
      "learning_rate": 2e-05,
      "loss": 0.7464,
      "step": 5134
    },
    {
      "epoch": 1.7725232999654814,
      "grad_norm": 1.3298187255859375,
      "learning_rate": 2e-05,
      "loss": 0.7174,
      "step": 5135
    },
    {
      "epoch": 1.772868484639282,
      "grad_norm": 1.1849148273468018,
      "learning_rate": 2e-05,
      "loss": 0.7098,
      "step": 5136
    },
    {
      "epoch": 1.7732136693130824,
      "grad_norm": 1.176619052886963,
      "learning_rate": 2e-05,
      "loss": 0.7346,
      "step": 5137
    },
    {
      "epoch": 1.773558853986883,
      "grad_norm": 1.1990993022918701,
      "learning_rate": 2e-05,
      "loss": 0.7482,
      "step": 5138
    },
    {
      "epoch": 1.7739040386606835,
      "grad_norm": 1.1546705961227417,
      "learning_rate": 2e-05,
      "loss": 0.7493,
      "step": 5139
    },
    {
      "epoch": 1.774249223334484,
      "grad_norm": 1.1837950944900513,
      "learning_rate": 2e-05,
      "loss": 0.7237,
      "step": 5140
    },
    {
      "epoch": 1.7745944080082845,
      "grad_norm": 1.3307700157165527,
      "learning_rate": 2e-05,
      "loss": 0.6708,
      "step": 5141
    },
    {
      "epoch": 1.774939592682085,
      "grad_norm": 1.2571840286254883,
      "learning_rate": 2e-05,
      "loss": 0.7513,
      "step": 5142
    },
    {
      "epoch": 1.7752847773558855,
      "grad_norm": 1.2005362510681152,
      "learning_rate": 2e-05,
      "loss": 0.7554,
      "step": 5143
    },
    {
      "epoch": 1.775629962029686,
      "grad_norm": 1.247898817062378,
      "learning_rate": 2e-05,
      "loss": 0.7582,
      "step": 5144
    },
    {
      "epoch": 1.7759751467034863,
      "grad_norm": 1.2331660985946655,
      "learning_rate": 2e-05,
      "loss": 0.6674,
      "step": 5145
    },
    {
      "epoch": 1.7763203313772868,
      "grad_norm": 1.3538297414779663,
      "learning_rate": 2e-05,
      "loss": 0.7023,
      "step": 5146
    },
    {
      "epoch": 1.7766655160510874,
      "grad_norm": 1.4028394222259521,
      "learning_rate": 2e-05,
      "loss": 0.7958,
      "step": 5147
    },
    {
      "epoch": 1.7770107007248876,
      "grad_norm": 1.2596299648284912,
      "learning_rate": 2e-05,
      "loss": 0.7616,
      "step": 5148
    },
    {
      "epoch": 1.7773558853986882,
      "grad_norm": 1.2604961395263672,
      "learning_rate": 2e-05,
      "loss": 0.7366,
      "step": 5149
    },
    {
      "epoch": 1.7777010700724887,
      "grad_norm": 1.317553997039795,
      "learning_rate": 2e-05,
      "loss": 0.702,
      "step": 5150
    },
    {
      "epoch": 1.7780462547462892,
      "grad_norm": 1.1579868793487549,
      "learning_rate": 2e-05,
      "loss": 0.7899,
      "step": 5151
    },
    {
      "epoch": 1.7783914394200897,
      "grad_norm": 1.2512041330337524,
      "learning_rate": 2e-05,
      "loss": 0.7982,
      "step": 5152
    },
    {
      "epoch": 1.7787366240938902,
      "grad_norm": 1.4837819337844849,
      "learning_rate": 2e-05,
      "loss": 0.7422,
      "step": 5153
    },
    {
      "epoch": 1.7790818087676907,
      "grad_norm": 1.3246427774429321,
      "learning_rate": 2e-05,
      "loss": 0.7993,
      "step": 5154
    },
    {
      "epoch": 1.7794269934414912,
      "grad_norm": 1.266103744506836,
      "learning_rate": 2e-05,
      "loss": 0.7217,
      "step": 5155
    },
    {
      "epoch": 1.7797721781152918,
      "grad_norm": 1.4847822189331055,
      "learning_rate": 2e-05,
      "loss": 0.7291,
      "step": 5156
    },
    {
      "epoch": 1.7801173627890923,
      "grad_norm": 1.2701175212860107,
      "learning_rate": 2e-05,
      "loss": 0.7382,
      "step": 5157
    },
    {
      "epoch": 1.7804625474628928,
      "grad_norm": 1.2889524698257446,
      "learning_rate": 2e-05,
      "loss": 0.7054,
      "step": 5158
    },
    {
      "epoch": 1.780807732136693,
      "grad_norm": 1.265771508216858,
      "learning_rate": 2e-05,
      "loss": 0.7556,
      "step": 5159
    },
    {
      "epoch": 1.7811529168104936,
      "grad_norm": 1.35184907913208,
      "learning_rate": 2e-05,
      "loss": 0.8153,
      "step": 5160
    },
    {
      "epoch": 1.781498101484294,
      "grad_norm": 1.2203489542007446,
      "learning_rate": 2e-05,
      "loss": 0.7009,
      "step": 5161
    },
    {
      "epoch": 1.7818432861580946,
      "grad_norm": 1.3088387250900269,
      "learning_rate": 2e-05,
      "loss": 0.7269,
      "step": 5162
    },
    {
      "epoch": 1.782188470831895,
      "grad_norm": 1.2363412380218506,
      "learning_rate": 2e-05,
      "loss": 0.7741,
      "step": 5163
    },
    {
      "epoch": 1.7825336555056954,
      "grad_norm": 1.296801209449768,
      "learning_rate": 2e-05,
      "loss": 0.8282,
      "step": 5164
    },
    {
      "epoch": 1.782878840179496,
      "grad_norm": 1.347928762435913,
      "learning_rate": 2e-05,
      "loss": 0.8377,
      "step": 5165
    },
    {
      "epoch": 1.7832240248532965,
      "grad_norm": 1.2622132301330566,
      "learning_rate": 2e-05,
      "loss": 0.7745,
      "step": 5166
    },
    {
      "epoch": 1.783569209527097,
      "grad_norm": 1.2640655040740967,
      "learning_rate": 2e-05,
      "loss": 0.7471,
      "step": 5167
    },
    {
      "epoch": 1.7839143942008975,
      "grad_norm": 1.2719534635543823,
      "learning_rate": 2e-05,
      "loss": 0.7687,
      "step": 5168
    },
    {
      "epoch": 1.784259578874698,
      "grad_norm": 1.4015463590621948,
      "learning_rate": 2e-05,
      "loss": 0.7479,
      "step": 5169
    },
    {
      "epoch": 1.7846047635484985,
      "grad_norm": 1.3332940340042114,
      "learning_rate": 2e-05,
      "loss": 0.7673,
      "step": 5170
    },
    {
      "epoch": 1.784949948222299,
      "grad_norm": 1.3368483781814575,
      "learning_rate": 2e-05,
      "loss": 0.8345,
      "step": 5171
    },
    {
      "epoch": 1.7852951328960995,
      "grad_norm": 1.167084813117981,
      "learning_rate": 2e-05,
      "loss": 0.6983,
      "step": 5172
    },
    {
      "epoch": 1.7856403175699,
      "grad_norm": 1.2342469692230225,
      "learning_rate": 2e-05,
      "loss": 0.7553,
      "step": 5173
    },
    {
      "epoch": 1.7859855022437003,
      "grad_norm": 1.133104920387268,
      "learning_rate": 2e-05,
      "loss": 0.6914,
      "step": 5174
    },
    {
      "epoch": 1.7863306869175009,
      "grad_norm": 1.0857644081115723,
      "learning_rate": 2e-05,
      "loss": 0.7814,
      "step": 5175
    },
    {
      "epoch": 1.7866758715913014,
      "grad_norm": 1.294212818145752,
      "learning_rate": 2e-05,
      "loss": 0.8382,
      "step": 5176
    },
    {
      "epoch": 1.7870210562651019,
      "grad_norm": 1.3469752073287964,
      "learning_rate": 2e-05,
      "loss": 0.6972,
      "step": 5177
    },
    {
      "epoch": 1.7873662409389022,
      "grad_norm": 1.3608564138412476,
      "learning_rate": 2e-05,
      "loss": 0.7457,
      "step": 5178
    },
    {
      "epoch": 1.7877114256127027,
      "grad_norm": 1.4318957328796387,
      "learning_rate": 2e-05,
      "loss": 0.7576,
      "step": 5179
    },
    {
      "epoch": 1.7880566102865032,
      "grad_norm": 1.216343879699707,
      "learning_rate": 2e-05,
      "loss": 0.6841,
      "step": 5180
    },
    {
      "epoch": 1.7884017949603037,
      "grad_norm": 1.20590341091156,
      "learning_rate": 2e-05,
      "loss": 0.9092,
      "step": 5181
    },
    {
      "epoch": 1.7887469796341042,
      "grad_norm": 1.289650559425354,
      "learning_rate": 2e-05,
      "loss": 0.7952,
      "step": 5182
    },
    {
      "epoch": 1.7890921643079047,
      "grad_norm": 1.2058383226394653,
      "learning_rate": 2e-05,
      "loss": 0.7805,
      "step": 5183
    },
    {
      "epoch": 1.7894373489817053,
      "grad_norm": 1.1580853462219238,
      "learning_rate": 2e-05,
      "loss": 0.8135,
      "step": 5184
    },
    {
      "epoch": 1.7897825336555058,
      "grad_norm": 1.4822255373001099,
      "learning_rate": 2e-05,
      "loss": 0.7729,
      "step": 5185
    },
    {
      "epoch": 1.7901277183293063,
      "grad_norm": 1.1306260824203491,
      "learning_rate": 2e-05,
      "loss": 0.7058,
      "step": 5186
    },
    {
      "epoch": 1.7904729030031068,
      "grad_norm": 1.1369417905807495,
      "learning_rate": 2e-05,
      "loss": 0.7526,
      "step": 5187
    },
    {
      "epoch": 1.7908180876769073,
      "grad_norm": 1.4119572639465332,
      "learning_rate": 2e-05,
      "loss": 0.7699,
      "step": 5188
    },
    {
      "epoch": 1.7911632723507076,
      "grad_norm": 1.1076958179473877,
      "learning_rate": 2e-05,
      "loss": 0.7287,
      "step": 5189
    },
    {
      "epoch": 1.7915084570245081,
      "grad_norm": 1.3417925834655762,
      "learning_rate": 2e-05,
      "loss": 0.8576,
      "step": 5190
    },
    {
      "epoch": 1.7918536416983086,
      "grad_norm": 1.3126312494277954,
      "learning_rate": 2e-05,
      "loss": 0.707,
      "step": 5191
    },
    {
      "epoch": 1.792198826372109,
      "grad_norm": 1.2508846521377563,
      "learning_rate": 2e-05,
      "loss": 0.7851,
      "step": 5192
    },
    {
      "epoch": 1.7925440110459094,
      "grad_norm": 1.1079728603363037,
      "learning_rate": 2e-05,
      "loss": 0.7531,
      "step": 5193
    },
    {
      "epoch": 1.79288919571971,
      "grad_norm": 1.156409502029419,
      "learning_rate": 2e-05,
      "loss": 0.6969,
      "step": 5194
    },
    {
      "epoch": 1.7932343803935105,
      "grad_norm": 1.132920742034912,
      "learning_rate": 2e-05,
      "loss": 0.7701,
      "step": 5195
    },
    {
      "epoch": 1.793579565067311,
      "grad_norm": 1.3303040266036987,
      "learning_rate": 2e-05,
      "loss": 0.7631,
      "step": 5196
    },
    {
      "epoch": 1.7939247497411115,
      "grad_norm": 1.2432695627212524,
      "learning_rate": 2e-05,
      "loss": 0.8165,
      "step": 5197
    },
    {
      "epoch": 1.794269934414912,
      "grad_norm": 1.2196011543273926,
      "learning_rate": 2e-05,
      "loss": 0.7453,
      "step": 5198
    },
    {
      "epoch": 1.7946151190887125,
      "grad_norm": 1.1248934268951416,
      "learning_rate": 2e-05,
      "loss": 0.7546,
      "step": 5199
    },
    {
      "epoch": 1.794960303762513,
      "grad_norm": 1.2826875448226929,
      "learning_rate": 2e-05,
      "loss": 0.7519,
      "step": 5200
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 14485,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2148235267276800.0,
  "train_batch_size": 12,
  "trial_name": null,
  "trial_params": null
}