{
  "best_metric": 0.5182899236679077,
  "best_model_checkpoint": "vit-base-kidney-stone-4-Michel_Daudon_-w256_1k_v1-_MIX\\checkpoint-300",
  "epoch": 15.0,
  "eval_steps": 100,
  "global_step": 9000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 2.2496018409729004,
      "learning_rate": 0.0001998888888888889,
      "loss": 1.7284,
      "step": 5
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 2.495887517929077,
      "learning_rate": 0.0001997777777777778,
      "loss": 1.6238,
      "step": 10
    },
    {
      "epoch": 0.025,
      "grad_norm": 2.0848536491394043,
      "learning_rate": 0.00019966666666666668,
      "loss": 1.3986,
      "step": 15
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 3.294027328491211,
      "learning_rate": 0.00019955555555555558,
      "loss": 1.2169,
      "step": 20
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 2.3460912704467773,
      "learning_rate": 0.00019944444444444445,
      "loss": 1.0075,
      "step": 25
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.0625927448272705,
      "learning_rate": 0.00019933333333333334,
      "loss": 0.9131,
      "step": 30
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 3.178321599960327,
      "learning_rate": 0.00019922222222222222,
      "loss": 0.9761,
      "step": 35
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 4.111609935760498,
      "learning_rate": 0.00019911111111111111,
      "loss": 0.9725,
      "step": 40
    },
    {
      "epoch": 0.075,
      "grad_norm": 2.883267641067505,
      "learning_rate": 0.000199,
      "loss": 0.9463,
      "step": 45
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 2.1702375411987305,
      "learning_rate": 0.0001988888888888889,
      "loss": 0.68,
      "step": 50
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 2.520656108856201,
      "learning_rate": 0.0001987777777777778,
      "loss": 0.8121,
      "step": 55
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7874717712402344,
      "learning_rate": 0.00019866666666666668,
      "loss": 0.831,
      "step": 60
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 2.2217721939086914,
      "learning_rate": 0.00019855555555555555,
      "loss": 0.6143,
      "step": 65
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 3.13059139251709,
      "learning_rate": 0.00019844444444444445,
      "loss": 0.6739,
      "step": 70
    },
    {
      "epoch": 0.125,
      "grad_norm": 4.167845249176025,
      "learning_rate": 0.00019833333333333335,
      "loss": 0.7498,
      "step": 75
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 2.884220838546753,
      "learning_rate": 0.00019822222222222225,
      "loss": 0.6327,
      "step": 80
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 5.328771591186523,
      "learning_rate": 0.00019811111111111112,
      "loss": 0.6116,
      "step": 85
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4236434698104858,
      "learning_rate": 0.00019800000000000002,
      "loss": 0.3901,
      "step": 90
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 3.476452589035034,
      "learning_rate": 0.0001978888888888889,
      "loss": 0.529,
      "step": 95
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 5.051921367645264,
      "learning_rate": 0.00019777777777777778,
      "loss": 0.4337,
      "step": 100
    },
    {
      "epoch": 0.16666666666666666,
      "eval_accuracy": 0.76875,
      "eval_f1": 0.7619682189839767,
      "eval_loss": 0.6415127515792847,
      "eval_precision": 0.7865668052881615,
      "eval_recall": 0.76875,
      "eval_runtime": 18.0597,
      "eval_samples_per_second": 132.892,
      "eval_steps_per_second": 16.612,
      "step": 100
    },
    {
      "epoch": 0.175,
      "grad_norm": 2.3170275688171387,
      "learning_rate": 0.00019766666666666666,
      "loss": 0.5959,
      "step": 105
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 6.184014797210693,
      "learning_rate": 0.00019755555555555555,
      "loss": 0.4344,
      "step": 110
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 4.983543395996094,
      "learning_rate": 0.00019744444444444445,
      "loss": 0.6026,
      "step": 115
    },
    {
      "epoch": 0.2,
      "grad_norm": 7.150985240936279,
      "learning_rate": 0.00019733333333333335,
      "loss": 0.5339,
      "step": 120
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 3.1863768100738525,
      "learning_rate": 0.00019722222222222225,
      "loss": 0.3566,
      "step": 125
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 2.1676628589630127,
      "learning_rate": 0.00019711111111111112,
      "loss": 0.4281,
      "step": 130
    },
    {
      "epoch": 0.225,
      "grad_norm": 4.599277019500732,
      "learning_rate": 0.00019700000000000002,
      "loss": 0.7168,
      "step": 135
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 3.791949987411499,
      "learning_rate": 0.0001968888888888889,
      "loss": 0.5336,
      "step": 140
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 2.9463765621185303,
      "learning_rate": 0.0001967777777777778,
      "loss": 0.3714,
      "step": 145
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1960675716400146,
      "learning_rate": 0.00019666666666666666,
      "loss": 0.2353,
      "step": 150
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 2.5569522380828857,
      "learning_rate": 0.00019655555555555556,
      "loss": 0.4302,
      "step": 155
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 6.091992378234863,
      "learning_rate": 0.00019644444444444445,
      "loss": 0.4621,
      "step": 160
    },
    {
      "epoch": 0.275,
      "grad_norm": 6.613382816314697,
      "learning_rate": 0.00019633333333333335,
      "loss": 0.8553,
      "step": 165
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 7.816857814788818,
      "learning_rate": 0.00019622222222222225,
      "loss": 0.4347,
      "step": 170
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 2.932603120803833,
      "learning_rate": 0.00019611111111111112,
      "loss": 0.6215,
      "step": 175
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3492988348007202,
      "learning_rate": 0.000196,
      "loss": 0.3146,
      "step": 180
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 4.258238315582275,
      "learning_rate": 0.0001958888888888889,
      "loss": 0.3412,
      "step": 185
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 4.30371618270874,
      "learning_rate": 0.0001957777777777778,
      "loss": 0.2856,
      "step": 190
    },
    {
      "epoch": 0.325,
      "grad_norm": 5.020020961761475,
      "learning_rate": 0.0001956666666666667,
      "loss": 0.3215,
      "step": 195
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 4.156823635101318,
      "learning_rate": 0.00019555555555555556,
      "loss": 0.5458,
      "step": 200
    },
    {
      "epoch": 0.3333333333333333,
      "eval_accuracy": 0.7204166666666667,
      "eval_f1": 0.692881123581782,
      "eval_loss": 1.0269856452941895,
      "eval_precision": 0.8071589010686718,
      "eval_recall": 0.7204166666666667,
      "eval_runtime": 18.6517,
      "eval_samples_per_second": 128.674,
      "eval_steps_per_second": 16.084,
      "step": 200
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 0.6583724617958069,
      "learning_rate": 0.00019544444444444446,
      "loss": 0.7273,
      "step": 205
    },
    {
      "epoch": 0.35,
      "grad_norm": 5.7633891105651855,
      "learning_rate": 0.00019533333333333336,
      "loss": 0.5599,
      "step": 210
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 3.5997495651245117,
      "learning_rate": 0.00019522222222222223,
      "loss": 0.3144,
      "step": 215
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 3.038442373275757,
      "learning_rate": 0.0001951111111111111,
      "loss": 0.4424,
      "step": 220
    },
    {
      "epoch": 0.375,
      "grad_norm": 2.0171852111816406,
      "learning_rate": 0.000195,
      "loss": 0.3899,
      "step": 225
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 4.811845779418945,
      "learning_rate": 0.0001948888888888889,
      "loss": 0.3829,
      "step": 230
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 2.4900505542755127,
      "learning_rate": 0.0001947777777777778,
      "loss": 0.1581,
      "step": 235
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.513252258300781,
      "learning_rate": 0.0001946666666666667,
      "loss": 0.1984,
      "step": 240
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 3.024510145187378,
      "learning_rate": 0.00019455555555555556,
      "loss": 0.2121,
      "step": 245
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 6.1483941078186035,
      "learning_rate": 0.00019444444444444446,
      "loss": 0.3022,
      "step": 250
    },
    {
      "epoch": 0.425,
      "grad_norm": 1.7129511833190918,
      "learning_rate": 0.00019433333333333333,
      "loss": 0.3033,
      "step": 255
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 4.62209415435791,
      "learning_rate": 0.00019422222222222223,
      "loss": 0.498,
      "step": 260
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 6.0904340744018555,
      "learning_rate": 0.0001941111111111111,
      "loss": 0.1781,
      "step": 265
    },
    {
      "epoch": 0.45,
      "grad_norm": 5.6336588859558105,
      "learning_rate": 0.000194,
      "loss": 0.4761,
      "step": 270
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 3.3391575813293457,
      "learning_rate": 0.0001938888888888889,
      "loss": 0.2371,
      "step": 275
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.5167920589447021,
      "learning_rate": 0.0001937777777777778,
      "loss": 0.1822,
      "step": 280
    },
    {
      "epoch": 0.475,
      "grad_norm": 1.5344135761260986,
      "learning_rate": 0.0001936666666666667,
      "loss": 0.3206,
      "step": 285
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 1.6594878435134888,
      "learning_rate": 0.00019355555555555557,
      "loss": 0.2211,
      "step": 290
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 2.266079902648926,
      "learning_rate": 0.00019344444444444446,
      "loss": 0.2517,
      "step": 295
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.294487476348877,
      "learning_rate": 0.00019333333333333333,
      "loss": 0.1893,
      "step": 300
    },
    {
      "epoch": 0.5,
      "eval_accuracy": 0.8333333333333334,
      "eval_f1": 0.8312823840804323,
      "eval_loss": 0.5182899236679077,
      "eval_precision": 0.8596272111598016,
      "eval_recall": 0.8333333333333334,
      "eval_runtime": 17.9658,
      "eval_samples_per_second": 133.587,
      "eval_steps_per_second": 16.698,
      "step": 300
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 1.3389480113983154,
      "learning_rate": 0.00019322222222222223,
      "loss": 0.1642,
      "step": 305
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 2.018641948699951,
      "learning_rate": 0.0001931111111111111,
      "loss": 0.3105,
      "step": 310
    },
    {
      "epoch": 0.525,
      "grad_norm": 8.057267189025879,
      "learning_rate": 0.000193,
      "loss": 0.3149,
      "step": 315
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 3.877058744430542,
      "learning_rate": 0.0001928888888888889,
      "loss": 0.2888,
      "step": 320
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 4.887022972106934,
      "learning_rate": 0.0001927777777777778,
      "loss": 0.1554,
      "step": 325
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.1714982986450195,
      "learning_rate": 0.0001926666666666667,
      "loss": 0.2117,
      "step": 330
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 3.438103437423706,
      "learning_rate": 0.00019255555555555557,
      "loss": 0.3409,
      "step": 335
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 8.518227577209473,
      "learning_rate": 0.00019244444444444444,
      "loss": 0.2486,
      "step": 340
    },
    {
      "epoch": 0.575,
      "grad_norm": 4.521608829498291,
      "learning_rate": 0.00019233333333333334,
      "loss": 0.1701,
      "step": 345
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.2302248179912567,
      "learning_rate": 0.00019222222222222224,
      "loss": 0.0837,
      "step": 350
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 0.2371383011341095,
      "learning_rate": 0.00019211111111111113,
      "loss": 0.1488,
      "step": 355
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.665721416473389,
      "learning_rate": 0.000192,
      "loss": 0.317,
      "step": 360
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 4.082240581512451,
      "learning_rate": 0.0001918888888888889,
      "loss": 0.2431,
      "step": 365
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 8.597616195678711,
      "learning_rate": 0.0001917777777777778,
      "loss": 0.1931,
      "step": 370
    },
    {
      "epoch": 0.625,
      "grad_norm": 3.3942854404449463,
      "learning_rate": 0.00019166666666666667,
      "loss": 0.4236,
      "step": 375
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 1.09407377243042,
      "learning_rate": 0.00019155555555555554,
      "loss": 0.194,
      "step": 380
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 4.0513739585876465,
      "learning_rate": 0.00019144444444444444,
      "loss": 0.1129,
      "step": 385
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2610982656478882,
      "learning_rate": 0.00019133333333333334,
      "loss": 0.1847,
      "step": 390
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 3.8588204383850098,
      "learning_rate": 0.00019122222222222224,
      "loss": 0.2797,
      "step": 395
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 3.1752443313598633,
      "learning_rate": 0.00019111111111111114,
      "loss": 0.2041,
      "step": 400
    },
    {
      "epoch": 0.6666666666666666,
      "eval_accuracy": 0.8333333333333334,
      "eval_f1": 0.8360281743388888,
      "eval_loss": 0.5610790848731995,
      "eval_precision": 0.8651157480670417,
      "eval_recall": 0.8333333333333334,
      "eval_runtime": 18.4177,
      "eval_samples_per_second": 130.31,
      "eval_steps_per_second": 16.289,
      "step": 400
    },
    {
      "epoch": 0.675,
      "grad_norm": 2.7836809158325195,
      "learning_rate": 0.000191,
      "loss": 0.2242,
      "step": 405
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 3.005587100982666,
      "learning_rate": 0.0001908888888888889,
      "loss": 0.0672,
      "step": 410
    },
    {
      "epoch": 0.6916666666666667,
      "grad_norm": 0.95849609375,
      "learning_rate": 0.00019077777777777778,
      "loss": 0.2198,
      "step": 415
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.11787495017051697,
      "learning_rate": 0.00019066666666666668,
      "loss": 0.2217,
      "step": 420
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 6.427811145782471,
      "learning_rate": 0.00019055555555555555,
      "loss": 0.2186,
      "step": 425
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 2.171051502227783,
      "learning_rate": 0.00019044444444444444,
      "loss": 0.1435,
      "step": 430
    },
    {
      "epoch": 0.725,
      "grad_norm": 10.628514289855957,
      "learning_rate": 0.00019033333333333334,
      "loss": 0.4815,
      "step": 435
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 8.90291976928711,
      "learning_rate": 0.00019022222222222224,
      "loss": 0.3585,
      "step": 440
    },
    {
      "epoch": 0.7416666666666667,
      "grad_norm": 0.7666055560112,
      "learning_rate": 0.00019011111111111114,
      "loss": 0.1768,
      "step": 445
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.580178260803223,
      "learning_rate": 0.00019,
      "loss": 0.1433,
      "step": 450
    },
    {
      "epoch": 0.7583333333333333,
      "grad_norm": 5.587320327758789,
      "learning_rate": 0.00018988888888888888,
      "loss": 0.3615,
      "step": 455
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 8.701805114746094,
      "learning_rate": 0.00018977777777777778,
      "loss": 0.1738,
      "step": 460
    },
    {
      "epoch": 0.775,
      "grad_norm": 0.8040100336074829,
      "learning_rate": 0.00018966666666666668,
      "loss": 0.1979,
      "step": 465
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 0.23449303209781647,
      "learning_rate": 0.00018955555555555558,
      "loss": 0.0533,
      "step": 470
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 3.644671678543091,
      "learning_rate": 0.00018944444444444445,
      "loss": 0.2888,
      "step": 475
    },
    {
      "epoch": 0.8,
      "grad_norm": 9.65188217163086,
      "learning_rate": 0.00018933333333333335,
      "loss": 0.1278,
      "step": 480
    },
    {
      "epoch": 0.8083333333333333,
      "grad_norm": 1.701130986213684,
      "learning_rate": 0.00018922222222222224,
      "loss": 0.2095,
      "step": 485
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 0.14732544124126434,
      "learning_rate": 0.00018911111111111112,
      "loss": 0.1921,
      "step": 490
    },
    {
      "epoch": 0.825,
      "grad_norm": 2.8289554119110107,
      "learning_rate": 0.00018899999999999999,
      "loss": 0.0756,
      "step": 495
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 4.687591075897217,
      "learning_rate": 0.00018888888888888888,
      "loss": 0.2087,
      "step": 500
    },
    {
      "epoch": 0.8333333333333334,
      "eval_accuracy": 0.7845833333333333,
      "eval_f1": 0.7916256719345341,
      "eval_loss": 0.8035779595375061,
      "eval_precision": 0.8253423557741513,
      "eval_recall": 0.7845833333333333,
      "eval_runtime": 18.3739,
      "eval_samples_per_second": 130.62,
      "eval_steps_per_second": 16.328,
      "step": 500
    },
    {
      "epoch": 0.8416666666666667,
      "grad_norm": 2.9499456882476807,
      "learning_rate": 0.00018877777777777778,
      "loss": 0.1923,
      "step": 505
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2067914754152298,
      "learning_rate": 0.00018866666666666668,
      "loss": 0.2516,
      "step": 510
    },
    {
      "epoch": 0.8583333333333333,
      "grad_norm": 5.007239818572998,
      "learning_rate": 0.00018855555555555558,
      "loss": 0.2364,
      "step": 515
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 3.213813543319702,
      "learning_rate": 0.00018844444444444445,
      "loss": 0.0893,
      "step": 520
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.08503437787294388,
      "learning_rate": 0.00018833333333333335,
      "loss": 0.2248,
      "step": 525
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 5.318356990814209,
      "learning_rate": 0.00018822222222222222,
      "loss": 0.1578,
      "step": 530
    },
    {
      "epoch": 0.8916666666666667,
      "grad_norm": 2.243978500366211,
      "learning_rate": 0.00018811111111111112,
      "loss": 0.1569,
      "step": 535
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.23651619255542755,
      "learning_rate": 0.000188,
      "loss": 0.0324,
      "step": 540
    },
    {
      "epoch": 0.9083333333333333,
      "grad_norm": 0.8996135592460632,
      "learning_rate": 0.0001878888888888889,
      "loss": 0.0501,
      "step": 545
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 7.9236555099487305,
      "learning_rate": 0.00018777777777777779,
      "loss": 0.1767,
      "step": 550
    },
    {
      "epoch": 0.925,
      "grad_norm": 0.09563718736171722,
      "learning_rate": 0.00018766666666666668,
      "loss": 0.1415,
      "step": 555
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.056759871542453766,
      "learning_rate": 0.00018755555555555558,
      "loss": 0.4077,
      "step": 560
    },
    {
      "epoch": 0.9416666666666667,
      "grad_norm": 1.2789130210876465,
      "learning_rate": 0.00018744444444444445,
      "loss": 0.0952,
      "step": 565
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.23569685220718384,
      "learning_rate": 0.00018733333333333335,
      "loss": 0.1118,
      "step": 570
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 2.405914545059204,
      "learning_rate": 0.00018722222222222222,
      "loss": 0.1946,
      "step": 575
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 0.4238249361515045,
      "learning_rate": 0.00018711111111111112,
      "loss": 0.1567,
      "step": 580
    },
    {
      "epoch": 0.975,
      "grad_norm": 7.039488315582275,
      "learning_rate": 0.00018700000000000002,
      "loss": 0.3309,
      "step": 585
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 4.673556327819824,
      "learning_rate": 0.0001868888888888889,
      "loss": 0.2188,
      "step": 590
    },
    {
      "epoch": 0.9916666666666667,
      "grad_norm": 0.9906653165817261,
      "learning_rate": 0.0001867777777777778,
      "loss": 0.2483,
      "step": 595
    },
    {
      "epoch": 1.0,
      "grad_norm": 4.171483516693115,
      "learning_rate": 0.0001866666666666667,
      "loss": 0.1888,
      "step": 600
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.8045833333333333,
      "eval_f1": 0.7959636319245313,
      "eval_loss": 0.7426676750183105,
      "eval_precision": 0.8312265577730075,
      "eval_recall": 0.8045833333333333,
      "eval_runtime": 19.0876,
      "eval_samples_per_second": 125.736,
      "eval_steps_per_second": 15.717,
      "step": 600
    },
    {
      "epoch": 1.0083333333333333,
      "grad_norm": 2.1136932373046875,
      "learning_rate": 0.00018655555555555558,
      "loss": 0.2395,
      "step": 605
    },
    {
      "epoch": 1.0166666666666666,
      "grad_norm": 0.733923077583313,
      "learning_rate": 0.00018644444444444446,
      "loss": 0.1071,
      "step": 610
    },
    {
      "epoch": 1.025,
      "grad_norm": 1.9602711200714111,
      "learning_rate": 0.00018633333333333333,
      "loss": 0.0294,
      "step": 615
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 2.430354595184326,
      "learning_rate": 0.00018622222222222223,
      "loss": 0.15,
      "step": 620
    },
    {
      "epoch": 1.0416666666666667,
      "grad_norm": 0.09469880163669586,
      "learning_rate": 0.00018611111111111112,
      "loss": 0.0191,
      "step": 625
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.05656212940812111,
      "learning_rate": 0.00018600000000000002,
      "loss": 0.0759,
      "step": 630
    },
    {
      "epoch": 1.0583333333333333,
      "grad_norm": 0.34049826860427856,
      "learning_rate": 0.0001858888888888889,
      "loss": 0.0701,
      "step": 635
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.1076187789440155,
      "learning_rate": 0.0001857777777777778,
      "loss": 0.0768,
      "step": 640
    },
    {
      "epoch": 1.075,
      "grad_norm": 6.472487926483154,
      "learning_rate": 0.0001856666666666667,
      "loss": 0.1947,
      "step": 645
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 0.14079591631889343,
      "learning_rate": 0.00018555555555555556,
      "loss": 0.0205,
      "step": 650
    },
    {
      "epoch": 1.0916666666666666,
      "grad_norm": 8.24166488647461,
      "learning_rate": 0.00018544444444444443,
      "loss": 0.0825,
      "step": 655
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.06294634938240051,
      "learning_rate": 0.00018533333333333333,
      "loss": 0.1314,
      "step": 660
    },
    {
      "epoch": 1.1083333333333334,
      "grad_norm": 2.3569366931915283,
      "learning_rate": 0.00018522222222222223,
      "loss": 0.0575,
      "step": 665
    },
    {
      "epoch": 1.1166666666666667,
      "grad_norm": 0.03337935730814934,
      "learning_rate": 0.00018511111111111113,
      "loss": 0.1048,
      "step": 670
    },
    {
      "epoch": 1.125,
      "grad_norm": 0.038773927837610245,
      "learning_rate": 0.00018500000000000002,
      "loss": 0.1616,
      "step": 675
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 10.87926197052002,
      "learning_rate": 0.0001848888888888889,
      "loss": 0.0962,
      "step": 680
    },
    {
      "epoch": 1.1416666666666666,
      "grad_norm": 1.4937539100646973,
      "learning_rate": 0.0001847777777777778,
      "loss": 0.1343,
      "step": 685
    },
    {
      "epoch": 1.15,
      "grad_norm": 2.613548994064331,
      "learning_rate": 0.00018466666666666666,
      "loss": 0.1325,
      "step": 690
    },
    {
      "epoch": 1.1583333333333332,
      "grad_norm": 4.310102462768555,
      "learning_rate": 0.00018455555555555556,
      "loss": 0.0913,
      "step": 695
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 3.952800750732422,
      "learning_rate": 0.00018444444444444446,
      "loss": 0.1175,
      "step": 700
    },
    {
      "epoch": 1.1666666666666667,
      "eval_accuracy": 0.78375,
      "eval_f1": 0.7770076145581983,
      "eval_loss": 0.7926509380340576,
      "eval_precision": 0.790552908445089,
      "eval_recall": 0.78375,
      "eval_runtime": 18.1589,
      "eval_samples_per_second": 132.167,
      "eval_steps_per_second": 16.521,
      "step": 700
    },
    {
      "epoch": 1.175,
      "grad_norm": 0.38804319500923157,
      "learning_rate": 0.00018433333333333333,
      "loss": 0.1571,
      "step": 705
    },
    {
      "epoch": 1.1833333333333333,
      "grad_norm": 6.437322616577148,
      "learning_rate": 0.00018422222222222223,
      "loss": 0.0569,
      "step": 710
    },
    {
      "epoch": 1.1916666666666667,
      "grad_norm": 0.054909270256757736,
      "learning_rate": 0.00018411111111111113,
      "loss": 0.0346,
      "step": 715
    },
    {
      "epoch": 1.2,
      "grad_norm": 10.60816478729248,
      "learning_rate": 0.00018400000000000003,
      "loss": 0.2128,
      "step": 720
    },
    {
      "epoch": 1.2083333333333333,
      "grad_norm": 0.20509034395217896,
      "learning_rate": 0.0001838888888888889,
      "loss": 0.0352,
      "step": 725
    },
    {
      "epoch": 1.2166666666666668,
      "grad_norm": 1.0820976495742798,
      "learning_rate": 0.00018377777777777777,
      "loss": 0.0699,
      "step": 730
    },
    {
      "epoch": 1.225,
      "grad_norm": 0.10244014859199524,
      "learning_rate": 0.00018366666666666667,
      "loss": 0.174,
      "step": 735
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 10.84445858001709,
      "learning_rate": 0.00018355555555555557,
      "loss": 0.1117,
      "step": 740
    },
    {
      "epoch": 1.2416666666666667,
      "grad_norm": 2.6378021240234375,
      "learning_rate": 0.00018344444444444446,
      "loss": 0.1846,
      "step": 745
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.418130874633789,
      "learning_rate": 0.00018333333333333334,
      "loss": 0.1572,
      "step": 750
    },
    {
      "epoch": 1.2583333333333333,
      "grad_norm": 5.761021614074707,
      "learning_rate": 0.00018322222222222223,
      "loss": 0.0322,
      "step": 755
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 7.350227355957031,
      "learning_rate": 0.00018311111111111113,
      "loss": 0.2094,
      "step": 760
    },
    {
      "epoch": 1.275,
      "grad_norm": 3.275629997253418,
      "learning_rate": 0.000183,
      "loss": 0.0822,
      "step": 765
    },
    {
      "epoch": 1.2833333333333332,
      "grad_norm": 0.885545551776886,
      "learning_rate": 0.00018288888888888887,
      "loss": 0.1508,
      "step": 770
    },
    {
      "epoch": 1.2916666666666667,
      "grad_norm": 1.1846145391464233,
      "learning_rate": 0.00018277777777777777,
      "loss": 0.1082,
      "step": 775
    },
    {
      "epoch": 1.3,
      "grad_norm": 1.3660482168197632,
      "learning_rate": 0.00018266666666666667,
      "loss": 0.0443,
      "step": 780
    },
    {
      "epoch": 1.3083333333333333,
      "grad_norm": 5.1618828773498535,
      "learning_rate": 0.00018255555555555557,
      "loss": 0.1896,
      "step": 785
    },
    {
      "epoch": 1.3166666666666667,
      "grad_norm": 6.400636672973633,
      "learning_rate": 0.00018244444444444447,
      "loss": 0.2619,
      "step": 790
    },
    {
      "epoch": 1.325,
      "grad_norm": 7.945240020751953,
      "learning_rate": 0.00018233333333333334,
      "loss": 0.1781,
      "step": 795
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 1.464800238609314,
      "learning_rate": 0.00018222222222222224,
      "loss": 0.5783,
      "step": 800
    },
    {
      "epoch": 1.3333333333333333,
      "eval_accuracy": 0.7520833333333333,
      "eval_f1": 0.7550791584547641,
      "eval_loss": 0.9453935027122498,
      "eval_precision": 0.8095319975284289,
      "eval_recall": 0.7520833333333333,
      "eval_runtime": 18.1123,
      "eval_samples_per_second": 132.507,
      "eval_steps_per_second": 16.563,
      "step": 800
    },
    {
      "epoch": 1.3416666666666668,
      "grad_norm": 6.043260097503662,
      "learning_rate": 0.00018211111111111113,
      "loss": 0.0895,
      "step": 805
    },
    {
      "epoch": 1.35,
      "grad_norm": 14.458117485046387,
      "learning_rate": 0.000182,
      "loss": 0.1649,
      "step": 810
    },
    {
      "epoch": 1.3583333333333334,
      "grad_norm": 3.134190797805786,
      "learning_rate": 0.0001818888888888889,
      "loss": 0.0658,
      "step": 815
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 0.18851661682128906,
      "learning_rate": 0.00018177777777777778,
      "loss": 0.0309,
      "step": 820
    },
    {
      "epoch": 1.375,
      "grad_norm": 3.0031518936157227,
      "learning_rate": 0.00018166666666666667,
      "loss": 0.0392,
      "step": 825
    },
    {
      "epoch": 1.3833333333333333,
      "grad_norm": 0.6985848546028137,
      "learning_rate": 0.00018155555555555557,
      "loss": 0.1553,
      "step": 830
    },
    {
      "epoch": 1.3916666666666666,
      "grad_norm": 1.5488618612289429,
      "learning_rate": 0.00018144444444444447,
      "loss": 0.0698,
      "step": 835
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.23444947600364685,
      "learning_rate": 0.00018133333333333334,
      "loss": 0.037,
      "step": 840
    },
    {
      "epoch": 1.4083333333333332,
      "grad_norm": 8.278327941894531,
      "learning_rate": 0.00018122222222222224,
      "loss": 0.2767,
      "step": 845
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 5.306277751922607,
      "learning_rate": 0.0001811111111111111,
      "loss": 0.0921,
      "step": 850
    },
    {
      "epoch": 1.425,
      "grad_norm": 1.348892092704773,
      "learning_rate": 0.000181,
      "loss": 0.2006,
      "step": 855
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 0.580933690071106,
      "learning_rate": 0.0001808888888888889,
      "loss": 0.0684,
      "step": 860
    },
    {
      "epoch": 1.4416666666666667,
      "grad_norm": 0.03567817807197571,
      "learning_rate": 0.00018077777777777778,
      "loss": 0.0403,
      "step": 865
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.2142370641231537,
      "learning_rate": 0.00018066666666666668,
      "loss": 0.1508,
      "step": 870
    },
    {
      "epoch": 1.4583333333333333,
      "grad_norm": 11.600722312927246,
      "learning_rate": 0.00018055555555555557,
      "loss": 0.2265,
      "step": 875
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 1.2279818058013916,
      "learning_rate": 0.00018044444444444447,
      "loss": 0.0971,
      "step": 880
    },
    {
      "epoch": 1.475,
      "grad_norm": 0.1267862617969513,
      "learning_rate": 0.00018033333333333334,
      "loss": 0.042,
      "step": 885
    },
    {
      "epoch": 1.4833333333333334,
      "grad_norm": 0.05969135835766792,
      "learning_rate": 0.00018022222222222221,
      "loss": 0.0103,
      "step": 890
    },
    {
      "epoch": 1.4916666666666667,
      "grad_norm": 2.969378709793091,
      "learning_rate": 0.0001801111111111111,
      "loss": 0.0351,
      "step": 895
    },
    {
      "epoch": 1.5,
      "grad_norm": 4.16003942489624,
      "learning_rate": 0.00018,
      "loss": 0.1242,
      "step": 900
    },
    {
      "epoch": 1.5,
      "eval_accuracy": 0.7704166666666666,
      "eval_f1": 0.7796241964164831,
      "eval_loss": 1.0772207975387573,
      "eval_precision": 0.8101832596857051,
      "eval_recall": 0.7704166666666666,
      "eval_runtime": 18.0252,
      "eval_samples_per_second": 133.147,
      "eval_steps_per_second": 16.643,
      "step": 900
    },
    {
      "epoch": 1.5083333333333333,
      "grad_norm": 0.025975283235311508,
      "learning_rate": 0.0001798888888888889,
      "loss": 0.1133,
      "step": 905
    },
    {
      "epoch": 1.5166666666666666,
      "grad_norm": 6.979773998260498,
      "learning_rate": 0.00017977777777777778,
      "loss": 0.1578,
      "step": 910
    },
    {
      "epoch": 1.525,
      "grad_norm": 5.109651565551758,
      "learning_rate": 0.00017966666666666668,
      "loss": 0.059,
      "step": 915
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 5.779540538787842,
      "learning_rate": 0.00017955555555555558,
      "loss": 0.0446,
      "step": 920
    },
    {
      "epoch": 1.5416666666666665,
      "grad_norm": 1.5098557472229004,
      "learning_rate": 0.00017944444444444445,
      "loss": 0.1481,
      "step": 925
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.030412793159484863,
      "learning_rate": 0.00017933333333333332,
      "loss": 0.066,
      "step": 930
    },
    {
      "epoch": 1.5583333333333333,
      "grad_norm": 0.049747664481401443,
      "learning_rate": 0.00017922222222222222,
      "loss": 0.0176,
      "step": 935
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 0.8870022892951965,
      "learning_rate": 0.00017911111111111112,
      "loss": 0.014,
      "step": 940
    },
    {
      "epoch": 1.575,
      "grad_norm": 0.17263713479042053,
      "learning_rate": 0.00017900000000000001,
      "loss": 0.0104,
      "step": 945
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 2.437835454940796,
      "learning_rate": 0.0001788888888888889,
      "loss": 0.0837,
      "step": 950
    },
    {
      "epoch": 1.5916666666666668,
      "grad_norm": 0.19128166139125824,
      "learning_rate": 0.00017877777777777778,
      "loss": 0.0926,
      "step": 955
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.305394172668457,
      "learning_rate": 0.00017866666666666668,
      "loss": 0.0455,
      "step": 960
    },
    {
      "epoch": 1.6083333333333334,
      "grad_norm": 0.034758828580379486,
      "learning_rate": 0.00017855555555555555,
      "loss": 0.0123,
      "step": 965
    },
    {
      "epoch": 1.6166666666666667,
      "grad_norm": 5.037721633911133,
      "learning_rate": 0.00017844444444444445,
      "loss": 0.0753,
      "step": 970
    },
    {
      "epoch": 1.625,
      "grad_norm": 0.08648474514484406,
      "learning_rate": 0.00017833333333333335,
      "loss": 0.0928,
      "step": 975
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 5.476212978363037,
      "learning_rate": 0.00017822222222222222,
      "loss": 0.0605,
      "step": 980
    },
    {
      "epoch": 1.6416666666666666,
      "grad_norm": 0.029494499787688255,
      "learning_rate": 0.00017811111111111112,
      "loss": 0.1307,
      "step": 985
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.7401522994041443,
      "learning_rate": 0.00017800000000000002,
      "loss": 0.09,
      "step": 990
    },
    {
      "epoch": 1.6583333333333332,
      "grad_norm": 0.038200341165065765,
      "learning_rate": 0.00017788888888888892,
      "loss": 0.008,
      "step": 995
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.022435810416936874,
      "learning_rate": 0.00017777777777777779,
      "loss": 0.1045,
      "step": 1000
    },
    {
      "epoch": 1.6666666666666665,
      "eval_accuracy": 0.8295833333333333,
      "eval_f1": 0.8222723979066976,
      "eval_loss": 0.8234286904335022,
      "eval_precision": 0.8332995670025105,
      "eval_recall": 0.8295833333333333,
      "eval_runtime": 18.1946,
      "eval_samples_per_second": 131.907,
      "eval_steps_per_second": 16.488,
      "step": 1000
    },
    {
      "epoch": 1.675,
      "grad_norm": 0.1259230226278305,
      "learning_rate": 0.00017766666666666666,
      "loss": 0.0105,
      "step": 1005
    },
    {
      "epoch": 1.6833333333333333,
      "grad_norm": 4.553035259246826,
      "learning_rate": 0.00017755555555555556,
      "loss": 0.0458,
      "step": 1010
    },
    {
      "epoch": 1.6916666666666667,
      "grad_norm": 0.04058966040611267,
      "learning_rate": 0.00017744444444444445,
      "loss": 0.1403,
      "step": 1015
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.04686415567994118,
      "learning_rate": 0.00017733333333333335,
      "loss": 0.009,
      "step": 1020
    },
    {
      "epoch": 1.7083333333333335,
      "grad_norm": 0.6194881796836853,
      "learning_rate": 0.00017722222222222222,
      "loss": 0.0388,
      "step": 1025
    },
    {
      "epoch": 1.7166666666666668,
      "grad_norm": 0.02042161114513874,
      "learning_rate": 0.00017711111111111112,
      "loss": 0.0368,
      "step": 1030
    },
    {
      "epoch": 1.725,
      "grad_norm": 8.613395690917969,
      "learning_rate": 0.00017700000000000002,
      "loss": 0.1299,
      "step": 1035
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.09454654157161713,
      "learning_rate": 0.0001768888888888889,
      "loss": 0.1904,
      "step": 1040
    },
    {
      "epoch": 1.7416666666666667,
      "grad_norm": 0.029059233143925667,
      "learning_rate": 0.00017677777777777776,
      "loss": 0.0469,
      "step": 1045
    },
    {
      "epoch": 1.75,
      "grad_norm": 1.5210379362106323,
      "learning_rate": 0.00017666666666666666,
      "loss": 0.1159,
      "step": 1050
    },
    {
      "epoch": 1.7583333333333333,
      "grad_norm": 1.662307858467102,
      "learning_rate": 0.00017655555555555556,
      "loss": 0.0813,
      "step": 1055
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 3.791964292526245,
      "learning_rate": 0.00017644444444444446,
      "loss": 0.2267,
      "step": 1060
    },
    {
      "epoch": 1.775,
      "grad_norm": 0.05541926622390747,
      "learning_rate": 0.00017633333333333335,
      "loss": 0.0436,
      "step": 1065
    },
    {
      "epoch": 1.7833333333333332,
      "grad_norm": 0.0756758376955986,
      "learning_rate": 0.00017622222222222223,
      "loss": 0.1916,
      "step": 1070
    },
    {
      "epoch": 1.7916666666666665,
      "grad_norm": 0.08944481611251831,
      "learning_rate": 0.00017611111111111112,
      "loss": 0.2239,
      "step": 1075
    },
    {
      "epoch": 1.8,
      "grad_norm": 8.514383316040039,
      "learning_rate": 0.00017600000000000002,
      "loss": 0.0331,
      "step": 1080
    },
    {
      "epoch": 1.8083333333333333,
      "grad_norm": 0.15985538065433502,
      "learning_rate": 0.0001758888888888889,
      "loss": 0.1114,
      "step": 1085
    },
    {
      "epoch": 1.8166666666666667,
      "grad_norm": 5.954916477203369,
      "learning_rate": 0.0001757777777777778,
      "loss": 0.0998,
      "step": 1090
    },
    {
      "epoch": 1.825,
      "grad_norm": 0.0530860498547554,
      "learning_rate": 0.00017566666666666666,
      "loss": 0.122,
      "step": 1095
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.22221684455871582,
      "learning_rate": 0.00017555555555555556,
      "loss": 0.1007,
      "step": 1100
    },
    {
      "epoch": 1.8333333333333335,
      "eval_accuracy": 0.7545833333333334,
      "eval_f1": 0.7460171878938288,
      "eval_loss": 1.1755529642105103,
      "eval_precision": 0.7483350955008106,
      "eval_recall": 0.7545833333333334,
      "eval_runtime": 18.016,
      "eval_samples_per_second": 133.215,
      "eval_steps_per_second": 16.652,
      "step": 1100
    },
    {
      "epoch": 1.8416666666666668,
      "grad_norm": 10.146465301513672,
      "learning_rate": 0.00017544444444444446,
      "loss": 0.0274,
      "step": 1105
    },
    {
      "epoch": 1.85,
      "grad_norm": 15.549821853637695,
      "learning_rate": 0.00017533333333333336,
      "loss": 0.1093,
      "step": 1110
    },
    {
      "epoch": 1.8583333333333334,
      "grad_norm": 0.32004624605178833,
      "learning_rate": 0.00017522222222222223,
      "loss": 0.2086,
      "step": 1115
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.8888370990753174,
      "learning_rate": 0.00017511111111111113,
      "loss": 0.0185,
      "step": 1120
    },
    {
      "epoch": 1.875,
      "grad_norm": 0.9219191074371338,
      "learning_rate": 0.000175,
      "loss": 0.0083,
      "step": 1125
    },
    {
      "epoch": 1.8833333333333333,
      "grad_norm": 3.8903403282165527,
      "learning_rate": 0.0001748888888888889,
      "loss": 0.0691,
      "step": 1130
    },
    {
      "epoch": 1.8916666666666666,
      "grad_norm": 9.25015926361084,
      "learning_rate": 0.0001747777777777778,
      "loss": 0.0792,
      "step": 1135
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.06439521908760071,
      "learning_rate": 0.00017466666666666667,
      "loss": 0.0052,
      "step": 1140
    },
    {
      "epoch": 1.9083333333333332,
      "grad_norm": 0.047238197177648544,
      "learning_rate": 0.00017455555555555556,
      "loss": 0.0658,
      "step": 1145
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 11.641410827636719,
      "learning_rate": 0.00017444444444444446,
      "loss": 0.1185,
      "step": 1150
    },
    {
      "epoch": 1.925,
      "grad_norm": 0.0362086221575737,
      "learning_rate": 0.00017433333333333336,
      "loss": 0.0806,
      "step": 1155
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 7.575094699859619,
      "learning_rate": 0.00017422222222222223,
      "loss": 0.0565,
      "step": 1160
    },
    {
      "epoch": 1.9416666666666667,
      "grad_norm": 5.987691879272461,
      "learning_rate": 0.0001741111111111111,
      "loss": 0.0572,
      "step": 1165
    },
    {
      "epoch": 1.95,
      "grad_norm": 1.4280240535736084,
      "learning_rate": 0.000174,
      "loss": 0.1209,
      "step": 1170
    },
    {
      "epoch": 1.9583333333333335,
      "grad_norm": 0.2531176209449768,
      "learning_rate": 0.0001738888888888889,
      "loss": 0.1365,
      "step": 1175
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 5.968636989593506,
      "learning_rate": 0.0001737777777777778,
      "loss": 0.3853,
      "step": 1180
    },
    {
      "epoch": 1.975,
      "grad_norm": 1.292290210723877,
      "learning_rate": 0.00017366666666666667,
      "loss": 0.134,
      "step": 1185
    },
    {
      "epoch": 1.9833333333333334,
      "grad_norm": 0.572566032409668,
      "learning_rate": 0.00017355555555555557,
      "loss": 0.0333,
      "step": 1190
    },
    {
      "epoch": 1.9916666666666667,
      "grad_norm": 0.10165812075138092,
      "learning_rate": 0.00017344444444444447,
      "loss": 0.0964,
      "step": 1195
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.035776931792497635,
      "learning_rate": 0.00017333333333333334,
      "loss": 0.0101,
      "step": 1200
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8445833333333334,
      "eval_f1": 0.8486388555893708,
      "eval_loss": 0.7921315431594849,
      "eval_precision": 0.8781963968966942,
      "eval_recall": 0.8445833333333334,
      "eval_runtime": 18.3931,
      "eval_samples_per_second": 130.484,
      "eval_steps_per_second": 16.31,
      "step": 1200
    },
    {
      "epoch": 2.0083333333333333,
      "grad_norm": 0.17690494656562805,
      "learning_rate": 0.00017322222222222223,
      "loss": 0.0185,
      "step": 1205
    },
    {
      "epoch": 2.0166666666666666,
      "grad_norm": 0.7300027012825012,
      "learning_rate": 0.0001731111111111111,
      "loss": 0.0178,
      "step": 1210
    },
    {
      "epoch": 2.025,
      "grad_norm": 0.04118001461029053,
      "learning_rate": 0.000173,
      "loss": 0.0676,
      "step": 1215
    },
    {
      "epoch": 2.033333333333333,
      "grad_norm": 0.02037004753947258,
      "learning_rate": 0.0001728888888888889,
      "loss": 0.007,
      "step": 1220
    },
    {
      "epoch": 2.0416666666666665,
      "grad_norm": 0.04270787537097931,
      "learning_rate": 0.0001727777777777778,
      "loss": 0.0039,
      "step": 1225
    },
    {
      "epoch": 2.05,
      "grad_norm": 5.223938465118408,
      "learning_rate": 0.00017266666666666667,
      "loss": 0.0915,
      "step": 1230
    },
    {
      "epoch": 2.058333333333333,
      "grad_norm": 11.873512268066406,
      "learning_rate": 0.00017255555555555557,
      "loss": 0.1172,
      "step": 1235
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.011548622511327267,
      "learning_rate": 0.00017244444444444444,
      "loss": 0.0046,
      "step": 1240
    },
    {
      "epoch": 2.075,
      "grad_norm": 4.348635196685791,
      "learning_rate": 0.00017233333333333334,
      "loss": 0.0575,
      "step": 1245
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.014801756478846073,
      "learning_rate": 0.00017222222222222224,
      "loss": 0.097,
      "step": 1250
    },
    {
      "epoch": 2.091666666666667,
      "grad_norm": 0.018487483263015747,
      "learning_rate": 0.0001721111111111111,
      "loss": 0.0098,
      "step": 1255
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.019285380840301514,
      "learning_rate": 0.000172,
      "loss": 0.0033,
      "step": 1260
    },
    {
      "epoch": 2.1083333333333334,
      "grad_norm": 0.19825060665607452,
      "learning_rate": 0.0001718888888888889,
      "loss": 0.0062,
      "step": 1265
    },
    {
      "epoch": 2.1166666666666667,
      "grad_norm": 2.0035433769226074,
      "learning_rate": 0.0001717777777777778,
      "loss": 0.0064,
      "step": 1270
    },
    {
      "epoch": 2.125,
      "grad_norm": 0.010347206145524979,
      "learning_rate": 0.00017166666666666667,
      "loss": 0.0216,
      "step": 1275
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.01208220049738884,
      "learning_rate": 0.00017155555555555555,
      "loss": 0.0033,
      "step": 1280
    },
    {
      "epoch": 2.1416666666666666,
      "grad_norm": 0.020755639299750328,
      "learning_rate": 0.00017144444444444444,
      "loss": 0.0029,
      "step": 1285
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.013217347674071789,
      "learning_rate": 0.00017133333333333334,
      "loss": 0.0061,
      "step": 1290
    },
    {
      "epoch": 2.158333333333333,
      "grad_norm": 0.2892434000968933,
      "learning_rate": 0.00017122222222222224,
      "loss": 0.0911,
      "step": 1295
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 0.26983487606048584,
      "learning_rate": 0.0001711111111111111,
      "loss": 0.0079,
      "step": 1300
    },
    {
      "epoch": 2.1666666666666665,
      "eval_accuracy": 0.8204166666666667,
      "eval_f1": 0.8241283685565426,
      "eval_loss": 0.962633490562439,
      "eval_precision": 0.8643605634661621,
      "eval_recall": 0.8204166666666667,
      "eval_runtime": 17.8284,
      "eval_samples_per_second": 134.617,
      "eval_steps_per_second": 16.827,
      "step": 1300
    },
    {
      "epoch": 2.175,
      "grad_norm": 0.018236879259347916,
      "learning_rate": 0.000171,
      "loss": 0.0068,
      "step": 1305
    },
    {
      "epoch": 2.183333333333333,
      "grad_norm": 0.05130280181765556,
      "learning_rate": 0.0001708888888888889,
      "loss": 0.017,
      "step": 1310
    },
    {
      "epoch": 2.191666666666667,
      "grad_norm": 3.7243845462799072,
      "learning_rate": 0.00017077777777777778,
      "loss": 0.1692,
      "step": 1315
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.08574812114238739,
      "learning_rate": 0.00017066666666666668,
      "loss": 0.1629,
      "step": 1320
    },
    {
      "epoch": 2.2083333333333335,
      "grad_norm": 0.13291341066360474,
      "learning_rate": 0.00017055555555555555,
      "loss": 0.0673,
      "step": 1325
    },
    {
      "epoch": 2.216666666666667,
      "grad_norm": 0.3502316474914551,
      "learning_rate": 0.00017044444444444445,
      "loss": 0.0128,
      "step": 1330
    },
    {
      "epoch": 2.225,
      "grad_norm": 0.017176169902086258,
      "learning_rate": 0.00017033333333333334,
      "loss": 0.0552,
      "step": 1335
    },
    {
      "epoch": 2.2333333333333334,
      "grad_norm": 0.01065369974821806,
      "learning_rate": 0.00017022222222222224,
      "loss": 0.0027,
      "step": 1340
    },
    {
      "epoch": 2.2416666666666667,
      "grad_norm": 0.14484953880310059,
      "learning_rate": 0.00017011111111111111,
      "loss": 0.005,
      "step": 1345
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.014878982678055763,
      "learning_rate": 0.00017,
      "loss": 0.0489,
      "step": 1350
    },
    {
      "epoch": 2.2583333333333333,
      "grad_norm": 6.600656032562256,
      "learning_rate": 0.0001698888888888889,
      "loss": 0.121,
      "step": 1355
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.03402682766318321,
      "learning_rate": 0.00016977777777777778,
      "loss": 0.1141,
      "step": 1360
    },
    {
      "epoch": 2.275,
      "grad_norm": 0.015115485526621342,
      "learning_rate": 0.00016966666666666668,
      "loss": 0.0037,
      "step": 1365
    },
    {
      "epoch": 2.283333333333333,
      "grad_norm": 0.05517643317580223,
      "learning_rate": 0.0001695777777777778,
      "loss": 0.0521,
      "step": 1370
    },
    {
      "epoch": 2.2916666666666665,
      "grad_norm": 3.667025566101074,
      "learning_rate": 0.00016946666666666667,
      "loss": 0.1231,
      "step": 1375
    },
    {
      "epoch": 2.3,
      "grad_norm": 1.4767664670944214,
      "learning_rate": 0.00016935555555555555,
      "loss": 0.0746,
      "step": 1380
    },
    {
      "epoch": 2.3083333333333336,
      "grad_norm": 2.5289435386657715,
      "learning_rate": 0.00016924444444444444,
      "loss": 0.0515,
      "step": 1385
    },
    {
      "epoch": 2.3166666666666664,
      "grad_norm": 0.10865817219018936,
      "learning_rate": 0.00016913333333333334,
      "loss": 0.1535,
      "step": 1390
    },
    {
      "epoch": 2.325,
      "grad_norm": 1.41209876537323,
      "learning_rate": 0.00016902222222222224,
      "loss": 0.2002,
      "step": 1395
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.5001236200332642,
      "learning_rate": 0.0001689111111111111,
      "loss": 0.0626,
      "step": 1400
    },
    {
      "epoch": 2.3333333333333335,
      "eval_accuracy": 0.8025,
      "eval_f1": 0.8040186405512059,
      "eval_loss": 1.0139660835266113,
      "eval_precision": 0.8440957589455216,
      "eval_recall": 0.8025,
      "eval_runtime": 17.8962,
      "eval_samples_per_second": 134.107,
      "eval_steps_per_second": 16.763,
      "step": 1400
    },
    {
      "epoch": 2.341666666666667,
      "grad_norm": 1.935197114944458,
      "learning_rate": 0.0001688,
      "loss": 0.1836,
      "step": 1405
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.11680977046489716,
      "learning_rate": 0.0001686888888888889,
      "loss": 0.0267,
      "step": 1410
    },
    {
      "epoch": 2.3583333333333334,
      "grad_norm": 0.5115224719047546,
      "learning_rate": 0.00016857777777777778,
      "loss": 0.1003,
      "step": 1415
    },
    {
      "epoch": 2.3666666666666667,
      "grad_norm": 8.335643768310547,
      "learning_rate": 0.00016846666666666668,
      "loss": 0.0615,
      "step": 1420
    },
    {
      "epoch": 2.375,
      "grad_norm": 6.623330593109131,
      "learning_rate": 0.00016835555555555555,
      "loss": 0.1622,
      "step": 1425
    },
    {
      "epoch": 2.3833333333333333,
      "grad_norm": 0.0888131856918335,
      "learning_rate": 0.00016824444444444445,
      "loss": 0.0515,
      "step": 1430
    },
    {
      "epoch": 2.3916666666666666,
      "grad_norm": 0.06386950612068176,
      "learning_rate": 0.00016813333333333335,
      "loss": 0.0204,
      "step": 1435
    },
    {
      "epoch": 2.4,
      "grad_norm": 5.526276588439941,
      "learning_rate": 0.00016802222222222224,
      "loss": 0.1539,
      "step": 1440
    },
    {
      "epoch": 2.408333333333333,
      "grad_norm": 0.030088569968938828,
      "learning_rate": 0.00016791111111111114,
      "loss": 0.0077,
      "step": 1445
    },
    {
      "epoch": 2.4166666666666665,
      "grad_norm": 0.029290739446878433,
      "learning_rate": 0.0001678,
      "loss": 0.0218,
      "step": 1450
    },
    {
      "epoch": 2.425,
      "grad_norm": 0.05510641634464264,
      "learning_rate": 0.00016768888888888888,
      "loss": 0.0124,
      "step": 1455
    },
    {
      "epoch": 2.4333333333333336,
      "grad_norm": 3.8548693656921387,
      "learning_rate": 0.00016757777777777778,
      "loss": 0.21,
      "step": 1460
    },
    {
      "epoch": 2.4416666666666664,
      "grad_norm": 0.6242858171463013,
      "learning_rate": 0.00016746666666666668,
      "loss": 0.0117,
      "step": 1465
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.01914370246231556,
      "learning_rate": 0.00016735555555555555,
      "loss": 0.0079,
      "step": 1470
    },
    {
      "epoch": 2.4583333333333335,
      "grad_norm": 0.017447274178266525,
      "learning_rate": 0.00016724444444444445,
      "loss": 0.0073,
      "step": 1475
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 0.0133663946762681,
      "learning_rate": 0.00016713333333333335,
      "loss": 0.0052,
      "step": 1480
    },
    {
      "epoch": 2.475,
      "grad_norm": 0.07016890496015549,
      "learning_rate": 0.00016702222222222225,
      "loss": 0.003,
      "step": 1485
    },
    {
      "epoch": 2.4833333333333334,
      "grad_norm": 0.055881988257169724,
      "learning_rate": 0.00016691111111111112,
      "loss": 0.0036,
      "step": 1490
    },
    {
      "epoch": 2.4916666666666667,
      "grad_norm": 0.01157098077237606,
      "learning_rate": 0.0001668,
      "loss": 0.004,
      "step": 1495
    },
    {
      "epoch": 2.5,
      "grad_norm": 5.6324462890625,
      "learning_rate": 0.0001666888888888889,
      "loss": 0.0216,
      "step": 1500
    },
    {
      "epoch": 2.5,
      "eval_accuracy": 0.8358333333333333,
      "eval_f1": 0.8364121407754843,
      "eval_loss": 0.9296824932098389,
      "eval_precision": 0.8540249157231362,
      "eval_recall": 0.8358333333333333,
      "eval_runtime": 18.0934,
      "eval_samples_per_second": 132.645,
      "eval_steps_per_second": 16.581,
      "step": 1500
    },
    {
      "epoch": 2.5083333333333333,
      "grad_norm": 5.373868942260742,
      "learning_rate": 0.00016657777777777779,
      "loss": 0.0759,
      "step": 1505
    },
    {
      "epoch": 2.5166666666666666,
      "grad_norm": 0.012565645389258862,
      "learning_rate": 0.00016646666666666668,
      "loss": 0.0444,
      "step": 1510
    },
    {
      "epoch": 2.525,
      "grad_norm": 0.012813134118914604,
      "learning_rate": 0.00016635555555555555,
      "loss": 0.0854,
      "step": 1515
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.009016650728881359,
      "learning_rate": 0.00016624444444444445,
      "loss": 0.0761,
      "step": 1520
    },
    {
      "epoch": 2.5416666666666665,
      "grad_norm": 0.00858945120126009,
      "learning_rate": 0.00016613333333333335,
      "loss": 0.0029,
      "step": 1525
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.010254341177642345,
      "learning_rate": 0.00016602222222222222,
      "loss": 0.0033,
      "step": 1530
    },
    {
      "epoch": 2.5583333333333336,
      "grad_norm": 0.2695866525173187,
      "learning_rate": 0.00016591111111111112,
      "loss": 0.0773,
      "step": 1535
    },
    {
      "epoch": 2.5666666666666664,
      "grad_norm": 0.05986815690994263,
      "learning_rate": 0.0001658,
      "loss": 0.0168,
      "step": 1540
    },
    {
      "epoch": 2.575,
      "grad_norm": 0.010940656997263432,
      "learning_rate": 0.0001656888888888889,
      "loss": 0.0039,
      "step": 1545
    },
    {
      "epoch": 2.5833333333333335,
      "grad_norm": 1.5893652439117432,
      "learning_rate": 0.0001655777777777778,
      "loss": 0.1364,
      "step": 1550
    },
    {
      "epoch": 2.591666666666667,
      "grad_norm": 0.00945369154214859,
      "learning_rate": 0.00016546666666666669,
      "loss": 0.0024,
      "step": 1555
    },
    {
      "epoch": 2.6,
      "grad_norm": 2.4074699878692627,
      "learning_rate": 0.00016535555555555556,
      "loss": 0.106,
      "step": 1560
    },
    {
      "epoch": 2.6083333333333334,
      "grad_norm": 0.020845500752329826,
      "learning_rate": 0.00016524444444444446,
      "loss": 0.0034,
      "step": 1565
    },
    {
      "epoch": 2.6166666666666667,
      "grad_norm": 4.210861682891846,
      "learning_rate": 0.00016513333333333333,
      "loss": 0.0318,
      "step": 1570
    },
    {
      "epoch": 2.625,
      "grad_norm": 0.3067626953125,
      "learning_rate": 0.00016502222222222222,
      "loss": 0.0062,
      "step": 1575
    },
    {
      "epoch": 2.6333333333333333,
      "grad_norm": 4.853736877441406,
      "learning_rate": 0.00016491111111111112,
      "loss": 0.0833,
      "step": 1580
    },
    {
      "epoch": 2.6416666666666666,
      "grad_norm": 0.16983097791671753,
      "learning_rate": 0.0001648,
      "loss": 0.0244,
      "step": 1585
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.027604274451732635,
      "learning_rate": 0.0001646888888888889,
      "loss": 0.1258,
      "step": 1590
    },
    {
      "epoch": 2.658333333333333,
      "grad_norm": 0.40857452154159546,
      "learning_rate": 0.0001645777777777778,
      "loss": 0.221,
      "step": 1595
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.23683498799800873,
      "learning_rate": 0.0001644666666666667,
      "loss": 0.0707,
      "step": 1600
    },
    {
      "epoch": 2.6666666666666665,
      "eval_accuracy": 0.8195833333333333,
      "eval_f1": 0.8202834501977931,
      "eval_loss": 0.9192949533462524,
      "eval_precision": 0.8424994774015306,
      "eval_recall": 0.8195833333333333,
      "eval_runtime": 18.7909,
      "eval_samples_per_second": 127.722,
      "eval_steps_per_second": 15.965,
      "step": 1600
    },
    {
      "epoch": 2.675,
      "grad_norm": 0.012423655949532986,
      "learning_rate": 0.0001643555555555556,
      "loss": 0.181,
      "step": 1605
    },
    {
      "epoch": 2.6833333333333336,
      "grad_norm": 0.23234008252620697,
      "learning_rate": 0.00016424444444444446,
      "loss": 0.0722,
      "step": 1610
    },
    {
      "epoch": 2.6916666666666664,
      "grad_norm": 0.01295930054038763,
      "learning_rate": 0.00016413333333333333,
      "loss": 0.0078,
      "step": 1615
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.011570543050765991,
      "learning_rate": 0.00016402222222222223,
      "loss": 0.0368,
      "step": 1620
    },
    {
      "epoch": 2.7083333333333335,
      "grad_norm": 0.02480444870889187,
      "learning_rate": 0.00016391111111111113,
      "loss": 0.003,
      "step": 1625
    },
    {
      "epoch": 2.716666666666667,
      "grad_norm": 0.009134211577475071,
      "learning_rate": 0.0001638,
      "loss": 0.0117,
      "step": 1630
    },
    {
      "epoch": 2.725,
      "grad_norm": 0.3629448711872101,
      "learning_rate": 0.0001636888888888889,
      "loss": 0.0181,
      "step": 1635
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.6004688739776611,
      "learning_rate": 0.0001635777777777778,
      "loss": 0.0042,
      "step": 1640
    },
    {
      "epoch": 2.7416666666666667,
      "grad_norm": 0.007855626754462719,
      "learning_rate": 0.0001634666666666667,
      "loss": 0.0238,
      "step": 1645
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.03700835630297661,
      "learning_rate": 0.00016335555555555556,
      "loss": 0.0557,
      "step": 1650
    },
    {
      "epoch": 2.7583333333333333,
      "grad_norm": 0.007613690569996834,
      "learning_rate": 0.00016324444444444443,
      "loss": 0.0018,
      "step": 1655
    },
    {
      "epoch": 2.7666666666666666,
      "grad_norm": 0.018960734829306602,
      "learning_rate": 0.00016313333333333333,
      "loss": 0.0106,
      "step": 1660
    },
    {
      "epoch": 2.775,
      "grad_norm": 0.026479866355657578,
      "learning_rate": 0.00016302222222222223,
      "loss": 0.003,
      "step": 1665
    },
    {
      "epoch": 2.783333333333333,
      "grad_norm": 2.494203567504883,
      "learning_rate": 0.00016291111111111113,
      "loss": 0.0104,
      "step": 1670
    },
    {
      "epoch": 2.7916666666666665,
      "grad_norm": 0.08876601606607437,
      "learning_rate": 0.0001628,
      "loss": 0.0976,
      "step": 1675
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.04258675500750542,
      "learning_rate": 0.0001626888888888889,
      "loss": 0.0025,
      "step": 1680
    },
    {
      "epoch": 2.8083333333333336,
      "grad_norm": 15.745745658874512,
      "learning_rate": 0.0001625777777777778,
      "loss": 0.0459,
      "step": 1685
    },
    {
      "epoch": 2.8166666666666664,
      "grad_norm": 0.09257371723651886,
      "learning_rate": 0.00016246666666666667,
      "loss": 0.0049,
      "step": 1690
    },
    {
      "epoch": 2.825,
      "grad_norm": 0.026056913658976555,
      "learning_rate": 0.00016235555555555557,
      "loss": 0.0459,
      "step": 1695
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.017743397504091263,
      "learning_rate": 0.00016224444444444444,
      "loss": 0.0308,
      "step": 1700
    },
    {
      "epoch": 2.8333333333333335,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8208696951303304,
      "eval_loss": 0.9988083839416504,
      "eval_precision": 0.8428827597589568,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.0806,
      "eval_samples_per_second": 132.739,
      "eval_steps_per_second": 16.592,
      "step": 1700
    },
    {
      "epoch": 2.841666666666667,
      "grad_norm": 1.869798183441162,
      "learning_rate": 0.00016213333333333334,
      "loss": 0.1467,
      "step": 1705
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.7135327458381653,
      "learning_rate": 0.00016202222222222223,
      "loss": 0.043,
      "step": 1710
    },
    {
      "epoch": 2.8583333333333334,
      "grad_norm": 0.00916217640042305,
      "learning_rate": 0.00016191111111111113,
      "loss": 0.0077,
      "step": 1715
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.03528512641787529,
      "learning_rate": 0.00016180000000000003,
      "loss": 0.1586,
      "step": 1720
    },
    {
      "epoch": 2.875,
      "grad_norm": 0.32827553153038025,
      "learning_rate": 0.0001616888888888889,
      "loss": 0.0967,
      "step": 1725
    },
    {
      "epoch": 2.8833333333333333,
      "grad_norm": 0.009072713553905487,
      "learning_rate": 0.00016157777777777777,
      "loss": 0.0791,
      "step": 1730
    },
    {
      "epoch": 2.8916666666666666,
      "grad_norm": 0.07432930916547775,
      "learning_rate": 0.00016146666666666667,
      "loss": 0.003,
      "step": 1735
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.01160107459872961,
      "learning_rate": 0.00016135555555555557,
      "loss": 0.0472,
      "step": 1740
    },
    {
      "epoch": 2.908333333333333,
      "grad_norm": 4.919012546539307,
      "learning_rate": 0.00016124444444444444,
      "loss": 0.0661,
      "step": 1745
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.6997659206390381,
      "learning_rate": 0.00016113333333333334,
      "loss": 0.0389,
      "step": 1750
    },
    {
      "epoch": 2.925,
      "grad_norm": 6.525749206542969,
      "learning_rate": 0.00016102222222222224,
      "loss": 0.0172,
      "step": 1755
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 8.557374954223633,
      "learning_rate": 0.00016091111111111113,
      "loss": 0.1692,
      "step": 1760
    },
    {
      "epoch": 2.9416666666666664,
      "grad_norm": 0.05786851793527603,
      "learning_rate": 0.0001608,
      "loss": 0.0031,
      "step": 1765
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.11715030670166,
      "learning_rate": 0.00016068888888888888,
      "loss": 0.0057,
      "step": 1770
    },
    {
      "epoch": 2.9583333333333335,
      "grad_norm": 0.7119795083999634,
      "learning_rate": 0.00016057777777777777,
      "loss": 0.1777,
      "step": 1775
    },
    {
      "epoch": 2.966666666666667,
      "grad_norm": 1.015515923500061,
      "learning_rate": 0.00016046666666666667,
      "loss": 0.0077,
      "step": 1780
    },
    {
      "epoch": 2.975,
      "grad_norm": 0.012864797376096249,
      "learning_rate": 0.00016035555555555557,
      "loss": 0.0613,
      "step": 1785
    },
    {
      "epoch": 2.9833333333333334,
      "grad_norm": 0.009866280481219292,
      "learning_rate": 0.00016024444444444444,
      "loss": 0.0027,
      "step": 1790
    },
    {
      "epoch": 2.9916666666666667,
      "grad_norm": 0.5316603779792786,
      "learning_rate": 0.00016013333333333334,
      "loss": 0.0442,
      "step": 1795
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.2434297800064087,
      "learning_rate": 0.00016002222222222224,
      "loss": 0.0863,
      "step": 1800
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.83,
      "eval_f1": 0.833228715529858,
      "eval_loss": 0.8082871437072754,
      "eval_precision": 0.8591813627152114,
      "eval_recall": 0.83,
      "eval_runtime": 17.9341,
      "eval_samples_per_second": 133.823,
      "eval_steps_per_second": 16.728,
      "step": 1800
    },
    {
      "epoch": 3.0083333333333333,
      "grad_norm": 0.033254630863666534,
      "learning_rate": 0.0001599111111111111,
      "loss": 0.0179,
      "step": 1805
    },
    {
      "epoch": 3.0166666666666666,
      "grad_norm": 6.121527194976807,
      "learning_rate": 0.0001598,
      "loss": 0.0398,
      "step": 1810
    },
    {
      "epoch": 3.025,
      "grad_norm": 0.006764343939721584,
      "learning_rate": 0.00015968888888888888,
      "loss": 0.0064,
      "step": 1815
    },
    {
      "epoch": 3.033333333333333,
      "grad_norm": 5.11829948425293,
      "learning_rate": 0.00015957777777777778,
      "loss": 0.0119,
      "step": 1820
    },
    {
      "epoch": 3.0416666666666665,
      "grad_norm": 0.012330752797424793,
      "learning_rate": 0.00015946666666666668,
      "loss": 0.1141,
      "step": 1825
    },
    {
      "epoch": 3.05,
      "grad_norm": 3.2880618572235107,
      "learning_rate": 0.00015935555555555557,
      "loss": 0.0095,
      "step": 1830
    },
    {
      "epoch": 3.058333333333333,
      "grad_norm": 9.05775260925293,
      "learning_rate": 0.00015924444444444447,
      "loss": 0.0562,
      "step": 1835
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 2.7329421043395996,
      "learning_rate": 0.00015913333333333334,
      "loss": 0.0915,
      "step": 1840
    },
    {
      "epoch": 3.075,
      "grad_norm": 3.682798147201538,
      "learning_rate": 0.00015902222222222221,
      "loss": 0.1855,
      "step": 1845
    },
    {
      "epoch": 3.0833333333333335,
      "grad_norm": 0.011415238492190838,
      "learning_rate": 0.0001589111111111111,
      "loss": 0.0238,
      "step": 1850
    },
    {
      "epoch": 3.091666666666667,
      "grad_norm": 0.008496593683958054,
      "learning_rate": 0.0001588,
      "loss": 0.0019,
      "step": 1855
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.02646704949438572,
      "learning_rate": 0.00015868888888888888,
      "loss": 0.0726,
      "step": 1860
    },
    {
      "epoch": 3.1083333333333334,
      "grad_norm": 0.013407823629677296,
      "learning_rate": 0.00015857777777777778,
      "loss": 0.0814,
      "step": 1865
    },
    {
      "epoch": 3.1166666666666667,
      "grad_norm": 0.2641480267047882,
      "learning_rate": 0.00015846666666666668,
      "loss": 0.0083,
      "step": 1870
    },
    {
      "epoch": 3.125,
      "grad_norm": 0.01854868233203888,
      "learning_rate": 0.00015835555555555558,
      "loss": 0.0028,
      "step": 1875
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 7.923130512237549,
      "learning_rate": 0.00015824444444444448,
      "loss": 0.0173,
      "step": 1880
    },
    {
      "epoch": 3.1416666666666666,
      "grad_norm": 0.006003677845001221,
      "learning_rate": 0.00015813333333333335,
      "loss": 0.0046,
      "step": 1885
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.009980116970837116,
      "learning_rate": 0.00015802222222222222,
      "loss": 0.0018,
      "step": 1890
    },
    {
      "epoch": 3.158333333333333,
      "grad_norm": 0.008412596769630909,
      "learning_rate": 0.00015791111111111112,
      "loss": 0.0103,
      "step": 1895
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 0.010537034831941128,
      "learning_rate": 0.00015780000000000001,
      "loss": 0.0016,
      "step": 1900
    },
    {
      "epoch": 3.1666666666666665,
      "eval_accuracy": 0.8029166666666666,
      "eval_f1": 0.8079004600681534,
      "eval_loss": 1.193318486213684,
      "eval_precision": 0.8474838477453119,
      "eval_recall": 0.8029166666666666,
      "eval_runtime": 18.2452,
      "eval_samples_per_second": 131.542,
      "eval_steps_per_second": 16.443,
      "step": 1900
    },
    {
      "epoch": 3.175,
      "grad_norm": 0.005589265376329422,
      "learning_rate": 0.00015768888888888888,
      "loss": 0.0021,
      "step": 1905
    },
    {
      "epoch": 3.183333333333333,
      "grad_norm": 0.007199297659099102,
      "learning_rate": 0.00015757777777777778,
      "loss": 0.0507,
      "step": 1910
    },
    {
      "epoch": 3.191666666666667,
      "grad_norm": 0.30990833044052124,
      "learning_rate": 0.00015746666666666668,
      "loss": 0.0023,
      "step": 1915
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.014677413739264011,
      "learning_rate": 0.00015735555555555558,
      "loss": 0.0018,
      "step": 1920
    },
    {
      "epoch": 3.2083333333333335,
      "grad_norm": 0.02718236669898033,
      "learning_rate": 0.00015724444444444445,
      "loss": 0.032,
      "step": 1925
    },
    {
      "epoch": 3.216666666666667,
      "grad_norm": 0.009980247355997562,
      "learning_rate": 0.00015713333333333332,
      "loss": 0.002,
      "step": 1930
    },
    {
      "epoch": 3.225,
      "grad_norm": 0.005029183346778154,
      "learning_rate": 0.00015702222222222222,
      "loss": 0.0013,
      "step": 1935
    },
    {
      "epoch": 3.2333333333333334,
      "grad_norm": 0.006297443527728319,
      "learning_rate": 0.00015691111111111112,
      "loss": 0.0242,
      "step": 1940
    },
    {
      "epoch": 3.2416666666666667,
      "grad_norm": 0.09490521997213364,
      "learning_rate": 0.00015680000000000002,
      "loss": 0.0025,
      "step": 1945
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.008948792703449726,
      "learning_rate": 0.00015668888888888891,
      "loss": 0.0524,
      "step": 1950
    },
    {
      "epoch": 3.2583333333333333,
      "grad_norm": 0.007879581302404404,
      "learning_rate": 0.00015657777777777779,
      "loss": 0.0645,
      "step": 1955
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 0.0681127980351448,
      "learning_rate": 0.00015646666666666668,
      "loss": 0.0026,
      "step": 1960
    },
    {
      "epoch": 3.275,
      "grad_norm": 0.004999805241823196,
      "learning_rate": 0.00015635555555555556,
      "loss": 0.1341,
      "step": 1965
    },
    {
      "epoch": 3.283333333333333,
      "grad_norm": 0.009472894482314587,
      "learning_rate": 0.00015624444444444445,
      "loss": 0.0521,
      "step": 1970
    },
    {
      "epoch": 3.2916666666666665,
      "grad_norm": 0.010226757265627384,
      "learning_rate": 0.00015613333333333332,
      "loss": 0.0031,
      "step": 1975
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.013093075715005398,
      "learning_rate": 0.00015602222222222222,
      "loss": 0.01,
      "step": 1980
    },
    {
      "epoch": 3.3083333333333336,
      "grad_norm": 0.01161549985408783,
      "learning_rate": 0.00015591111111111112,
      "loss": 0.0573,
      "step": 1985
    },
    {
      "epoch": 3.3166666666666664,
      "grad_norm": 0.36183589696884155,
      "learning_rate": 0.00015580000000000002,
      "loss": 0.0599,
      "step": 1990
    },
    {
      "epoch": 3.325,
      "grad_norm": 0.004613443277776241,
      "learning_rate": 0.00015568888888888892,
      "loss": 0.0018,
      "step": 1995
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.006088438909500837,
      "learning_rate": 0.0001555777777777778,
      "loss": 0.0014,
      "step": 2000
    },
    {
      "epoch": 3.3333333333333335,
      "eval_accuracy": 0.8141666666666667,
      "eval_f1": 0.8132378773675633,
      "eval_loss": 1.0994751453399658,
      "eval_precision": 0.8376052682414116,
      "eval_recall": 0.8141666666666667,
      "eval_runtime": 18.8022,
      "eval_samples_per_second": 127.645,
      "eval_steps_per_second": 15.956,
      "step": 2000
    },
    {
      "epoch": 3.341666666666667,
      "grad_norm": 0.004645043984055519,
      "learning_rate": 0.00015546666666666666,
      "loss": 0.0024,
      "step": 2005
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.006229855120182037,
      "learning_rate": 0.00015535555555555556,
      "loss": 0.0015,
      "step": 2010
    },
    {
      "epoch": 3.3583333333333334,
      "grad_norm": 0.006309430580586195,
      "learning_rate": 0.00015524444444444446,
      "loss": 0.0018,
      "step": 2015
    },
    {
      "epoch": 3.3666666666666667,
      "grad_norm": 0.005387200973927975,
      "learning_rate": 0.00015513333333333333,
      "loss": 0.0012,
      "step": 2020
    },
    {
      "epoch": 3.375,
      "grad_norm": 0.005517189856618643,
      "learning_rate": 0.00015502222222222223,
      "loss": 0.0457,
      "step": 2025
    },
    {
      "epoch": 3.3833333333333333,
      "grad_norm": 0.006549169775098562,
      "learning_rate": 0.00015491111111111112,
      "loss": 0.002,
      "step": 2030
    },
    {
      "epoch": 3.3916666666666666,
      "grad_norm": 0.005114941392093897,
      "learning_rate": 0.00015480000000000002,
      "loss": 0.0474,
      "step": 2035
    },
    {
      "epoch": 3.4,
      "grad_norm": 9.307825088500977,
      "learning_rate": 0.0001546888888888889,
      "loss": 0.0838,
      "step": 2040
    },
    {
      "epoch": 3.408333333333333,
      "grad_norm": 0.08294854313135147,
      "learning_rate": 0.00015457777777777776,
      "loss": 0.1001,
      "step": 2045
    },
    {
      "epoch": 3.4166666666666665,
      "grad_norm": 0.005071722902357578,
      "learning_rate": 0.00015446666666666666,
      "loss": 0.0019,
      "step": 2050
    },
    {
      "epoch": 3.425,
      "grad_norm": 0.1845548152923584,
      "learning_rate": 0.00015435555555555556,
      "loss": 0.0028,
      "step": 2055
    },
    {
      "epoch": 3.4333333333333336,
      "grad_norm": 0.008177589625120163,
      "learning_rate": 0.00015424444444444446,
      "loss": 0.0027,
      "step": 2060
    },
    {
      "epoch": 3.4416666666666664,
      "grad_norm": 0.07816571742296219,
      "learning_rate": 0.00015413333333333336,
      "loss": 0.0293,
      "step": 2065
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.008550903759896755,
      "learning_rate": 0.00015402222222222223,
      "loss": 0.0635,
      "step": 2070
    },
    {
      "epoch": 3.4583333333333335,
      "grad_norm": 0.010175446979701519,
      "learning_rate": 0.00015391111111111113,
      "loss": 0.0727,
      "step": 2075
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.04684434086084366,
      "learning_rate": 0.0001538,
      "loss": 0.0332,
      "step": 2080
    },
    {
      "epoch": 3.475,
      "grad_norm": 3.877901554107666,
      "learning_rate": 0.0001536888888888889,
      "loss": 0.0149,
      "step": 2085
    },
    {
      "epoch": 3.4833333333333334,
      "grad_norm": 0.006674007046967745,
      "learning_rate": 0.00015357777777777777,
      "loss": 0.0084,
      "step": 2090
    },
    {
      "epoch": 3.4916666666666667,
      "grad_norm": 0.6899317502975464,
      "learning_rate": 0.00015346666666666667,
      "loss": 0.0794,
      "step": 2095
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.051600661128759384,
      "learning_rate": 0.00015335555555555556,
      "loss": 0.0745,
      "step": 2100
    },
    {
      "epoch": 3.5,
      "eval_accuracy": 0.8154166666666667,
      "eval_f1": 0.8258845657738993,
      "eval_loss": 1.0347716808319092,
      "eval_precision": 0.8720171442710104,
      "eval_recall": 0.8154166666666667,
      "eval_runtime": 17.9402,
      "eval_samples_per_second": 133.778,
      "eval_steps_per_second": 16.722,
      "step": 2100
    },
    {
      "epoch": 3.5083333333333333,
      "grad_norm": 2.2478811740875244,
      "learning_rate": 0.00015324444444444446,
      "loss": 0.0678,
      "step": 2105
    },
    {
      "epoch": 3.5166666666666666,
      "grad_norm": 0.01159503310918808,
      "learning_rate": 0.00015313333333333336,
      "loss": 0.0019,
      "step": 2110
    },
    {
      "epoch": 3.525,
      "grad_norm": 0.004447268787771463,
      "learning_rate": 0.00015302222222222223,
      "loss": 0.0513,
      "step": 2115
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.005516712553799152,
      "learning_rate": 0.00015291111111111113,
      "loss": 0.0212,
      "step": 2120
    },
    {
      "epoch": 3.5416666666666665,
      "grad_norm": 0.004948765505105257,
      "learning_rate": 0.0001528,
      "loss": 0.2967,
      "step": 2125
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.01642264612019062,
      "learning_rate": 0.0001526888888888889,
      "loss": 0.0015,
      "step": 2130
    },
    {
      "epoch": 3.5583333333333336,
      "grad_norm": 0.021371973678469658,
      "learning_rate": 0.00015257777777777777,
      "loss": 0.0025,
      "step": 2135
    },
    {
      "epoch": 3.5666666666666664,
      "grad_norm": 0.06802453845739365,
      "learning_rate": 0.00015246666666666667,
      "loss": 0.0027,
      "step": 2140
    },
    {
      "epoch": 3.575,
      "grad_norm": 0.021275917068123817,
      "learning_rate": 0.00015235555555555557,
      "loss": 0.0503,
      "step": 2145
    },
    {
      "epoch": 3.5833333333333335,
      "grad_norm": 0.14588746428489685,
      "learning_rate": 0.00015224444444444446,
      "loss": 0.0062,
      "step": 2150
    },
    {
      "epoch": 3.591666666666667,
      "grad_norm": 3.6198761463165283,
      "learning_rate": 0.00015213333333333336,
      "loss": 0.0228,
      "step": 2155
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.009636612609028816,
      "learning_rate": 0.00015202222222222223,
      "loss": 0.0179,
      "step": 2160
    },
    {
      "epoch": 3.6083333333333334,
      "grad_norm": 0.004948497749865055,
      "learning_rate": 0.0001519111111111111,
      "loss": 0.0646,
      "step": 2165
    },
    {
      "epoch": 3.6166666666666667,
      "grad_norm": 6.074162483215332,
      "learning_rate": 0.0001518,
      "loss": 0.0857,
      "step": 2170
    },
    {
      "epoch": 3.625,
      "grad_norm": 0.060495831072330475,
      "learning_rate": 0.0001516888888888889,
      "loss": 0.1161,
      "step": 2175
    },
    {
      "epoch": 3.6333333333333333,
      "grad_norm": 6.233484745025635,
      "learning_rate": 0.00015157777777777777,
      "loss": 0.3805,
      "step": 2180
    },
    {
      "epoch": 3.6416666666666666,
      "grad_norm": 0.5714023113250732,
      "learning_rate": 0.00015146666666666667,
      "loss": 0.1591,
      "step": 2185
    },
    {
      "epoch": 3.65,
      "grad_norm": 9.162524223327637,
      "learning_rate": 0.00015135555555555557,
      "loss": 0.1003,
      "step": 2190
    },
    {
      "epoch": 3.658333333333333,
      "grad_norm": 0.0637994259595871,
      "learning_rate": 0.00015124444444444447,
      "loss": 0.0461,
      "step": 2195
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.056585535407066345,
      "learning_rate": 0.00015113333333333334,
      "loss": 0.0226,
      "step": 2200
    },
    {
      "epoch": 3.6666666666666665,
      "eval_accuracy": 0.8275,
      "eval_f1": 0.8303002595386237,
      "eval_loss": 0.8861278295516968,
      "eval_precision": 0.8576301843455633,
      "eval_recall": 0.8275,
      "eval_runtime": 17.9177,
      "eval_samples_per_second": 133.946,
      "eval_steps_per_second": 16.743,
      "step": 2200
    },
    {
      "epoch": 3.675,
      "grad_norm": 0.228486567735672,
      "learning_rate": 0.0001510222222222222,
      "loss": 0.0093,
      "step": 2205
    },
    {
      "epoch": 3.6833333333333336,
      "grad_norm": 0.006598909385502338,
      "learning_rate": 0.0001509111111111111,
      "loss": 0.0033,
      "step": 2210
    },
    {
      "epoch": 3.6916666666666664,
      "grad_norm": 0.1500961184501648,
      "learning_rate": 0.0001508,
      "loss": 0.055,
      "step": 2215
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.014531717635691166,
      "learning_rate": 0.0001506888888888889,
      "loss": 0.1585,
      "step": 2220
    },
    {
      "epoch": 3.7083333333333335,
      "grad_norm": 0.03280093893408775,
      "learning_rate": 0.0001505777777777778,
      "loss": 0.0022,
      "step": 2225
    },
    {
      "epoch": 3.716666666666667,
      "grad_norm": 0.275345116853714,
      "learning_rate": 0.00015046666666666667,
      "loss": 0.0635,
      "step": 2230
    },
    {
      "epoch": 3.725,
      "grad_norm": 0.25307852029800415,
      "learning_rate": 0.00015035555555555557,
      "loss": 0.0029,
      "step": 2235
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.006063135340809822,
      "learning_rate": 0.00015024444444444444,
      "loss": 0.0022,
      "step": 2240
    },
    {
      "epoch": 3.7416666666666667,
      "grad_norm": 0.010847946628928185,
      "learning_rate": 0.00015013333333333334,
      "loss": 0.0575,
      "step": 2245
    },
    {
      "epoch": 3.75,
      "grad_norm": 8.533001899719238,
      "learning_rate": 0.0001500222222222222,
      "loss": 0.1632,
      "step": 2250
    },
    {
      "epoch": 3.7583333333333333,
      "grad_norm": 0.214799702167511,
      "learning_rate": 0.0001499111111111111,
      "loss": 0.0478,
      "step": 2255
    },
    {
      "epoch": 3.7666666666666666,
      "grad_norm": 0.013580258004367352,
      "learning_rate": 0.0001498,
      "loss": 0.1663,
      "step": 2260
    },
    {
      "epoch": 3.775,
      "grad_norm": 0.3218544125556946,
      "learning_rate": 0.0001496888888888889,
      "loss": 0.0031,
      "step": 2265
    },
    {
      "epoch": 3.783333333333333,
      "grad_norm": 0.00958680734038353,
      "learning_rate": 0.0001495777777777778,
      "loss": 0.0035,
      "step": 2270
    },
    {
      "epoch": 3.7916666666666665,
      "grad_norm": 0.024218592792749405,
      "learning_rate": 0.00014946666666666668,
      "loss": 0.0333,
      "step": 2275
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.014411198906600475,
      "learning_rate": 0.00014935555555555555,
      "loss": 0.0025,
      "step": 2280
    },
    {
      "epoch": 3.8083333333333336,
      "grad_norm": 0.007269784342497587,
      "learning_rate": 0.00014924444444444445,
      "loss": 0.0335,
      "step": 2285
    },
    {
      "epoch": 3.8166666666666664,
      "grad_norm": 12.294364929199219,
      "learning_rate": 0.00014913333333333334,
      "loss": 0.1584,
      "step": 2290
    },
    {
      "epoch": 3.825,
      "grad_norm": 0.1902618557214737,
      "learning_rate": 0.00014902222222222222,
      "loss": 0.0026,
      "step": 2295
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 0.013722378760576248,
      "learning_rate": 0.00014891111111111111,
      "loss": 0.0159,
      "step": 2300
    },
    {
      "epoch": 3.8333333333333335,
      "eval_accuracy": 0.79,
      "eval_f1": 0.7981183278425654,
      "eval_loss": 1.147566318511963,
      "eval_precision": 0.8250781182600171,
      "eval_recall": 0.79,
      "eval_runtime": 18.0732,
      "eval_samples_per_second": 132.794,
      "eval_steps_per_second": 16.599,
      "step": 2300
    },
    {
      "epoch": 3.841666666666667,
      "grad_norm": 5.189751148223877,
      "learning_rate": 0.0001488,
      "loss": 0.064,
      "step": 2305
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.7780084013938904,
      "learning_rate": 0.0001486888888888889,
      "loss": 0.0032,
      "step": 2310
    },
    {
      "epoch": 3.8583333333333334,
      "grad_norm": 2.466583728790283,
      "learning_rate": 0.00014857777777777778,
      "loss": 0.1025,
      "step": 2315
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.4215017557144165,
      "learning_rate": 0.00014846666666666665,
      "loss": 0.1298,
      "step": 2320
    },
    {
      "epoch": 3.875,
      "grad_norm": 3.3944811820983887,
      "learning_rate": 0.00014835555555555555,
      "loss": 0.0902,
      "step": 2325
    },
    {
      "epoch": 3.8833333333333333,
      "grad_norm": 0.00720182154327631,
      "learning_rate": 0.00014824444444444445,
      "loss": 0.1217,
      "step": 2330
    },
    {
      "epoch": 3.8916666666666666,
      "grad_norm": 0.020751161500811577,
      "learning_rate": 0.00014813333333333335,
      "loss": 0.0075,
      "step": 2335
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.025827821344137192,
      "learning_rate": 0.00014802222222222225,
      "loss": 0.0037,
      "step": 2340
    },
    {
      "epoch": 3.908333333333333,
      "grad_norm": 0.1629042774438858,
      "learning_rate": 0.00014791111111111112,
      "loss": 0.0099,
      "step": 2345
    },
    {
      "epoch": 3.9166666666666665,
      "grad_norm": 0.03242980316281319,
      "learning_rate": 0.00014780000000000001,
      "loss": 0.0018,
      "step": 2350
    },
    {
      "epoch": 3.925,
      "grad_norm": 2.801682949066162,
      "learning_rate": 0.00014768888888888889,
      "loss": 0.0395,
      "step": 2355
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 0.004669086541980505,
      "learning_rate": 0.00014757777777777778,
      "loss": 0.0019,
      "step": 2360
    },
    {
      "epoch": 3.9416666666666664,
      "grad_norm": 0.01964460127055645,
      "learning_rate": 0.00014746666666666666,
      "loss": 0.0027,
      "step": 2365
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.005648770835250616,
      "learning_rate": 0.00014735555555555555,
      "loss": 0.0241,
      "step": 2370
    },
    {
      "epoch": 3.9583333333333335,
      "grad_norm": 0.006218981463462114,
      "learning_rate": 0.00014724444444444445,
      "loss": 0.0992,
      "step": 2375
    },
    {
      "epoch": 3.966666666666667,
      "grad_norm": 0.012952107936143875,
      "learning_rate": 0.00014713333333333335,
      "loss": 0.0741,
      "step": 2380
    },
    {
      "epoch": 3.975,
      "grad_norm": 7.1673078536987305,
      "learning_rate": 0.00014702222222222225,
      "loss": 0.0878,
      "step": 2385
    },
    {
      "epoch": 3.9833333333333334,
      "grad_norm": 2.917966842651367,
      "learning_rate": 0.00014691111111111112,
      "loss": 0.0101,
      "step": 2390
    },
    {
      "epoch": 3.9916666666666667,
      "grad_norm": 0.011230905540287495,
      "learning_rate": 0.00014680000000000002,
      "loss": 0.0028,
      "step": 2395
    },
    {
      "epoch": 4.0,
      "grad_norm": 9.848793029785156,
      "learning_rate": 0.0001466888888888889,
      "loss": 0.1398,
      "step": 2400
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.7879166666666667,
      "eval_f1": 0.7844615477989856,
      "eval_loss": 1.2558895349502563,
      "eval_precision": 0.8283958853373351,
      "eval_recall": 0.7879166666666667,
      "eval_runtime": 17.9171,
      "eval_samples_per_second": 133.95,
      "eval_steps_per_second": 16.744,
      "step": 2400
    },
    {
      "epoch": 4.008333333333334,
      "grad_norm": 0.0042354208417236805,
      "learning_rate": 0.0001465777777777778,
      "loss": 0.0685,
      "step": 2405
    },
    {
      "epoch": 4.016666666666667,
      "grad_norm": 0.01662423089146614,
      "learning_rate": 0.00014646666666666666,
      "loss": 0.0014,
      "step": 2410
    },
    {
      "epoch": 4.025,
      "grad_norm": 0.20503905415534973,
      "learning_rate": 0.00014635555555555556,
      "loss": 0.0654,
      "step": 2415
    },
    {
      "epoch": 4.033333333333333,
      "grad_norm": 0.007462750654667616,
      "learning_rate": 0.00014624444444444445,
      "loss": 0.0263,
      "step": 2420
    },
    {
      "epoch": 4.041666666666667,
      "grad_norm": 0.09308388829231262,
      "learning_rate": 0.00014613333333333335,
      "loss": 0.0604,
      "step": 2425
    },
    {
      "epoch": 4.05,
      "grad_norm": 0.7329992055892944,
      "learning_rate": 0.00014602222222222225,
      "loss": 0.0733,
      "step": 2430
    },
    {
      "epoch": 4.058333333333334,
      "grad_norm": 0.01413158979266882,
      "learning_rate": 0.00014591111111111112,
      "loss": 0.0047,
      "step": 2435
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 0.006979461293667555,
      "learning_rate": 0.0001458,
      "loss": 0.0044,
      "step": 2440
    },
    {
      "epoch": 4.075,
      "grad_norm": 0.007107558660209179,
      "learning_rate": 0.0001456888888888889,
      "loss": 0.0571,
      "step": 2445
    },
    {
      "epoch": 4.083333333333333,
      "grad_norm": 0.00612219562754035,
      "learning_rate": 0.0001455777777777778,
      "loss": 0.0157,
      "step": 2450
    },
    {
      "epoch": 4.091666666666667,
      "grad_norm": 0.009310494177043438,
      "learning_rate": 0.0001454666666666667,
      "loss": 0.0025,
      "step": 2455
    },
    {
      "epoch": 4.1,
      "grad_norm": 0.010407622903585434,
      "learning_rate": 0.00014535555555555556,
      "loss": 0.0018,
      "step": 2460
    },
    {
      "epoch": 4.108333333333333,
      "grad_norm": 0.014666792005300522,
      "learning_rate": 0.00014524444444444446,
      "loss": 0.0249,
      "step": 2465
    },
    {
      "epoch": 4.116666666666666,
      "grad_norm": 0.0038064043037593365,
      "learning_rate": 0.00014513333333333336,
      "loss": 0.1238,
      "step": 2470
    },
    {
      "epoch": 4.125,
      "grad_norm": 0.010144430212676525,
      "learning_rate": 0.00014502222222222223,
      "loss": 0.0014,
      "step": 2475
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.004822994116693735,
      "learning_rate": 0.0001449111111111111,
      "loss": 0.0035,
      "step": 2480
    },
    {
      "epoch": 4.141666666666667,
      "grad_norm": 0.006171021144837141,
      "learning_rate": 0.0001448,
      "loss": 0.0019,
      "step": 2485
    },
    {
      "epoch": 4.15,
      "grad_norm": 0.005800753831863403,
      "learning_rate": 0.0001446888888888889,
      "loss": 0.0012,
      "step": 2490
    },
    {
      "epoch": 4.158333333333333,
      "grad_norm": 0.007147638592869043,
      "learning_rate": 0.0001445777777777778,
      "loss": 0.0537,
      "step": 2495
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.005487163085490465,
      "learning_rate": 0.0001444666666666667,
      "loss": 0.0011,
      "step": 2500
    },
    {
      "epoch": 4.166666666666667,
      "eval_accuracy": 0.8008333333333333,
      "eval_f1": 0.8060574361676208,
      "eval_loss": 1.2794567346572876,
      "eval_precision": 0.8418661112212559,
      "eval_recall": 0.8008333333333333,
      "eval_runtime": 18.0112,
      "eval_samples_per_second": 133.25,
      "eval_steps_per_second": 16.656,
      "step": 2500
    },
    {
      "epoch": 4.175,
      "grad_norm": 0.06163109838962555,
      "learning_rate": 0.00014435555555555556,
      "loss": 0.0041,
      "step": 2505
    },
    {
      "epoch": 4.183333333333334,
      "grad_norm": 0.008717293851077557,
      "learning_rate": 0.00014424444444444446,
      "loss": 0.0262,
      "step": 2510
    },
    {
      "epoch": 4.191666666666666,
      "grad_norm": 0.11825855821371078,
      "learning_rate": 0.00014413333333333333,
      "loss": 0.0012,
      "step": 2515
    },
    {
      "epoch": 4.2,
      "grad_norm": 6.228672027587891,
      "learning_rate": 0.00014402222222222223,
      "loss": 0.006,
      "step": 2520
    },
    {
      "epoch": 4.208333333333333,
      "grad_norm": 0.00417776545509696,
      "learning_rate": 0.0001439111111111111,
      "loss": 0.1831,
      "step": 2525
    },
    {
      "epoch": 4.216666666666667,
      "grad_norm": 7.840208530426025,
      "learning_rate": 0.0001438,
      "loss": 0.0636,
      "step": 2530
    },
    {
      "epoch": 4.225,
      "grad_norm": 0.0037735318765044212,
      "learning_rate": 0.0001436888888888889,
      "loss": 0.0013,
      "step": 2535
    },
    {
      "epoch": 4.233333333333333,
      "grad_norm": 0.06914371997117996,
      "learning_rate": 0.0001435777777777778,
      "loss": 0.0781,
      "step": 2540
    },
    {
      "epoch": 4.241666666666666,
      "grad_norm": 0.007420560345053673,
      "learning_rate": 0.0001434666666666667,
      "loss": 0.0045,
      "step": 2545
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.004801429342478514,
      "learning_rate": 0.00014335555555555556,
      "loss": 0.0022,
      "step": 2550
    },
    {
      "epoch": 4.258333333333334,
      "grad_norm": 0.008184113539755344,
      "learning_rate": 0.00014324444444444444,
      "loss": 0.0019,
      "step": 2555
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 16.751728057861328,
      "learning_rate": 0.00014313333333333333,
      "loss": 0.032,
      "step": 2560
    },
    {
      "epoch": 4.275,
      "grad_norm": 0.004151226487010717,
      "learning_rate": 0.00014302222222222223,
      "loss": 0.0012,
      "step": 2565
    },
    {
      "epoch": 4.283333333333333,
      "grad_norm": 0.0051192487590014935,
      "learning_rate": 0.00014291111111111113,
      "loss": 0.0012,
      "step": 2570
    },
    {
      "epoch": 4.291666666666667,
      "grad_norm": 0.01995849423110485,
      "learning_rate": 0.0001428,
      "loss": 0.0969,
      "step": 2575
    },
    {
      "epoch": 4.3,
      "grad_norm": 0.2010396271944046,
      "learning_rate": 0.0001426888888888889,
      "loss": 0.0019,
      "step": 2580
    },
    {
      "epoch": 4.308333333333334,
      "grad_norm": 0.2110566347837448,
      "learning_rate": 0.0001425777777777778,
      "loss": 0.0091,
      "step": 2585
    },
    {
      "epoch": 4.316666666666666,
      "grad_norm": 0.0060601793229579926,
      "learning_rate": 0.00014246666666666667,
      "loss": 0.0296,
      "step": 2590
    },
    {
      "epoch": 4.325,
      "grad_norm": 9.193086624145508,
      "learning_rate": 0.00014235555555555554,
      "loss": 0.0467,
      "step": 2595
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.11277163028717041,
      "learning_rate": 0.00014224444444444444,
      "loss": 0.0016,
      "step": 2600
    },
    {
      "epoch": 4.333333333333333,
      "eval_accuracy": 0.8108333333333333,
      "eval_f1": 0.8154046448982624,
      "eval_loss": 1.1345198154449463,
      "eval_precision": 0.8471572274430461,
      "eval_recall": 0.8108333333333333,
      "eval_runtime": 18.0165,
      "eval_samples_per_second": 133.211,
      "eval_steps_per_second": 16.651,
      "step": 2600
    },
    {
      "epoch": 4.341666666666667,
      "grad_norm": 0.004907356109470129,
      "learning_rate": 0.00014213333333333334,
      "loss": 0.0014,
      "step": 2605
    },
    {
      "epoch": 4.35,
      "grad_norm": 0.24393445253372192,
      "learning_rate": 0.00014202222222222224,
      "loss": 0.0123,
      "step": 2610
    },
    {
      "epoch": 4.358333333333333,
      "grad_norm": 0.05953679978847504,
      "learning_rate": 0.00014191111111111113,
      "loss": 0.0577,
      "step": 2615
    },
    {
      "epoch": 4.366666666666666,
      "grad_norm": 0.007226182613521814,
      "learning_rate": 0.0001418,
      "loss": 0.0013,
      "step": 2620
    },
    {
      "epoch": 4.375,
      "grad_norm": 0.0038411500863730907,
      "learning_rate": 0.0001416888888888889,
      "loss": 0.001,
      "step": 2625
    },
    {
      "epoch": 4.383333333333334,
      "grad_norm": 0.06592255085706711,
      "learning_rate": 0.00014157777777777777,
      "loss": 0.003,
      "step": 2630
    },
    {
      "epoch": 4.391666666666667,
      "grad_norm": 0.008257136680185795,
      "learning_rate": 0.00014146666666666667,
      "loss": 0.0079,
      "step": 2635
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.007782685570418835,
      "learning_rate": 0.00014135555555555554,
      "loss": 0.0017,
      "step": 2640
    },
    {
      "epoch": 4.408333333333333,
      "grad_norm": 3.1597378253936768,
      "learning_rate": 0.00014124444444444444,
      "loss": 0.079,
      "step": 2645
    },
    {
      "epoch": 4.416666666666667,
      "grad_norm": 0.014977210201323032,
      "learning_rate": 0.00014113333333333334,
      "loss": 0.001,
      "step": 2650
    },
    {
      "epoch": 4.425,
      "grad_norm": 0.04009208828210831,
      "learning_rate": 0.00014102222222222224,
      "loss": 0.0038,
      "step": 2655
    },
    {
      "epoch": 4.433333333333334,
      "grad_norm": 0.051443420350551605,
      "learning_rate": 0.00014091111111111114,
      "loss": 0.0011,
      "step": 2660
    },
    {
      "epoch": 4.441666666666666,
      "grad_norm": 0.02224000357091427,
      "learning_rate": 0.0001408,
      "loss": 0.0012,
      "step": 2665
    },
    {
      "epoch": 4.45,
      "grad_norm": 9.52963924407959,
      "learning_rate": 0.0001406888888888889,
      "loss": 0.0377,
      "step": 2670
    },
    {
      "epoch": 4.458333333333333,
      "grad_norm": 0.0028528880793601274,
      "learning_rate": 0.00014057777777777778,
      "loss": 0.0009,
      "step": 2675
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 0.003787110559642315,
      "learning_rate": 0.00014046666666666667,
      "loss": 0.0009,
      "step": 2680
    },
    {
      "epoch": 4.475,
      "grad_norm": 0.09915761649608612,
      "learning_rate": 0.00014035555555555555,
      "loss": 0.0235,
      "step": 2685
    },
    {
      "epoch": 4.483333333333333,
      "grad_norm": 0.003774709068238735,
      "learning_rate": 0.00014024444444444444,
      "loss": 0.0009,
      "step": 2690
    },
    {
      "epoch": 4.491666666666666,
      "grad_norm": 0.003200098406523466,
      "learning_rate": 0.00014013333333333334,
      "loss": 0.0509,
      "step": 2695
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.032873235642910004,
      "learning_rate": 0.00014002222222222224,
      "loss": 0.001,
      "step": 2700
    },
    {
      "epoch": 4.5,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8219938557092411,
      "eval_loss": 1.0012949705123901,
      "eval_precision": 0.8419377401938242,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.0186,
      "eval_samples_per_second": 133.196,
      "eval_steps_per_second": 16.649,
      "step": 2700
    },
    {
      "epoch": 4.508333333333333,
      "grad_norm": 0.02159281075000763,
      "learning_rate": 0.00013991111111111114,
      "loss": 0.0708,
      "step": 2705
    },
    {
      "epoch": 4.516666666666667,
      "grad_norm": 0.0028358979616314173,
      "learning_rate": 0.0001398,
      "loss": 0.0007,
      "step": 2710
    },
    {
      "epoch": 4.525,
      "grad_norm": 0.002999934833496809,
      "learning_rate": 0.00013968888888888888,
      "loss": 0.0009,
      "step": 2715
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.00423269160091877,
      "learning_rate": 0.00013957777777777778,
      "loss": 0.0008,
      "step": 2720
    },
    {
      "epoch": 4.541666666666667,
      "grad_norm": 0.0047384086064994335,
      "learning_rate": 0.00013946666666666668,
      "loss": 0.0479,
      "step": 2725
    },
    {
      "epoch": 4.55,
      "grad_norm": 0.756858766078949,
      "learning_rate": 0.00013935555555555558,
      "loss": 0.0321,
      "step": 2730
    },
    {
      "epoch": 4.558333333333334,
      "grad_norm": 0.004281241912394762,
      "learning_rate": 0.00013924444444444445,
      "loss": 0.0011,
      "step": 2735
    },
    {
      "epoch": 4.566666666666666,
      "grad_norm": 0.6753747463226318,
      "learning_rate": 0.00013913333333333335,
      "loss": 0.0827,
      "step": 2740
    },
    {
      "epoch": 4.575,
      "grad_norm": 0.0064533366821706295,
      "learning_rate": 0.00013902222222222224,
      "loss": 0.0485,
      "step": 2745
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.015963394194841385,
      "learning_rate": 0.00013891111111111111,
      "loss": 0.0018,
      "step": 2750
    },
    {
      "epoch": 4.591666666666667,
      "grad_norm": 0.0035235860850661993,
      "learning_rate": 0.00013879999999999999,
      "loss": 0.0027,
      "step": 2755
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.005299894139170647,
      "learning_rate": 0.00013868888888888888,
      "loss": 0.0007,
      "step": 2760
    },
    {
      "epoch": 4.608333333333333,
      "grad_norm": 0.02317904680967331,
      "learning_rate": 0.00013857777777777778,
      "loss": 0.0007,
      "step": 2765
    },
    {
      "epoch": 4.616666666666667,
      "grad_norm": 0.002816630993038416,
      "learning_rate": 0.00013846666666666668,
      "loss": 0.0007,
      "step": 2770
    },
    {
      "epoch": 4.625,
      "grad_norm": 0.0030127994250506163,
      "learning_rate": 0.00013835555555555558,
      "loss": 0.0007,
      "step": 2775
    },
    {
      "epoch": 4.633333333333333,
      "grad_norm": 0.0028281754348427057,
      "learning_rate": 0.00013824444444444445,
      "loss": 0.0037,
      "step": 2780
    },
    {
      "epoch": 4.641666666666667,
      "grad_norm": 0.015962064266204834,
      "learning_rate": 0.00013813333333333335,
      "loss": 0.0007,
      "step": 2785
    },
    {
      "epoch": 4.65,
      "grad_norm": 0.010605460032820702,
      "learning_rate": 0.00013802222222222222,
      "loss": 0.0036,
      "step": 2790
    },
    {
      "epoch": 4.658333333333333,
      "grad_norm": 0.0023087579756975174,
      "learning_rate": 0.00013791111111111112,
      "loss": 0.1127,
      "step": 2795
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 1.956446886062622,
      "learning_rate": 0.0001378,
      "loss": 0.0888,
      "step": 2800
    },
    {
      "epoch": 4.666666666666667,
      "eval_accuracy": 0.83125,
      "eval_f1": 0.8356784192103128,
      "eval_loss": 1.070803165435791,
      "eval_precision": 0.8614154487115392,
      "eval_recall": 0.83125,
      "eval_runtime": 18.1095,
      "eval_samples_per_second": 132.527,
      "eval_steps_per_second": 16.566,
      "step": 2800
    },
    {
      "epoch": 4.675,
      "grad_norm": 0.007471850607544184,
      "learning_rate": 0.0001376888888888889,
      "loss": 0.0568,
      "step": 2805
    },
    {
      "epoch": 4.683333333333334,
      "grad_norm": 0.011644667945802212,
      "learning_rate": 0.00013757777777777778,
      "loss": 0.0009,
      "step": 2810
    },
    {
      "epoch": 4.691666666666666,
      "grad_norm": 0.002766940975561738,
      "learning_rate": 0.00013746666666666668,
      "loss": 0.0029,
      "step": 2815
    },
    {
      "epoch": 4.7,
      "grad_norm": 0.0029687860514968634,
      "learning_rate": 0.00013735555555555558,
      "loss": 0.0018,
      "step": 2820
    },
    {
      "epoch": 4.708333333333333,
      "grad_norm": 8.071706771850586,
      "learning_rate": 0.00013724444444444445,
      "loss": 0.0106,
      "step": 2825
    },
    {
      "epoch": 4.716666666666667,
      "grad_norm": 0.0050516435876488686,
      "learning_rate": 0.00013713333333333332,
      "loss": 0.0008,
      "step": 2830
    },
    {
      "epoch": 4.725,
      "grad_norm": 0.013779419474303722,
      "learning_rate": 0.00013702222222222222,
      "loss": 0.0863,
      "step": 2835
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 0.0029020493384450674,
      "learning_rate": 0.00013691111111111112,
      "loss": 0.0326,
      "step": 2840
    },
    {
      "epoch": 4.741666666666667,
      "grad_norm": 0.21853862702846527,
      "learning_rate": 0.00013680000000000002,
      "loss": 0.0014,
      "step": 2845
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.008590479381382465,
      "learning_rate": 0.0001366888888888889,
      "loss": 0.0042,
      "step": 2850
    },
    {
      "epoch": 4.758333333333333,
      "grad_norm": 0.006891333963721991,
      "learning_rate": 0.0001365777777777778,
      "loss": 0.0012,
      "step": 2855
    },
    {
      "epoch": 4.766666666666667,
      "grad_norm": 0.5189658403396606,
      "learning_rate": 0.00013646666666666669,
      "loss": 0.0018,
      "step": 2860
    },
    {
      "epoch": 4.775,
      "grad_norm": 8.614935874938965,
      "learning_rate": 0.00013635555555555556,
      "loss": 0.0775,
      "step": 2865
    },
    {
      "epoch": 4.783333333333333,
      "grad_norm": 6.5556640625,
      "learning_rate": 0.00013624444444444443,
      "loss": 0.0798,
      "step": 2870
    },
    {
      "epoch": 4.791666666666667,
      "grad_norm": 0.3292016386985779,
      "learning_rate": 0.00013613333333333333,
      "loss": 0.0017,
      "step": 2875
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.09718131273984909,
      "learning_rate": 0.00013602222222222222,
      "loss": 0.0019,
      "step": 2880
    },
    {
      "epoch": 4.808333333333334,
      "grad_norm": 0.0033797312062233686,
      "learning_rate": 0.00013591111111111112,
      "loss": 0.0094,
      "step": 2885
    },
    {
      "epoch": 4.816666666666666,
      "grad_norm": 0.0028653033077716827,
      "learning_rate": 0.00013580000000000002,
      "loss": 0.0009,
      "step": 2890
    },
    {
      "epoch": 4.825,
      "grad_norm": 0.02723637968301773,
      "learning_rate": 0.0001356888888888889,
      "loss": 0.0009,
      "step": 2895
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.003065098775550723,
      "learning_rate": 0.0001355777777777778,
      "loss": 0.0212,
      "step": 2900
    },
    {
      "epoch": 4.833333333333333,
      "eval_accuracy": 0.81125,
      "eval_f1": 0.8123318171994321,
      "eval_loss": 1.1487839221954346,
      "eval_precision": 0.843507835848946,
      "eval_recall": 0.81125,
      "eval_runtime": 18.0472,
      "eval_samples_per_second": 132.984,
      "eval_steps_per_second": 16.623,
      "step": 2900
    },
    {
      "epoch": 4.841666666666667,
      "grad_norm": 0.002678174525499344,
      "learning_rate": 0.00013546666666666666,
      "loss": 0.0006,
      "step": 2905
    },
    {
      "epoch": 4.85,
      "grad_norm": 0.003774324432015419,
      "learning_rate": 0.00013535555555555556,
      "loss": 0.1136,
      "step": 2910
    },
    {
      "epoch": 4.858333333333333,
      "grad_norm": 0.007721633650362492,
      "learning_rate": 0.00013524444444444443,
      "loss": 0.0011,
      "step": 2915
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 0.0024733291938900948,
      "learning_rate": 0.00013513333333333333,
      "loss": 0.0251,
      "step": 2920
    },
    {
      "epoch": 4.875,
      "grad_norm": 4.60730504989624,
      "learning_rate": 0.00013502222222222223,
      "loss": 0.021,
      "step": 2925
    },
    {
      "epoch": 4.883333333333333,
      "grad_norm": 0.0036353522446006536,
      "learning_rate": 0.00013491111111111113,
      "loss": 0.0841,
      "step": 2930
    },
    {
      "epoch": 4.891666666666667,
      "grad_norm": 0.0038442504592239857,
      "learning_rate": 0.00013480000000000002,
      "loss": 0.0018,
      "step": 2935
    },
    {
      "epoch": 4.9,
      "grad_norm": 9.853224754333496,
      "learning_rate": 0.0001346888888888889,
      "loss": 0.035,
      "step": 2940
    },
    {
      "epoch": 4.908333333333333,
      "grad_norm": 0.006492947228252888,
      "learning_rate": 0.0001345777777777778,
      "loss": 0.0009,
      "step": 2945
    },
    {
      "epoch": 4.916666666666667,
      "grad_norm": 0.002371382201090455,
      "learning_rate": 0.00013446666666666666,
      "loss": 0.0007,
      "step": 2950
    },
    {
      "epoch": 4.925,
      "grad_norm": 0.003281039884313941,
      "learning_rate": 0.00013435555555555556,
      "loss": 0.0609,
      "step": 2955
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.003007108811289072,
      "learning_rate": 0.00013424444444444446,
      "loss": 0.0008,
      "step": 2960
    },
    {
      "epoch": 4.941666666666666,
      "grad_norm": 0.00895001646131277,
      "learning_rate": 0.00013413333333333333,
      "loss": 0.0008,
      "step": 2965
    },
    {
      "epoch": 4.95,
      "grad_norm": 0.004504045937210321,
      "learning_rate": 0.00013402222222222223,
      "loss": 0.0351,
      "step": 2970
    },
    {
      "epoch": 4.958333333333333,
      "grad_norm": 3.6277549266815186,
      "learning_rate": 0.00013391111111111113,
      "loss": 0.0203,
      "step": 2975
    },
    {
      "epoch": 4.966666666666667,
      "grad_norm": 0.03735450282692909,
      "learning_rate": 0.00013380000000000003,
      "loss": 0.0009,
      "step": 2980
    },
    {
      "epoch": 4.975,
      "grad_norm": 0.0023062629625201225,
      "learning_rate": 0.0001336888888888889,
      "loss": 0.0021,
      "step": 2985
    },
    {
      "epoch": 4.983333333333333,
      "grad_norm": 11.903265953063965,
      "learning_rate": 0.00013357777777777777,
      "loss": 0.0339,
      "step": 2990
    },
    {
      "epoch": 4.991666666666667,
      "grad_norm": 0.00717342970892787,
      "learning_rate": 0.00013346666666666667,
      "loss": 0.0009,
      "step": 2995
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.004770750645548105,
      "learning_rate": 0.00013335555555555557,
      "loss": 0.0857,
      "step": 3000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.81125,
      "eval_f1": 0.8181590660587146,
      "eval_loss": 1.0804638862609863,
      "eval_precision": 0.8506485882999472,
      "eval_recall": 0.81125,
      "eval_runtime": 18.482,
      "eval_samples_per_second": 129.856,
      "eval_steps_per_second": 16.232,
      "step": 3000
    },
    {
      "epoch": 5.008333333333334,
      "grad_norm": 0.00793832540512085,
      "learning_rate": 0.00013324444444444446,
      "loss": 0.0008,
      "step": 3005
    },
    {
      "epoch": 5.016666666666667,
      "grad_norm": 0.00317798787727952,
      "learning_rate": 0.00013313333333333333,
      "loss": 0.0007,
      "step": 3010
    },
    {
      "epoch": 5.025,
      "grad_norm": 0.00674514751881361,
      "learning_rate": 0.00013302222222222223,
      "loss": 0.0112,
      "step": 3015
    },
    {
      "epoch": 5.033333333333333,
      "grad_norm": 0.0455859936773777,
      "learning_rate": 0.00013291111111111113,
      "loss": 0.0011,
      "step": 3020
    },
    {
      "epoch": 5.041666666666667,
      "grad_norm": 6.841028690338135,
      "learning_rate": 0.0001328,
      "loss": 0.0663,
      "step": 3025
    },
    {
      "epoch": 5.05,
      "grad_norm": 0.010156597942113876,
      "learning_rate": 0.00013268888888888887,
      "loss": 0.0658,
      "step": 3030
    },
    {
      "epoch": 5.058333333333334,
      "grad_norm": 0.005546232219785452,
      "learning_rate": 0.00013257777777777777,
      "loss": 0.001,
      "step": 3035
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.11884152144193649,
      "learning_rate": 0.00013246666666666667,
      "loss": 0.0169,
      "step": 3040
    },
    {
      "epoch": 5.075,
      "grad_norm": 0.002940158359706402,
      "learning_rate": 0.00013235555555555557,
      "loss": 0.0051,
      "step": 3045
    },
    {
      "epoch": 5.083333333333333,
      "grad_norm": 0.009776769205927849,
      "learning_rate": 0.00013224444444444447,
      "loss": 0.0009,
      "step": 3050
    },
    {
      "epoch": 5.091666666666667,
      "grad_norm": 0.003339997259899974,
      "learning_rate": 0.00013213333333333334,
      "loss": 0.0185,
      "step": 3055
    },
    {
      "epoch": 5.1,
      "grad_norm": 0.6491706371307373,
      "learning_rate": 0.00013202222222222224,
      "loss": 0.0012,
      "step": 3060
    },
    {
      "epoch": 5.108333333333333,
      "grad_norm": 0.004326824564486742,
      "learning_rate": 0.0001319111111111111,
      "loss": 0.001,
      "step": 3065
    },
    {
      "epoch": 5.116666666666666,
      "grad_norm": 0.0044735269621014595,
      "learning_rate": 0.0001318,
      "loss": 0.0007,
      "step": 3070
    },
    {
      "epoch": 5.125,
      "grad_norm": 0.003469101618975401,
      "learning_rate": 0.0001316888888888889,
      "loss": 0.0007,
      "step": 3075
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 0.0037216851487755775,
      "learning_rate": 0.00013157777777777777,
      "loss": 0.0654,
      "step": 3080
    },
    {
      "epoch": 5.141666666666667,
      "grad_norm": 0.004586871713399887,
      "learning_rate": 0.00013146666666666667,
      "loss": 0.0006,
      "step": 3085
    },
    {
      "epoch": 5.15,
      "grad_norm": 0.0030808872543275356,
      "learning_rate": 0.00013135555555555557,
      "loss": 0.0009,
      "step": 3090
    },
    {
      "epoch": 5.158333333333333,
      "grad_norm": 0.02674485556781292,
      "learning_rate": 0.00013124444444444447,
      "loss": 0.0007,
      "step": 3095
    },
    {
      "epoch": 5.166666666666667,
      "grad_norm": 0.025330983102321625,
      "learning_rate": 0.00013113333333333334,
      "loss": 0.0029,
      "step": 3100
    },
    {
      "epoch": 5.166666666666667,
      "eval_accuracy": 0.85875,
      "eval_f1": 0.8619078691561091,
      "eval_loss": 0.8731207251548767,
      "eval_precision": 0.8762464398770089,
      "eval_recall": 0.85875,
      "eval_runtime": 18.2215,
      "eval_samples_per_second": 131.713,
      "eval_steps_per_second": 16.464,
      "step": 3100
    },
    {
      "epoch": 5.175,
      "grad_norm": 0.004115327727049589,
      "learning_rate": 0.0001310222222222222,
      "loss": 0.0135,
      "step": 3105
    },
    {
      "epoch": 5.183333333333334,
      "grad_norm": 0.01208171434700489,
      "learning_rate": 0.0001309111111111111,
      "loss": 0.0007,
      "step": 3110
    },
    {
      "epoch": 5.191666666666666,
      "grad_norm": 0.06405236572027206,
      "learning_rate": 0.0001308,
      "loss": 0.1125,
      "step": 3115
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.007820898666977882,
      "learning_rate": 0.0001306888888888889,
      "loss": 0.01,
      "step": 3120
    },
    {
      "epoch": 5.208333333333333,
      "grad_norm": 0.6343463659286499,
      "learning_rate": 0.00013057777777777778,
      "loss": 0.0028,
      "step": 3125
    },
    {
      "epoch": 5.216666666666667,
      "grad_norm": 0.01850924827158451,
      "learning_rate": 0.00013046666666666668,
      "loss": 0.0092,
      "step": 3130
    },
    {
      "epoch": 5.225,
      "grad_norm": 0.10912729054689407,
      "learning_rate": 0.00013035555555555557,
      "loss": 0.0064,
      "step": 3135
    },
    {
      "epoch": 5.233333333333333,
      "grad_norm": 0.0031821930315345526,
      "learning_rate": 0.00013024444444444445,
      "loss": 0.0797,
      "step": 3140
    },
    {
      "epoch": 5.241666666666666,
      "grad_norm": 8.920080184936523,
      "learning_rate": 0.00013013333333333332,
      "loss": 0.2042,
      "step": 3145
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.048588499426841736,
      "learning_rate": 0.00013002222222222221,
      "loss": 0.0024,
      "step": 3150
    },
    {
      "epoch": 5.258333333333334,
      "grad_norm": 0.08853364735841751,
      "learning_rate": 0.0001299111111111111,
      "loss": 0.0832,
      "step": 3155
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 0.28051474690437317,
      "learning_rate": 0.0001298,
      "loss": 0.0204,
      "step": 3160
    },
    {
      "epoch": 5.275,
      "grad_norm": 0.03818877413868904,
      "learning_rate": 0.0001296888888888889,
      "loss": 0.2599,
      "step": 3165
    },
    {
      "epoch": 5.283333333333333,
      "grad_norm": 0.015932561829686165,
      "learning_rate": 0.00012957777777777778,
      "loss": 0.0038,
      "step": 3170
    },
    {
      "epoch": 5.291666666666667,
      "grad_norm": 5.095800876617432,
      "learning_rate": 0.00012946666666666668,
      "loss": 0.0727,
      "step": 3175
    },
    {
      "epoch": 5.3,
      "grad_norm": 0.013441212475299835,
      "learning_rate": 0.00012935555555555558,
      "loss": 0.0032,
      "step": 3180
    },
    {
      "epoch": 5.308333333333334,
      "grad_norm": 0.056997109204530716,
      "learning_rate": 0.00012924444444444445,
      "loss": 0.0033,
      "step": 3185
    },
    {
      "epoch": 5.316666666666666,
      "grad_norm": 0.003202044637873769,
      "learning_rate": 0.00012913333333333335,
      "loss": 0.0019,
      "step": 3190
    },
    {
      "epoch": 5.325,
      "grad_norm": 0.009546520188450813,
      "learning_rate": 0.00012902222222222222,
      "loss": 0.0009,
      "step": 3195
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.00347840110771358,
      "learning_rate": 0.00012891111111111112,
      "loss": 0.0226,
      "step": 3200
    },
    {
      "epoch": 5.333333333333333,
      "eval_accuracy": 0.81125,
      "eval_f1": 0.812768982686177,
      "eval_loss": 1.2513303756713867,
      "eval_precision": 0.8410234918255942,
      "eval_recall": 0.81125,
      "eval_runtime": 18.0579,
      "eval_samples_per_second": 132.905,
      "eval_steps_per_second": 16.613,
      "step": 3200
    },
    {
      "epoch": 5.341666666666667,
      "grad_norm": 0.01048616785556078,
      "learning_rate": 0.00012880000000000001,
      "loss": 0.0415,
      "step": 3205
    },
    {
      "epoch": 5.35,
      "grad_norm": 0.003188794245943427,
      "learning_rate": 0.0001286888888888889,
      "loss": 0.0046,
      "step": 3210
    },
    {
      "epoch": 5.358333333333333,
      "grad_norm": 0.004431897308677435,
      "learning_rate": 0.00012857777777777778,
      "loss": 0.0189,
      "step": 3215
    },
    {
      "epoch": 5.366666666666666,
      "grad_norm": 0.9439765810966492,
      "learning_rate": 0.00012846666666666668,
      "loss": 0.1207,
      "step": 3220
    },
    {
      "epoch": 5.375,
      "grad_norm": 0.005461348220705986,
      "learning_rate": 0.00012835555555555555,
      "loss": 0.0008,
      "step": 3225
    },
    {
      "epoch": 5.383333333333334,
      "grad_norm": 0.006381037179380655,
      "learning_rate": 0.00012824444444444445,
      "loss": 0.0012,
      "step": 3230
    },
    {
      "epoch": 5.391666666666667,
      "grad_norm": 17.236434936523438,
      "learning_rate": 0.00012813333333333335,
      "loss": 0.0345,
      "step": 3235
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.004964529071003199,
      "learning_rate": 0.00012802222222222222,
      "loss": 0.1241,
      "step": 3240
    },
    {
      "epoch": 5.408333333333333,
      "grad_norm": 0.02323867753148079,
      "learning_rate": 0.00012791111111111112,
      "loss": 0.0043,
      "step": 3245
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.9963157176971436,
      "learning_rate": 0.00012780000000000002,
      "loss": 0.0089,
      "step": 3250
    },
    {
      "epoch": 5.425,
      "grad_norm": 0.00697910925373435,
      "learning_rate": 0.00012768888888888891,
      "loss": 0.004,
      "step": 3255
    },
    {
      "epoch": 5.433333333333334,
      "grad_norm": 3.705225706100464,
      "learning_rate": 0.00012757777777777779,
      "loss": 0.0873,
      "step": 3260
    },
    {
      "epoch": 5.441666666666666,
      "grad_norm": 10.599546432495117,
      "learning_rate": 0.00012746666666666666,
      "loss": 0.0779,
      "step": 3265
    },
    {
      "epoch": 5.45,
      "grad_norm": 0.00739826075732708,
      "learning_rate": 0.00012735555555555556,
      "loss": 0.0012,
      "step": 3270
    },
    {
      "epoch": 5.458333333333333,
      "grad_norm": 0.008776627480983734,
      "learning_rate": 0.00012724444444444445,
      "loss": 0.0742,
      "step": 3275
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 0.004598716739565134,
      "learning_rate": 0.00012713333333333335,
      "loss": 0.0016,
      "step": 3280
    },
    {
      "epoch": 5.475,
      "grad_norm": 0.0053038704209029675,
      "learning_rate": 0.00012702222222222222,
      "loss": 0.0525,
      "step": 3285
    },
    {
      "epoch": 5.483333333333333,
      "grad_norm": 0.00685352785512805,
      "learning_rate": 0.00012691111111111112,
      "loss": 0.0295,
      "step": 3290
    },
    {
      "epoch": 5.491666666666666,
      "grad_norm": 0.010029829107224941,
      "learning_rate": 0.00012680000000000002,
      "loss": 0.0011,
      "step": 3295
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.005011238157749176,
      "learning_rate": 0.0001266888888888889,
      "loss": 0.0627,
      "step": 3300
    },
    {
      "epoch": 5.5,
      "eval_accuracy": 0.80625,
      "eval_f1": 0.8066359874964636,
      "eval_loss": 1.1714723110198975,
      "eval_precision": 0.8393592524466347,
      "eval_recall": 0.80625,
      "eval_runtime": 18.0284,
      "eval_samples_per_second": 133.123,
      "eval_steps_per_second": 16.64,
      "step": 3300
    },
    {
      "epoch": 5.508333333333333,
      "grad_norm": 0.0036202657502144575,
      "learning_rate": 0.00012657777777777776,
      "loss": 0.0012,
      "step": 3305
    },
    {
      "epoch": 5.516666666666667,
      "grad_norm": 0.005252979230135679,
      "learning_rate": 0.00012646666666666666,
      "loss": 0.0041,
      "step": 3310
    },
    {
      "epoch": 5.525,
      "grad_norm": 12.357048988342285,
      "learning_rate": 0.00012635555555555556,
      "loss": 0.1064,
      "step": 3315
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.19982363283634186,
      "learning_rate": 0.00012624444444444446,
      "loss": 0.0014,
      "step": 3320
    },
    {
      "epoch": 5.541666666666667,
      "grad_norm": 0.02521987073123455,
      "learning_rate": 0.00012613333333333335,
      "loss": 0.0521,
      "step": 3325
    },
    {
      "epoch": 5.55,
      "grad_norm": 0.026076845824718475,
      "learning_rate": 0.00012602222222222223,
      "loss": 0.0012,
      "step": 3330
    },
    {
      "epoch": 5.558333333333334,
      "grad_norm": 0.3493938446044922,
      "learning_rate": 0.00012591111111111112,
      "loss": 0.159,
      "step": 3335
    },
    {
      "epoch": 5.566666666666666,
      "grad_norm": 0.8519282341003418,
      "learning_rate": 0.0001258,
      "loss": 0.0027,
      "step": 3340
    },
    {
      "epoch": 5.575,
      "grad_norm": 0.003952813800424337,
      "learning_rate": 0.0001256888888888889,
      "loss": 0.0014,
      "step": 3345
    },
    {
      "epoch": 5.583333333333333,
      "grad_norm": 0.00981323141604662,
      "learning_rate": 0.0001255777777777778,
      "loss": 0.0012,
      "step": 3350
    },
    {
      "epoch": 5.591666666666667,
      "grad_norm": 9.172137260437012,
      "learning_rate": 0.00012546666666666666,
      "loss": 0.1643,
      "step": 3355
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.010983748361468315,
      "learning_rate": 0.00012535555555555556,
      "loss": 0.1503,
      "step": 3360
    },
    {
      "epoch": 5.608333333333333,
      "grad_norm": 0.03570283204317093,
      "learning_rate": 0.00012524444444444446,
      "loss": 0.0131,
      "step": 3365
    },
    {
      "epoch": 5.616666666666667,
      "grad_norm": 0.05126586928963661,
      "learning_rate": 0.00012513333333333336,
      "loss": 0.0034,
      "step": 3370
    },
    {
      "epoch": 5.625,
      "grad_norm": 0.004872790537774563,
      "learning_rate": 0.00012502222222222223,
      "loss": 0.1541,
      "step": 3375
    },
    {
      "epoch": 5.633333333333333,
      "grad_norm": 0.0027241806965321302,
      "learning_rate": 0.0001249111111111111,
      "loss": 0.0011,
      "step": 3380
    },
    {
      "epoch": 5.641666666666667,
      "grad_norm": 0.004340996965765953,
      "learning_rate": 0.0001248,
      "loss": 0.0011,
      "step": 3385
    },
    {
      "epoch": 5.65,
      "grad_norm": 0.0057530878111720085,
      "learning_rate": 0.0001246888888888889,
      "loss": 0.0009,
      "step": 3390
    },
    {
      "epoch": 5.658333333333333,
      "grad_norm": 0.005860215052962303,
      "learning_rate": 0.0001245777777777778,
      "loss": 0.002,
      "step": 3395
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 4.951140880584717,
      "learning_rate": 0.00012446666666666667,
      "loss": 0.1471,
      "step": 3400
    },
    {
      "epoch": 5.666666666666667,
      "eval_accuracy": 0.8325,
      "eval_f1": 0.834051596880314,
      "eval_loss": 0.825998842716217,
      "eval_precision": 0.8434287267272261,
      "eval_recall": 0.8325,
      "eval_runtime": 18.2172,
      "eval_samples_per_second": 131.744,
      "eval_steps_per_second": 16.468,
      "step": 3400
    },
    {
      "epoch": 5.675,
      "grad_norm": 0.0033370351884514093,
      "learning_rate": 0.00012435555555555556,
      "loss": 0.0009,
      "step": 3405
    },
    {
      "epoch": 5.683333333333334,
      "grad_norm": 3.7583529949188232,
      "learning_rate": 0.00012424444444444446,
      "loss": 0.0097,
      "step": 3410
    },
    {
      "epoch": 5.691666666666666,
      "grad_norm": 0.004701213911175728,
      "learning_rate": 0.00012413333333333333,
      "loss": 0.0163,
      "step": 3415
    },
    {
      "epoch": 5.7,
      "grad_norm": 0.05059840530157089,
      "learning_rate": 0.0001240222222222222,
      "loss": 0.0012,
      "step": 3420
    },
    {
      "epoch": 5.708333333333333,
      "grad_norm": 0.07352755218744278,
      "learning_rate": 0.0001239111111111111,
      "loss": 0.0012,
      "step": 3425
    },
    {
      "epoch": 5.716666666666667,
      "grad_norm": 0.006308966316282749,
      "learning_rate": 0.0001238,
      "loss": 0.0015,
      "step": 3430
    },
    {
      "epoch": 5.725,
      "grad_norm": 16.25316619873047,
      "learning_rate": 0.0001236888888888889,
      "loss": 0.0163,
      "step": 3435
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.14715419709682465,
      "learning_rate": 0.0001235777777777778,
      "loss": 0.0011,
      "step": 3440
    },
    {
      "epoch": 5.741666666666667,
      "grad_norm": 0.010804948396980762,
      "learning_rate": 0.00012346666666666667,
      "loss": 0.2539,
      "step": 3445
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.0028094048611819744,
      "learning_rate": 0.00012335555555555557,
      "loss": 0.0008,
      "step": 3450
    },
    {
      "epoch": 5.758333333333333,
      "grad_norm": 0.003639696165919304,
      "learning_rate": 0.00012324444444444446,
      "loss": 0.0012,
      "step": 3455
    },
    {
      "epoch": 5.766666666666667,
      "grad_norm": 0.010604240000247955,
      "learning_rate": 0.00012313333333333334,
      "loss": 0.0441,
      "step": 3460
    },
    {
      "epoch": 5.775,
      "grad_norm": 0.004710893612354994,
      "learning_rate": 0.00012302222222222223,
      "loss": 0.0009,
      "step": 3465
    },
    {
      "epoch": 5.783333333333333,
      "grad_norm": 0.007812973111867905,
      "learning_rate": 0.0001229111111111111,
      "loss": 0.001,
      "step": 3470
    },
    {
      "epoch": 5.791666666666667,
      "grad_norm": 0.0035233288072049618,
      "learning_rate": 0.0001228,
      "loss": 0.0013,
      "step": 3475
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.05732293426990509,
      "learning_rate": 0.0001226888888888889,
      "loss": 0.0014,
      "step": 3480
    },
    {
      "epoch": 5.808333333333334,
      "grad_norm": 3.3355653285980225,
      "learning_rate": 0.0001225777777777778,
      "loss": 0.1058,
      "step": 3485
    },
    {
      "epoch": 5.816666666666666,
      "grad_norm": 0.0032767774537205696,
      "learning_rate": 0.00012246666666666667,
      "loss": 0.0011,
      "step": 3490
    },
    {
      "epoch": 5.825,
      "grad_norm": 0.0039475164376199245,
      "learning_rate": 0.00012235555555555557,
      "loss": 0.097,
      "step": 3495
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.0025384097825735807,
      "learning_rate": 0.00012224444444444444,
      "loss": 0.0008,
      "step": 3500
    },
    {
      "epoch": 5.833333333333333,
      "eval_accuracy": 0.8404166666666667,
      "eval_f1": 0.8430461849236577,
      "eval_loss": 0.8540858030319214,
      "eval_precision": 0.8636343345900725,
      "eval_recall": 0.8404166666666667,
      "eval_runtime": 17.9841,
      "eval_samples_per_second": 133.451,
      "eval_steps_per_second": 16.681,
      "step": 3500
    },
    {
      "epoch": 5.841666666666667,
      "grad_norm": 7.5558671951293945,
      "learning_rate": 0.00012213333333333334,
      "loss": 0.0054,
      "step": 3505
    },
    {
      "epoch": 5.85,
      "grad_norm": 0.0723811462521553,
      "learning_rate": 0.00012202222222222224,
      "loss": 0.0009,
      "step": 3510
    },
    {
      "epoch": 5.858333333333333,
      "grad_norm": 0.7188805937767029,
      "learning_rate": 0.00012191111111111111,
      "loss": 0.0025,
      "step": 3515
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 0.014084117487072945,
      "learning_rate": 0.0001218,
      "loss": 0.0015,
      "step": 3520
    },
    {
      "epoch": 5.875,
      "grad_norm": 0.005967804696410894,
      "learning_rate": 0.00012168888888888889,
      "loss": 0.0122,
      "step": 3525
    },
    {
      "epoch": 5.883333333333333,
      "grad_norm": 0.00296393851749599,
      "learning_rate": 0.00012157777777777779,
      "loss": 0.0007,
      "step": 3530
    },
    {
      "epoch": 5.891666666666667,
      "grad_norm": 0.0035983093548566103,
      "learning_rate": 0.00012146666666666666,
      "loss": 0.0007,
      "step": 3535
    },
    {
      "epoch": 5.9,
      "grad_norm": 0.00576781015843153,
      "learning_rate": 0.00012135555555555556,
      "loss": 0.0009,
      "step": 3540
    },
    {
      "epoch": 5.908333333333333,
      "grad_norm": 0.35618215799331665,
      "learning_rate": 0.00012124444444444444,
      "loss": 0.0017,
      "step": 3545
    },
    {
      "epoch": 5.916666666666667,
      "grad_norm": 0.003527471562847495,
      "learning_rate": 0.00012113333333333334,
      "loss": 0.0011,
      "step": 3550
    },
    {
      "epoch": 5.925,
      "grad_norm": 0.003876707050949335,
      "learning_rate": 0.00012102222222222224,
      "loss": 0.0007,
      "step": 3555
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 0.0033130308147519827,
      "learning_rate": 0.00012091111111111111,
      "loss": 0.0007,
      "step": 3560
    },
    {
      "epoch": 5.941666666666666,
      "grad_norm": 0.0026528756134212017,
      "learning_rate": 0.0001208,
      "loss": 0.0006,
      "step": 3565
    },
    {
      "epoch": 5.95,
      "grad_norm": 0.003190552582964301,
      "learning_rate": 0.0001206888888888889,
      "loss": 0.0006,
      "step": 3570
    },
    {
      "epoch": 5.958333333333333,
      "grad_norm": 0.003283768892288208,
      "learning_rate": 0.00012057777777777779,
      "loss": 0.0006,
      "step": 3575
    },
    {
      "epoch": 5.966666666666667,
      "grad_norm": 0.0028605915140360594,
      "learning_rate": 0.00012046666666666668,
      "loss": 0.0006,
      "step": 3580
    },
    {
      "epoch": 5.975,
      "grad_norm": 0.002502308925613761,
      "learning_rate": 0.00012035555555555556,
      "loss": 0.0005,
      "step": 3585
    },
    {
      "epoch": 5.983333333333333,
      "grad_norm": 0.0023721170146018267,
      "learning_rate": 0.00012024444444444445,
      "loss": 0.0005,
      "step": 3590
    },
    {
      "epoch": 5.991666666666667,
      "grad_norm": 0.7972573637962341,
      "learning_rate": 0.00012013333333333334,
      "loss": 0.0015,
      "step": 3595
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.0019682510755956173,
      "learning_rate": 0.00012002222222222224,
      "loss": 0.0005,
      "step": 3600
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8129166666666666,
      "eval_f1": 0.8164974373531924,
      "eval_loss": 1.1118906736373901,
      "eval_precision": 0.8340311714397614,
      "eval_recall": 0.8129166666666666,
      "eval_runtime": 19.3855,
      "eval_samples_per_second": 123.804,
      "eval_steps_per_second": 15.475,
      "step": 3600
    },
    {
      "epoch": 6.008333333333334,
      "grad_norm": 0.00202967319637537,
      "learning_rate": 0.00011991111111111111,
      "loss": 0.0005,
      "step": 3605
    },
    {
      "epoch": 6.016666666666667,
      "grad_norm": 0.0028431930113583803,
      "learning_rate": 0.0001198,
      "loss": 0.0005,
      "step": 3610
    },
    {
      "epoch": 6.025,
      "grad_norm": 0.15426301956176758,
      "learning_rate": 0.0001196888888888889,
      "loss": 0.0008,
      "step": 3615
    },
    {
      "epoch": 6.033333333333333,
      "grad_norm": 0.003482394851744175,
      "learning_rate": 0.0001195777777777778,
      "loss": 0.0006,
      "step": 3620
    },
    {
      "epoch": 6.041666666666667,
      "grad_norm": 0.004316964652389288,
      "learning_rate": 0.00011946666666666668,
      "loss": 0.0005,
      "step": 3625
    },
    {
      "epoch": 6.05,
      "grad_norm": 0.007598796393722296,
      "learning_rate": 0.00011935555555555555,
      "loss": 0.0005,
      "step": 3630
    },
    {
      "epoch": 6.058333333333334,
      "grad_norm": 0.0020473096519708633,
      "learning_rate": 0.00011924444444444445,
      "loss": 0.0543,
      "step": 3635
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 5.366212368011475,
      "learning_rate": 0.00011913333333333335,
      "loss": 0.0077,
      "step": 3640
    },
    {
      "epoch": 6.075,
      "grad_norm": 0.003926806151866913,
      "learning_rate": 0.00011902222222222223,
      "loss": 0.0005,
      "step": 3645
    },
    {
      "epoch": 6.083333333333333,
      "grad_norm": 0.6725348830223083,
      "learning_rate": 0.0001189111111111111,
      "loss": 0.0044,
      "step": 3650
    },
    {
      "epoch": 6.091666666666667,
      "grad_norm": 0.04183907434344292,
      "learning_rate": 0.0001188,
      "loss": 0.0072,
      "step": 3655
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.0021308385767042637,
      "learning_rate": 0.0001186888888888889,
      "loss": 0.0005,
      "step": 3660
    },
    {
      "epoch": 6.108333333333333,
      "grad_norm": 0.003496721154078841,
      "learning_rate": 0.00011857777777777778,
      "loss": 0.0006,
      "step": 3665
    },
    {
      "epoch": 6.116666666666666,
      "grad_norm": 0.0021626609377563,
      "learning_rate": 0.00011846666666666668,
      "loss": 0.0011,
      "step": 3670
    },
    {
      "epoch": 6.125,
      "grad_norm": 0.002112306421622634,
      "learning_rate": 0.00011835555555555555,
      "loss": 0.0064,
      "step": 3675
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.0026574749499559402,
      "learning_rate": 0.00011824444444444445,
      "loss": 0.0005,
      "step": 3680
    },
    {
      "epoch": 6.141666666666667,
      "grad_norm": 0.5003806352615356,
      "learning_rate": 0.00011813333333333334,
      "loss": 0.0013,
      "step": 3685
    },
    {
      "epoch": 6.15,
      "grad_norm": 0.3205367922782898,
      "learning_rate": 0.00011802222222222223,
      "loss": 0.0091,
      "step": 3690
    },
    {
      "epoch": 6.158333333333333,
      "grad_norm": 0.001655111089348793,
      "learning_rate": 0.00011791111111111113,
      "loss": 0.0006,
      "step": 3695
    },
    {
      "epoch": 6.166666666666667,
      "grad_norm": 0.0017244907794520259,
      "learning_rate": 0.0001178,
      "loss": 0.0005,
      "step": 3700
    },
    {
      "epoch": 6.166666666666667,
      "eval_accuracy": 0.7754166666666666,
      "eval_f1": 0.7761886234789311,
      "eval_loss": 1.6585557460784912,
      "eval_precision": 0.8260977430902234,
      "eval_recall": 0.7754166666666666,
      "eval_runtime": 18.1428,
      "eval_samples_per_second": 132.284,
      "eval_steps_per_second": 16.536,
      "step": 3700
    },
    {
      "epoch": 6.175,
      "grad_norm": 0.0018782407278195024,
      "learning_rate": 0.00011768888888888889,
      "loss": 0.0005,
      "step": 3705
    },
    {
      "epoch": 6.183333333333334,
      "grad_norm": 0.0027490914799273014,
      "learning_rate": 0.00011757777777777779,
      "loss": 0.0035,
      "step": 3710
    },
    {
      "epoch": 6.191666666666666,
      "grad_norm": 0.0016789453802630305,
      "learning_rate": 0.00011746666666666668,
      "loss": 0.0004,
      "step": 3715
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.0028063664212822914,
      "learning_rate": 0.00011735555555555556,
      "loss": 0.1364,
      "step": 3720
    },
    {
      "epoch": 6.208333333333333,
      "grad_norm": 0.06323453038930893,
      "learning_rate": 0.00011724444444444444,
      "loss": 0.0006,
      "step": 3725
    },
    {
      "epoch": 6.216666666666667,
      "grad_norm": 0.002302733017131686,
      "learning_rate": 0.00011713333333333334,
      "loss": 0.0006,
      "step": 3730
    },
    {
      "epoch": 6.225,
      "grad_norm": 0.001954070059582591,
      "learning_rate": 0.00011702222222222224,
      "loss": 0.0005,
      "step": 3735
    },
    {
      "epoch": 6.233333333333333,
      "grad_norm": 0.005761296022683382,
      "learning_rate": 0.00011691111111111112,
      "loss": 0.0005,
      "step": 3740
    },
    {
      "epoch": 6.241666666666666,
      "grad_norm": 0.0022794920951128006,
      "learning_rate": 0.00011679999999999999,
      "loss": 0.0022,
      "step": 3745
    },
    {
      "epoch": 6.25,
      "grad_norm": 9.927177429199219,
      "learning_rate": 0.00011668888888888889,
      "loss": 0.0107,
      "step": 3750
    },
    {
      "epoch": 6.258333333333334,
      "grad_norm": 0.0021976903080940247,
      "learning_rate": 0.00011657777777777779,
      "loss": 0.0094,
      "step": 3755
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 1.6095707416534424,
      "learning_rate": 0.00011646666666666667,
      "loss": 0.1201,
      "step": 3760
    },
    {
      "epoch": 6.275,
      "grad_norm": 0.002478398848325014,
      "learning_rate": 0.00011635555555555555,
      "loss": 0.0005,
      "step": 3765
    },
    {
      "epoch": 6.283333333333333,
      "grad_norm": 0.002851113909855485,
      "learning_rate": 0.00011624444444444444,
      "loss": 0.0006,
      "step": 3770
    },
    {
      "epoch": 6.291666666666667,
      "grad_norm": 2.8488893508911133,
      "learning_rate": 0.00011613333333333334,
      "loss": 0.045,
      "step": 3775
    },
    {
      "epoch": 6.3,
      "grad_norm": 0.005491293966770172,
      "learning_rate": 0.00011602222222222223,
      "loss": 0.0999,
      "step": 3780
    },
    {
      "epoch": 6.308333333333334,
      "grad_norm": 0.004936845041811466,
      "learning_rate": 0.00011591111111111112,
      "loss": 0.001,
      "step": 3785
    },
    {
      "epoch": 6.316666666666666,
      "grad_norm": 0.5572565793991089,
      "learning_rate": 0.0001158,
      "loss": 0.0084,
      "step": 3790
    },
    {
      "epoch": 6.325,
      "grad_norm": 0.030538031831383705,
      "learning_rate": 0.0001156888888888889,
      "loss": 0.0012,
      "step": 3795
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 9.302164077758789,
      "learning_rate": 0.00011557777777777778,
      "loss": 0.0693,
      "step": 3800
    },
    {
      "epoch": 6.333333333333333,
      "eval_accuracy": 0.8066666666666666,
      "eval_f1": 0.8106853653781521,
      "eval_loss": 1.2958506345748901,
      "eval_precision": 0.8427423317086155,
      "eval_recall": 0.8066666666666666,
      "eval_runtime": 17.8978,
      "eval_samples_per_second": 134.095,
      "eval_steps_per_second": 16.762,
      "step": 3800
    },
    {
      "epoch": 6.341666666666667,
      "grad_norm": 0.017784342169761658,
      "learning_rate": 0.00011546666666666668,
      "loss": 0.0015,
      "step": 3805
    },
    {
      "epoch": 6.35,
      "grad_norm": 0.005893997382372618,
      "learning_rate": 0.00011535555555555555,
      "loss": 0.0011,
      "step": 3810
    },
    {
      "epoch": 6.358333333333333,
      "grad_norm": 0.006353956181555986,
      "learning_rate": 0.00011524444444444445,
      "loss": 0.0009,
      "step": 3815
    },
    {
      "epoch": 6.366666666666666,
      "grad_norm": 0.0059325359761714935,
      "learning_rate": 0.00011513333333333333,
      "loss": 0.0011,
      "step": 3820
    },
    {
      "epoch": 6.375,
      "grad_norm": 0.004590154625475407,
      "learning_rate": 0.00011502222222222223,
      "loss": 0.0008,
      "step": 3825
    },
    {
      "epoch": 6.383333333333334,
      "grad_norm": 0.0029400319326668978,
      "learning_rate": 0.00011491111111111113,
      "loss": 0.1305,
      "step": 3830
    },
    {
      "epoch": 6.391666666666667,
      "grad_norm": 0.0033246593084186316,
      "learning_rate": 0.0001148,
      "loss": 0.0007,
      "step": 3835
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.00466878991574049,
      "learning_rate": 0.0001146888888888889,
      "loss": 0.0625,
      "step": 3840
    },
    {
      "epoch": 6.408333333333333,
      "grad_norm": 10.863823890686035,
      "learning_rate": 0.00011457777777777778,
      "loss": 0.1993,
      "step": 3845
    },
    {
      "epoch": 6.416666666666667,
      "grad_norm": 0.007920840755105019,
      "learning_rate": 0.00011446666666666668,
      "loss": 0.0009,
      "step": 3850
    },
    {
      "epoch": 6.425,
      "grad_norm": 0.01989702880382538,
      "learning_rate": 0.00011435555555555558,
      "loss": 0.0025,
      "step": 3855
    },
    {
      "epoch": 6.433333333333334,
      "grad_norm": 0.05580327287316322,
      "learning_rate": 0.00011424444444444445,
      "loss": 0.0071,
      "step": 3860
    },
    {
      "epoch": 6.441666666666666,
      "grad_norm": 0.004567018244415522,
      "learning_rate": 0.00011413333333333333,
      "loss": 0.0132,
      "step": 3865
    },
    {
      "epoch": 6.45,
      "grad_norm": 0.011452917940914631,
      "learning_rate": 0.00011402222222222223,
      "loss": 0.1101,
      "step": 3870
    },
    {
      "epoch": 6.458333333333333,
      "grad_norm": 0.002683397615328431,
      "learning_rate": 0.00011391111111111113,
      "loss": 0.012,
      "step": 3875
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 0.003730751806870103,
      "learning_rate": 0.0001138,
      "loss": 0.001,
      "step": 3880
    },
    {
      "epoch": 6.475,
      "grad_norm": 0.09976396709680557,
      "learning_rate": 0.00011368888888888889,
      "loss": 0.0732,
      "step": 3885
    },
    {
      "epoch": 6.483333333333333,
      "grad_norm": 5.628818511962891,
      "learning_rate": 0.00011357777777777778,
      "loss": 0.0557,
      "step": 3890
    },
    {
      "epoch": 6.491666666666666,
      "grad_norm": 5.913239002227783,
      "learning_rate": 0.00011346666666666668,
      "loss": 0.1744,
      "step": 3895
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.00852190051227808,
      "learning_rate": 0.00011335555555555557,
      "loss": 0.0007,
      "step": 3900
    },
    {
      "epoch": 6.5,
      "eval_accuracy": 0.8141666666666667,
      "eval_f1": 0.8140286529593539,
      "eval_loss": 1.0675075054168701,
      "eval_precision": 0.8194817767534078,
      "eval_recall": 0.8141666666666667,
      "eval_runtime": 18.1434,
      "eval_samples_per_second": 132.28,
      "eval_steps_per_second": 16.535,
      "step": 3900
    },
    {
      "epoch": 6.508333333333333,
      "grad_norm": 0.0307608749717474,
      "learning_rate": 0.00011324444444444444,
      "loss": 0.0046,
      "step": 3905
    },
    {
      "epoch": 6.516666666666667,
      "grad_norm": 7.473491191864014,
      "learning_rate": 0.00011313333333333334,
      "loss": 0.1039,
      "step": 3910
    },
    {
      "epoch": 6.525,
      "grad_norm": 0.003654002444818616,
      "learning_rate": 0.00011302222222222223,
      "loss": 0.098,
      "step": 3915
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.006449045147746801,
      "learning_rate": 0.00011291111111111112,
      "loss": 0.0017,
      "step": 3920
    },
    {
      "epoch": 6.541666666666667,
      "grad_norm": 0.003598675597459078,
      "learning_rate": 0.00011279999999999999,
      "loss": 0.0009,
      "step": 3925
    },
    {
      "epoch": 6.55,
      "grad_norm": 4.897794723510742,
      "learning_rate": 0.00011268888888888889,
      "loss": 0.0151,
      "step": 3930
    },
    {
      "epoch": 6.558333333333334,
      "grad_norm": 0.0632496029138565,
      "learning_rate": 0.00011257777777777779,
      "loss": 0.001,
      "step": 3935
    },
    {
      "epoch": 6.566666666666666,
      "grad_norm": 0.003649181919172406,
      "learning_rate": 0.00011246666666666667,
      "loss": 0.0009,
      "step": 3940
    },
    {
      "epoch": 6.575,
      "grad_norm": 0.006597050465643406,
      "learning_rate": 0.00011235555555555557,
      "loss": 0.0008,
      "step": 3945
    },
    {
      "epoch": 6.583333333333333,
      "grad_norm": 0.0342070609331131,
      "learning_rate": 0.00011224444444444444,
      "loss": 0.001,
      "step": 3950
    },
    {
      "epoch": 6.591666666666667,
      "grad_norm": 0.002951887436211109,
      "learning_rate": 0.00011213333333333334,
      "loss": 0.0783,
      "step": 3955
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.002315513091161847,
      "learning_rate": 0.00011202222222222222,
      "loss": 0.0189,
      "step": 3960
    },
    {
      "epoch": 6.608333333333333,
      "grad_norm": 0.02118636481463909,
      "learning_rate": 0.00011191111111111112,
      "loss": 0.0007,
      "step": 3965
    },
    {
      "epoch": 6.616666666666667,
      "grad_norm": 4.008122444152832,
      "learning_rate": 0.00011180000000000002,
      "loss": 0.0081,
      "step": 3970
    },
    {
      "epoch": 6.625,
      "grad_norm": 0.0036419820971786976,
      "learning_rate": 0.00011168888888888889,
      "loss": 0.001,
      "step": 3975
    },
    {
      "epoch": 6.633333333333333,
      "grad_norm": 0.002363891340792179,
      "learning_rate": 0.00011157777777777778,
      "loss": 0.0011,
      "step": 3980
    },
    {
      "epoch": 6.641666666666667,
      "grad_norm": 0.003223976818844676,
      "learning_rate": 0.00011146666666666667,
      "loss": 0.0009,
      "step": 3985
    },
    {
      "epoch": 6.65,
      "grad_norm": 0.0026267264038324356,
      "learning_rate": 0.00011135555555555557,
      "loss": 0.029,
      "step": 3990
    },
    {
      "epoch": 6.658333333333333,
      "grad_norm": 0.004962367005646229,
      "learning_rate": 0.00011124444444444444,
      "loss": 0.0007,
      "step": 3995
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.0038162493146955967,
      "learning_rate": 0.00011113333333333333,
      "loss": 0.0008,
      "step": 4000
    },
    {
      "epoch": 6.666666666666667,
      "eval_accuracy": 0.7904166666666667,
      "eval_f1": 0.790291950480943,
      "eval_loss": 1.3692227602005005,
      "eval_precision": 0.8077740951470266,
      "eval_recall": 0.7904166666666667,
      "eval_runtime": 18.4921,
      "eval_samples_per_second": 129.785,
      "eval_steps_per_second": 16.223,
      "step": 4000
    },
    {
      "epoch": 6.675,
      "grad_norm": 0.009275160729885101,
      "learning_rate": 0.00011102222222222223,
      "loss": 0.0006,
      "step": 4005
    },
    {
      "epoch": 6.683333333333334,
      "grad_norm": 0.007745435927063227,
      "learning_rate": 0.00011091111111111113,
      "loss": 0.0007,
      "step": 4010
    },
    {
      "epoch": 6.691666666666666,
      "grad_norm": 0.07704033702611923,
      "learning_rate": 0.00011080000000000001,
      "loss": 0.0008,
      "step": 4015
    },
    {
      "epoch": 6.7,
      "grad_norm": 0.0017590982606634498,
      "learning_rate": 0.00011068888888888888,
      "loss": 0.0557,
      "step": 4020
    },
    {
      "epoch": 6.708333333333333,
      "grad_norm": 0.0023117507807910442,
      "learning_rate": 0.00011057777777777778,
      "loss": 0.0005,
      "step": 4025
    },
    {
      "epoch": 6.716666666666667,
      "grad_norm": 0.0029507651925086975,
      "learning_rate": 0.00011046666666666668,
      "loss": 0.0007,
      "step": 4030
    },
    {
      "epoch": 6.725,
      "grad_norm": 0.003124380949884653,
      "learning_rate": 0.00011035555555555556,
      "loss": 0.0005,
      "step": 4035
    },
    {
      "epoch": 6.733333333333333,
      "grad_norm": 0.00214362726546824,
      "learning_rate": 0.00011024444444444443,
      "loss": 0.0006,
      "step": 4040
    },
    {
      "epoch": 6.741666666666667,
      "grad_norm": 0.6754726767539978,
      "learning_rate": 0.00011013333333333333,
      "loss": 0.0009,
      "step": 4045
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.0026435451582074165,
      "learning_rate": 0.00011002222222222223,
      "loss": 0.0006,
      "step": 4050
    },
    {
      "epoch": 6.758333333333333,
      "grad_norm": 0.08668801188468933,
      "learning_rate": 0.00010991111111111111,
      "loss": 0.0072,
      "step": 4055
    },
    {
      "epoch": 6.766666666666667,
      "grad_norm": 0.002398624550551176,
      "learning_rate": 0.00010980000000000001,
      "loss": 0.0005,
      "step": 4060
    },
    {
      "epoch": 6.775,
      "grad_norm": 0.0022862572222948074,
      "learning_rate": 0.00010968888888888888,
      "loss": 0.1452,
      "step": 4065
    },
    {
      "epoch": 6.783333333333333,
      "grad_norm": 0.0021376553922891617,
      "learning_rate": 0.00010957777777777778,
      "loss": 0.0006,
      "step": 4070
    },
    {
      "epoch": 6.791666666666667,
      "grad_norm": 0.003418923122808337,
      "learning_rate": 0.00010946666666666667,
      "loss": 0.002,
      "step": 4075
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.36830148100852966,
      "learning_rate": 0.00010935555555555556,
      "loss": 0.001,
      "step": 4080
    },
    {
      "epoch": 6.808333333333334,
      "grad_norm": 0.0021318630315363407,
      "learning_rate": 0.00010924444444444446,
      "loss": 0.0005,
      "step": 4085
    },
    {
      "epoch": 6.816666666666666,
      "grad_norm": 0.0024653475265949965,
      "learning_rate": 0.00010913333333333333,
      "loss": 0.0006,
      "step": 4090
    },
    {
      "epoch": 6.825,
      "grad_norm": 0.006878227926790714,
      "learning_rate": 0.00010902222222222222,
      "loss": 0.0005,
      "step": 4095
    },
    {
      "epoch": 6.833333333333333,
      "grad_norm": 0.0022874558344483376,
      "learning_rate": 0.00010891111111111112,
      "loss": 0.0063,
      "step": 4100
    },
    {
      "epoch": 6.833333333333333,
      "eval_accuracy": 0.8091666666666667,
      "eval_f1": 0.8072546731909792,
      "eval_loss": 1.246267557144165,
      "eval_precision": 0.8325778349334061,
      "eval_recall": 0.8091666666666667,
      "eval_runtime": 17.7389,
      "eval_samples_per_second": 135.296,
      "eval_steps_per_second": 16.912,
      "step": 4100
    },
    {
      "epoch": 6.841666666666667,
      "grad_norm": 0.009411840699613094,
      "learning_rate": 0.00010880000000000002,
      "loss": 0.0005,
      "step": 4105
    },
    {
      "epoch": 6.85,
      "grad_norm": 0.002033449010923505,
      "learning_rate": 0.00010868888888888889,
      "loss": 0.0005,
      "step": 4110
    },
    {
      "epoch": 6.858333333333333,
      "grad_norm": 1.9759594202041626,
      "learning_rate": 0.00010857777777777778,
      "loss": 0.0039,
      "step": 4115
    },
    {
      "epoch": 6.866666666666667,
      "grad_norm": 0.003168121911585331,
      "learning_rate": 0.00010846666666666667,
      "loss": 0.0749,
      "step": 4120
    },
    {
      "epoch": 6.875,
      "grad_norm": 0.001964178867638111,
      "learning_rate": 0.00010835555555555557,
      "loss": 0.0006,
      "step": 4125
    },
    {
      "epoch": 6.883333333333333,
      "grad_norm": 0.007505439221858978,
      "learning_rate": 0.00010824444444444447,
      "loss": 0.0005,
      "step": 4130
    },
    {
      "epoch": 6.891666666666667,
      "grad_norm": 0.00185912917368114,
      "learning_rate": 0.00010813333333333334,
      "loss": 0.0014,
      "step": 4135
    },
    {
      "epoch": 6.9,
      "grad_norm": 0.0025130559224635363,
      "learning_rate": 0.00010802222222222222,
      "loss": 0.0004,
      "step": 4140
    },
    {
      "epoch": 6.908333333333333,
      "grad_norm": 0.02055543102324009,
      "learning_rate": 0.00010791111111111112,
      "loss": 0.0005,
      "step": 4145
    },
    {
      "epoch": 6.916666666666667,
      "grad_norm": 0.00220493390224874,
      "learning_rate": 0.00010780000000000002,
      "loss": 0.0321,
      "step": 4150
    },
    {
      "epoch": 6.925,
      "grad_norm": 0.018720634281635284,
      "learning_rate": 0.00010768888888888889,
      "loss": 0.0006,
      "step": 4155
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.004638391546905041,
      "learning_rate": 0.00010757777777777777,
      "loss": 0.0005,
      "step": 4160
    },
    {
      "epoch": 6.941666666666666,
      "grad_norm": 0.002068839268758893,
      "learning_rate": 0.00010746666666666667,
      "loss": 0.0005,
      "step": 4165
    },
    {
      "epoch": 6.95,
      "grad_norm": 0.00626786844804883,
      "learning_rate": 0.00010735555555555557,
      "loss": 0.0008,
      "step": 4170
    },
    {
      "epoch": 6.958333333333333,
      "grad_norm": 0.0025487090460956097,
      "learning_rate": 0.00010724444444444446,
      "loss": 0.0006,
      "step": 4175
    },
    {
      "epoch": 6.966666666666667,
      "grad_norm": 0.019085291773080826,
      "learning_rate": 0.00010713333333333333,
      "loss": 0.0013,
      "step": 4180
    },
    {
      "epoch": 6.975,
      "grad_norm": 9.847161293029785,
      "learning_rate": 0.00010702222222222222,
      "loss": 0.0132,
      "step": 4185
    },
    {
      "epoch": 6.983333333333333,
      "grad_norm": 0.0045811887830495834,
      "learning_rate": 0.00010691111111111112,
      "loss": 0.0139,
      "step": 4190
    },
    {
      "epoch": 6.991666666666667,
      "grad_norm": 0.7987191677093506,
      "learning_rate": 0.00010680000000000001,
      "loss": 0.1006,
      "step": 4195
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.005585179664194584,
      "learning_rate": 0.0001066888888888889,
      "loss": 0.0006,
      "step": 4200
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.8170833333333334,
      "eval_f1": 0.8186709421860983,
      "eval_loss": 1.2368261814117432,
      "eval_precision": 0.8433289145116005,
      "eval_recall": 0.8170833333333334,
      "eval_runtime": 17.9056,
      "eval_samples_per_second": 134.036,
      "eval_steps_per_second": 16.755,
      "step": 4200
    },
    {
      "epoch": 7.008333333333334,
      "grad_norm": 0.002493297215551138,
      "learning_rate": 0.00010657777777777778,
      "loss": 0.0006,
      "step": 4205
    },
    {
      "epoch": 7.016666666666667,
      "grad_norm": 0.03822970762848854,
      "learning_rate": 0.00010646666666666668,
      "loss": 0.0011,
      "step": 4210
    },
    {
      "epoch": 7.025,
      "grad_norm": 0.003267091466113925,
      "learning_rate": 0.00010635555555555556,
      "loss": 0.0009,
      "step": 4215
    },
    {
      "epoch": 7.033333333333333,
      "grad_norm": 0.010033726692199707,
      "learning_rate": 0.00010624444444444446,
      "loss": 0.0793,
      "step": 4220
    },
    {
      "epoch": 7.041666666666667,
      "grad_norm": 0.27400872111320496,
      "learning_rate": 0.00010613333333333333,
      "loss": 0.0025,
      "step": 4225
    },
    {
      "epoch": 7.05,
      "grad_norm": 0.002294251462444663,
      "learning_rate": 0.00010602222222222223,
      "loss": 0.0006,
      "step": 4230
    },
    {
      "epoch": 7.058333333333334,
      "grad_norm": 0.002020907821133733,
      "learning_rate": 0.00010591111111111111,
      "loss": 0.0006,
      "step": 4235
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 0.29849129915237427,
      "learning_rate": 0.00010580000000000001,
      "loss": 0.0243,
      "step": 4240
    },
    {
      "epoch": 7.075,
      "grad_norm": 0.013467399403452873,
      "learning_rate": 0.00010568888888888891,
      "loss": 0.0008,
      "step": 4245
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.04788585752248764,
      "learning_rate": 0.00010557777777777778,
      "loss": 0.0011,
      "step": 4250
    },
    {
      "epoch": 7.091666666666667,
      "grad_norm": 0.012452193535864353,
      "learning_rate": 0.00010546666666666666,
      "loss": 0.0009,
      "step": 4255
    },
    {
      "epoch": 7.1,
      "grad_norm": 0.3542737364768982,
      "learning_rate": 0.00010535555555555556,
      "loss": 0.0159,
      "step": 4260
    },
    {
      "epoch": 7.108333333333333,
      "grad_norm": 0.0020437061320990324,
      "learning_rate": 0.00010524444444444446,
      "loss": 0.0006,
      "step": 4265
    },
    {
      "epoch": 7.116666666666666,
      "grad_norm": 0.0036841121036559343,
      "learning_rate": 0.00010513333333333333,
      "loss": 0.0005,
      "step": 4270
    },
    {
      "epoch": 7.125,
      "grad_norm": 0.0028364115860313177,
      "learning_rate": 0.00010502222222222222,
      "loss": 0.0006,
      "step": 4275
    },
    {
      "epoch": 7.133333333333334,
      "grad_norm": 0.002407371299341321,
      "learning_rate": 0.00010491111111111111,
      "loss": 0.0904,
      "step": 4280
    },
    {
      "epoch": 7.141666666666667,
      "grad_norm": 0.0021666146349161863,
      "learning_rate": 0.00010480000000000001,
      "loss": 0.0004,
      "step": 4285
    },
    {
      "epoch": 7.15,
      "grad_norm": 0.0018513142131268978,
      "learning_rate": 0.0001046888888888889,
      "loss": 0.0006,
      "step": 4290
    },
    {
      "epoch": 7.158333333333333,
      "grad_norm": 0.0024850056506693363,
      "learning_rate": 0.00010457777777777777,
      "loss": 0.0005,
      "step": 4295
    },
    {
      "epoch": 7.166666666666667,
      "grad_norm": 0.003956371918320656,
      "learning_rate": 0.00010446666666666667,
      "loss": 0.0014,
      "step": 4300
    },
    {
      "epoch": 7.166666666666667,
      "eval_accuracy": 0.7979166666666667,
      "eval_f1": 0.800387537481852,
      "eval_loss": 1.224525809288025,
      "eval_precision": 0.8126325787236149,
      "eval_recall": 0.7979166666666667,
      "eval_runtime": 18.2327,
      "eval_samples_per_second": 131.631,
      "eval_steps_per_second": 16.454,
      "step": 4300
    },
    {
      "epoch": 7.175,
      "grad_norm": 0.002190897474065423,
      "learning_rate": 0.00010435555555555557,
      "loss": 0.0005,
      "step": 4305
    },
    {
      "epoch": 7.183333333333334,
      "grad_norm": 0.003893352812156081,
      "learning_rate": 0.00010424444444444445,
      "loss": 0.0006,
      "step": 4310
    },
    {
      "epoch": 7.191666666666666,
      "grad_norm": 0.0025790848303586245,
      "learning_rate": 0.00010413333333333335,
      "loss": 0.0005,
      "step": 4315
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.0033332102466374636,
      "learning_rate": 0.00010402222222222222,
      "loss": 0.0818,
      "step": 4320
    },
    {
      "epoch": 7.208333333333333,
      "grad_norm": 0.004384297411888838,
      "learning_rate": 0.00010391111111111112,
      "loss": 0.0004,
      "step": 4325
    },
    {
      "epoch": 7.216666666666667,
      "grad_norm": 0.37269988656044006,
      "learning_rate": 0.0001038,
      "loss": 0.0012,
      "step": 4330
    },
    {
      "epoch": 7.225,
      "grad_norm": 0.002154160989448428,
      "learning_rate": 0.0001036888888888889,
      "loss": 0.0005,
      "step": 4335
    },
    {
      "epoch": 7.233333333333333,
      "grad_norm": 0.001931973616592586,
      "learning_rate": 0.00010357777777777777,
      "loss": 0.0005,
      "step": 4340
    },
    {
      "epoch": 7.241666666666666,
      "grad_norm": 0.007139918394386768,
      "learning_rate": 0.00010346666666666667,
      "loss": 0.0004,
      "step": 4345
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.6516969799995422,
      "learning_rate": 0.00010335555555555555,
      "loss": 0.0015,
      "step": 4350
    },
    {
      "epoch": 7.258333333333334,
      "grad_norm": 0.0016340233851224184,
      "learning_rate": 0.00010324444444444445,
      "loss": 0.0005,
      "step": 4355
    },
    {
      "epoch": 7.266666666666667,
      "grad_norm": 0.0025384167674928904,
      "learning_rate": 0.00010313333333333335,
      "loss": 0.0005,
      "step": 4360
    },
    {
      "epoch": 7.275,
      "grad_norm": 0.0019792395178228617,
      "learning_rate": 0.00010302222222222222,
      "loss": 0.0053,
      "step": 4365
    },
    {
      "epoch": 7.283333333333333,
      "grad_norm": 0.0016639833338558674,
      "learning_rate": 0.00010291111111111112,
      "loss": 0.0004,
      "step": 4370
    },
    {
      "epoch": 7.291666666666667,
      "grad_norm": 0.0017050477908924222,
      "learning_rate": 0.0001028,
      "loss": 0.0602,
      "step": 4375
    },
    {
      "epoch": 7.3,
      "grad_norm": 0.007233903277665377,
      "learning_rate": 0.0001026888888888889,
      "loss": 0.0004,
      "step": 4380
    },
    {
      "epoch": 7.308333333333334,
      "grad_norm": 0.002827920252457261,
      "learning_rate": 0.00010257777777777777,
      "loss": 0.0005,
      "step": 4385
    },
    {
      "epoch": 7.316666666666666,
      "grad_norm": 0.013786641880869865,
      "learning_rate": 0.00010246666666666667,
      "loss": 0.0005,
      "step": 4390
    },
    {
      "epoch": 7.325,
      "grad_norm": 9.637537956237793,
      "learning_rate": 0.00010235555555555556,
      "loss": 0.1133,
      "step": 4395
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.03561023622751236,
      "learning_rate": 0.00010224444444444446,
      "loss": 0.0005,
      "step": 4400
    },
    {
      "epoch": 7.333333333333333,
      "eval_accuracy": 0.7995833333333333,
      "eval_f1": 0.7995888124781865,
      "eval_loss": 1.248620629310608,
      "eval_precision": 0.8133599789674458,
      "eval_recall": 0.7995833333333333,
      "eval_runtime": 18.4512,
      "eval_samples_per_second": 130.073,
      "eval_steps_per_second": 16.259,
      "step": 4400
    },
    {
      "epoch": 7.341666666666667,
      "grad_norm": 0.0020466342102736235,
      "learning_rate": 0.00010213333333333335,
      "loss": 0.0008,
      "step": 4405
    },
    {
      "epoch": 7.35,
      "grad_norm": 3.2304627895355225,
      "learning_rate": 0.00010202222222222222,
      "loss": 0.0118,
      "step": 4410
    },
    {
      "epoch": 7.358333333333333,
      "grad_norm": 0.001565932878293097,
      "learning_rate": 0.00010191111111111111,
      "loss": 0.0541,
      "step": 4415
    },
    {
      "epoch": 7.366666666666666,
      "grad_norm": 10.113313674926758,
      "learning_rate": 0.00010180000000000001,
      "loss": 0.0348,
      "step": 4420
    },
    {
      "epoch": 7.375,
      "grad_norm": 0.0018576865550130606,
      "learning_rate": 0.0001016888888888889,
      "loss": 0.0005,
      "step": 4425
    },
    {
      "epoch": 7.383333333333334,
      "grad_norm": 0.0033017718233168125,
      "learning_rate": 0.00010157777777777778,
      "loss": 0.1698,
      "step": 4430
    },
    {
      "epoch": 7.391666666666667,
      "grad_norm": 0.0035009433049708605,
      "learning_rate": 0.00010146666666666666,
      "loss": 0.0094,
      "step": 4435
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.017848649993538857,
      "learning_rate": 0.00010135555555555556,
      "loss": 0.0024,
      "step": 4440
    },
    {
      "epoch": 7.408333333333333,
      "grad_norm": 0.051200512796640396,
      "learning_rate": 0.00010124444444444446,
      "loss": 0.0499,
      "step": 4445
    },
    {
      "epoch": 7.416666666666667,
      "grad_norm": 3.5321269035339355,
      "learning_rate": 0.00010113333333333334,
      "loss": 0.1075,
      "step": 4450
    },
    {
      "epoch": 7.425,
      "grad_norm": 0.012632478028535843,
      "learning_rate": 0.00010102222222222221,
      "loss": 0.0146,
      "step": 4455
    },
    {
      "epoch": 7.433333333333334,
      "grad_norm": 0.01773531548678875,
      "learning_rate": 0.00010091111111111111,
      "loss": 0.0015,
      "step": 4460
    },
    {
      "epoch": 7.441666666666666,
      "grad_norm": 0.0167500339448452,
      "learning_rate": 0.00010080000000000001,
      "loss": 0.0015,
      "step": 4465
    },
    {
      "epoch": 7.45,
      "grad_norm": 0.006985655054450035,
      "learning_rate": 0.0001006888888888889,
      "loss": 0.0047,
      "step": 4470
    },
    {
      "epoch": 7.458333333333333,
      "grad_norm": 0.002679118886590004,
      "learning_rate": 0.0001005777777777778,
      "loss": 0.1237,
      "step": 4475
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 0.011784889735281467,
      "learning_rate": 0.00010046666666666666,
      "loss": 0.0014,
      "step": 4480
    },
    {
      "epoch": 7.475,
      "grad_norm": 0.007196694612503052,
      "learning_rate": 0.00010035555555555556,
      "loss": 0.0382,
      "step": 4485
    },
    {
      "epoch": 7.483333333333333,
      "grad_norm": 0.011246589943766594,
      "learning_rate": 0.00010024444444444445,
      "loss": 0.0012,
      "step": 4490
    },
    {
      "epoch": 7.491666666666666,
      "grad_norm": 0.03219161182641983,
      "learning_rate": 0.00010013333333333335,
      "loss": 0.0058,
      "step": 4495
    },
    {
      "epoch": 7.5,
      "grad_norm": 9.362371444702148,
      "learning_rate": 0.00010002222222222222,
      "loss": 0.0793,
      "step": 4500
    },
    {
      "epoch": 7.5,
      "eval_accuracy": 0.77625,
      "eval_f1": 0.7696428141087324,
      "eval_loss": 1.3575351238250732,
      "eval_precision": 0.800451363605362,
      "eval_recall": 0.77625,
      "eval_runtime": 18.488,
      "eval_samples_per_second": 129.814,
      "eval_steps_per_second": 16.227,
      "step": 4500
    },
    {
      "epoch": 7.508333333333333,
      "grad_norm": 0.003254137234762311,
      "learning_rate": 9.991111111111112e-05,
      "loss": 0.0596,
      "step": 4505
    },
    {
      "epoch": 7.516666666666667,
      "grad_norm": 0.0035405727103352547,
      "learning_rate": 9.98e-05,
      "loss": 0.0419,
      "step": 4510
    },
    {
      "epoch": 7.525,
      "grad_norm": 0.0025845735799521208,
      "learning_rate": 9.96888888888889e-05,
      "loss": 0.0007,
      "step": 4515
    },
    {
      "epoch": 7.533333333333333,
      "grad_norm": 0.0035965354181826115,
      "learning_rate": 9.957777777777778e-05,
      "loss": 0.0406,
      "step": 4520
    },
    {
      "epoch": 7.541666666666667,
      "grad_norm": 0.02385864593088627,
      "learning_rate": 9.946666666666668e-05,
      "loss": 0.001,
      "step": 4525
    },
    {
      "epoch": 7.55,
      "grad_norm": 0.004266361240297556,
      "learning_rate": 9.935555555555555e-05,
      "loss": 0.0008,
      "step": 4530
    },
    {
      "epoch": 7.558333333333334,
      "grad_norm": 10.367888450622559,
      "learning_rate": 9.924444444444445e-05,
      "loss": 0.086,
      "step": 4535
    },
    {
      "epoch": 7.566666666666666,
      "grad_norm": 0.005195547826588154,
      "learning_rate": 9.913333333333334e-05,
      "loss": 0.0018,
      "step": 4540
    },
    {
      "epoch": 7.575,
      "grad_norm": 0.003064212156459689,
      "learning_rate": 9.902222222222223e-05,
      "loss": 0.0011,
      "step": 4545
    },
    {
      "epoch": 7.583333333333333,
      "grad_norm": 0.06963126361370087,
      "learning_rate": 9.891111111111112e-05,
      "loss": 0.0772,
      "step": 4550
    },
    {
      "epoch": 7.591666666666667,
      "grad_norm": 0.3093690276145935,
      "learning_rate": 9.88e-05,
      "loss": 0.015,
      "step": 4555
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.0942772775888443,
      "learning_rate": 9.86888888888889e-05,
      "loss": 0.0008,
      "step": 4560
    },
    {
      "epoch": 7.608333333333333,
      "grad_norm": 0.010500328615307808,
      "learning_rate": 9.857777777777779e-05,
      "loss": 0.0026,
      "step": 4565
    },
    {
      "epoch": 7.616666666666667,
      "grad_norm": 0.002502851653844118,
      "learning_rate": 9.846666666666667e-05,
      "loss": 0.0134,
      "step": 4570
    },
    {
      "epoch": 7.625,
      "grad_norm": 0.0071341972798109055,
      "learning_rate": 9.835555555555556e-05,
      "loss": 0.0007,
      "step": 4575
    },
    {
      "epoch": 7.633333333333333,
      "grad_norm": 0.06868123263120651,
      "learning_rate": 9.824444444444445e-05,
      "loss": 0.0764,
      "step": 4580
    },
    {
      "epoch": 7.641666666666667,
      "grad_norm": 0.001805054140277207,
      "learning_rate": 9.813333333333334e-05,
      "loss": 0.0074,
      "step": 4585
    },
    {
      "epoch": 7.65,
      "grad_norm": 0.2737463414669037,
      "learning_rate": 9.802222222222222e-05,
      "loss": 0.0015,
      "step": 4590
    },
    {
      "epoch": 7.658333333333333,
      "grad_norm": 0.0022107267286628485,
      "learning_rate": 9.791111111111112e-05,
      "loss": 0.1623,
      "step": 4595
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.0022805279586464167,
      "learning_rate": 9.78e-05,
      "loss": 0.0006,
      "step": 4600
    },
    {
      "epoch": 7.666666666666667,
      "eval_accuracy": 0.80125,
      "eval_f1": 0.7995960330256122,
      "eval_loss": 1.2692971229553223,
      "eval_precision": 0.8150540539119545,
      "eval_recall": 0.80125,
      "eval_runtime": 18.72,
      "eval_samples_per_second": 128.205,
      "eval_steps_per_second": 16.026,
      "step": 4600
    },
    {
      "epoch": 7.675,
      "grad_norm": 0.6644483804702759,
      "learning_rate": 9.768888888888889e-05,
      "loss": 0.0926,
      "step": 4605
    },
    {
      "epoch": 7.683333333333334,
      "grad_norm": 0.007860844023525715,
      "learning_rate": 9.757777777777777e-05,
      "loss": 0.0011,
      "step": 4610
    },
    {
      "epoch": 7.691666666666666,
      "grad_norm": 0.005825599655508995,
      "learning_rate": 9.746666666666667e-05,
      "loss": 0.002,
      "step": 4615
    },
    {
      "epoch": 7.7,
      "grad_norm": 0.002667010994628072,
      "learning_rate": 9.735555555555556e-05,
      "loss": 0.0015,
      "step": 4620
    },
    {
      "epoch": 7.708333333333333,
      "grad_norm": 0.10531929135322571,
      "learning_rate": 9.724444444444444e-05,
      "loss": 0.0012,
      "step": 4625
    },
    {
      "epoch": 7.716666666666667,
      "grad_norm": 0.009005175903439522,
      "learning_rate": 9.713333333333334e-05,
      "loss": 0.0007,
      "step": 4630
    },
    {
      "epoch": 7.725,
      "grad_norm": 0.0034402853343635798,
      "learning_rate": 9.702222222222223e-05,
      "loss": 0.0568,
      "step": 4635
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 0.0016546129481866956,
      "learning_rate": 9.691111111111112e-05,
      "loss": 0.0004,
      "step": 4640
    },
    {
      "epoch": 7.741666666666667,
      "grad_norm": 0.09486468881368637,
      "learning_rate": 9.680000000000001e-05,
      "loss": 0.0009,
      "step": 4645
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.006779166869819164,
      "learning_rate": 9.668888888888889e-05,
      "loss": 0.0006,
      "step": 4650
    },
    {
      "epoch": 7.758333333333333,
      "grad_norm": 0.0018887241603806615,
      "learning_rate": 9.657777777777778e-05,
      "loss": 0.0528,
      "step": 4655
    },
    {
      "epoch": 7.766666666666667,
      "grad_norm": 0.00159288733266294,
      "learning_rate": 9.646666666666668e-05,
      "loss": 0.0004,
      "step": 4660
    },
    {
      "epoch": 7.775,
      "grad_norm": 0.002197465393692255,
      "learning_rate": 9.635555555555556e-05,
      "loss": 0.0008,
      "step": 4665
    },
    {
      "epoch": 7.783333333333333,
      "grad_norm": 0.0020881604868918657,
      "learning_rate": 9.624444444444445e-05,
      "loss": 0.0006,
      "step": 4670
    },
    {
      "epoch": 7.791666666666667,
      "grad_norm": 0.005545620806515217,
      "learning_rate": 9.613333333333334e-05,
      "loss": 0.0009,
      "step": 4675
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.0016975982580333948,
      "learning_rate": 9.602222222222223e-05,
      "loss": 0.0004,
      "step": 4680
    },
    {
      "epoch": 7.808333333333334,
      "grad_norm": 0.001595878740772605,
      "learning_rate": 9.591111111111111e-05,
      "loss": 0.0005,
      "step": 4685
    },
    {
      "epoch": 7.816666666666666,
      "grad_norm": 0.002294294536113739,
      "learning_rate": 9.58e-05,
      "loss": 0.0004,
      "step": 4690
    },
    {
      "epoch": 7.825,
      "grad_norm": 0.001976243918761611,
      "learning_rate": 9.56888888888889e-05,
      "loss": 0.0259,
      "step": 4695
    },
    {
      "epoch": 7.833333333333333,
      "grad_norm": 0.001720887841656804,
      "learning_rate": 9.557777777777778e-05,
      "loss": 0.0005,
      "step": 4700
    },
    {
      "epoch": 7.833333333333333,
      "eval_accuracy": 0.8191666666666667,
      "eval_f1": 0.8199043597047633,
      "eval_loss": 1.1998887062072754,
      "eval_precision": 0.8405486522020116,
      "eval_recall": 0.8191666666666667,
      "eval_runtime": 17.835,
      "eval_samples_per_second": 134.567,
      "eval_steps_per_second": 16.821,
      "step": 4700
    },
    {
      "epoch": 7.841666666666667,
      "grad_norm": 0.0019497304456308484,
      "learning_rate": 9.546666666666667e-05,
      "loss": 0.0593,
      "step": 4705
    },
    {
      "epoch": 7.85,
      "grad_norm": 0.0020708946976810694,
      "learning_rate": 9.535555555555556e-05,
      "loss": 0.0024,
      "step": 4710
    },
    {
      "epoch": 7.858333333333333,
      "grad_norm": 0.0024371573235839605,
      "learning_rate": 9.524444444444445e-05,
      "loss": 0.0087,
      "step": 4715
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 0.004640860948711634,
      "learning_rate": 9.513333333333335e-05,
      "loss": 0.0106,
      "step": 4720
    },
    {
      "epoch": 7.875,
      "grad_norm": 0.021634545177221298,
      "learning_rate": 9.502222222222222e-05,
      "loss": 0.0005,
      "step": 4725
    },
    {
      "epoch": 7.883333333333333,
      "grad_norm": 0.0028453627601265907,
      "learning_rate": 9.491111111111112e-05,
      "loss": 0.0152,
      "step": 4730
    },
    {
      "epoch": 7.891666666666667,
      "grad_norm": 0.003747039707377553,
      "learning_rate": 9.48e-05,
      "loss": 0.0004,
      "step": 4735
    },
    {
      "epoch": 7.9,
      "grad_norm": 0.004712098278105259,
      "learning_rate": 9.46888888888889e-05,
      "loss": 0.0004,
      "step": 4740
    },
    {
      "epoch": 7.908333333333333,
      "grad_norm": 3.7353694438934326,
      "learning_rate": 9.457777777777778e-05,
      "loss": 0.0094,
      "step": 4745
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.002233565552160144,
      "learning_rate": 9.446666666666667e-05,
      "loss": 0.0005,
      "step": 4750
    },
    {
      "epoch": 7.925,
      "grad_norm": 0.0033051795326173306,
      "learning_rate": 9.435555555555557e-05,
      "loss": 0.0011,
      "step": 4755
    },
    {
      "epoch": 7.933333333333334,
      "grad_norm": 0.0015059810830280185,
      "learning_rate": 9.424444444444445e-05,
      "loss": 0.0107,
      "step": 4760
    },
    {
      "epoch": 7.941666666666666,
      "grad_norm": 0.5520133972167969,
      "learning_rate": 9.413333333333334e-05,
      "loss": 0.0014,
      "step": 4765
    },
    {
      "epoch": 7.95,
      "grad_norm": 0.006833518855273724,
      "learning_rate": 9.402222222222222e-05,
      "loss": 0.1114,
      "step": 4770
    },
    {
      "epoch": 7.958333333333333,
      "grad_norm": 0.01859143003821373,
      "learning_rate": 9.391111111111112e-05,
      "loss": 0.0009,
      "step": 4775
    },
    {
      "epoch": 7.966666666666667,
      "grad_norm": 0.005612580105662346,
      "learning_rate": 9.38e-05,
      "loss": 0.0082,
      "step": 4780
    },
    {
      "epoch": 7.975,
      "grad_norm": 0.006635615602135658,
      "learning_rate": 9.368888888888889e-05,
      "loss": 0.0011,
      "step": 4785
    },
    {
      "epoch": 7.983333333333333,
      "grad_norm": 0.008790500462055206,
      "learning_rate": 9.357777777777779e-05,
      "loss": 0.0328,
      "step": 4790
    },
    {
      "epoch": 7.991666666666667,
      "grad_norm": 0.0388391837477684,
      "learning_rate": 9.346666666666667e-05,
      "loss": 0.0254,
      "step": 4795
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.008438260294497013,
      "learning_rate": 9.335555555555557e-05,
      "loss": 0.0007,
      "step": 4800
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.8345833333333333,
      "eval_f1": 0.8353171017749312,
      "eval_loss": 1.0169364213943481,
      "eval_precision": 0.8516998265370749,
      "eval_recall": 0.8345833333333333,
      "eval_runtime": 18.1889,
      "eval_samples_per_second": 131.949,
      "eval_steps_per_second": 16.494,
      "step": 4800
    },
    {
      "epoch": 8.008333333333333,
      "grad_norm": 0.004464373458176851,
      "learning_rate": 9.324444444444444e-05,
      "loss": 0.0031,
      "step": 4805
    },
    {
      "epoch": 8.016666666666667,
      "grad_norm": 0.0021182007621973753,
      "learning_rate": 9.313333333333334e-05,
      "loss": 0.0106,
      "step": 4810
    },
    {
      "epoch": 8.025,
      "grad_norm": 0.001880035037174821,
      "learning_rate": 9.302222222222222e-05,
      "loss": 0.0004,
      "step": 4815
    },
    {
      "epoch": 8.033333333333333,
      "grad_norm": 0.0017032003961503506,
      "learning_rate": 9.291111111111112e-05,
      "loss": 0.0004,
      "step": 4820
    },
    {
      "epoch": 8.041666666666666,
      "grad_norm": 0.0018063685856759548,
      "learning_rate": 9.28e-05,
      "loss": 0.0005,
      "step": 4825
    },
    {
      "epoch": 8.05,
      "grad_norm": 0.0031107966788113117,
      "learning_rate": 9.268888888888889e-05,
      "loss": 0.0004,
      "step": 4830
    },
    {
      "epoch": 8.058333333333334,
      "grad_norm": 0.0025420652236789465,
      "learning_rate": 9.257777777777779e-05,
      "loss": 0.0004,
      "step": 4835
    },
    {
      "epoch": 8.066666666666666,
      "grad_norm": 0.0024412223137915134,
      "learning_rate": 9.246666666666667e-05,
      "loss": 0.0004,
      "step": 4840
    },
    {
      "epoch": 8.075,
      "grad_norm": 0.003921416588127613,
      "learning_rate": 9.235555555555556e-05,
      "loss": 0.0564,
      "step": 4845
    },
    {
      "epoch": 8.083333333333334,
      "grad_norm": 0.0013325904728844762,
      "learning_rate": 9.224444444444444e-05,
      "loss": 0.0004,
      "step": 4850
    },
    {
      "epoch": 8.091666666666667,
      "grad_norm": 0.0014394528698176146,
      "learning_rate": 9.213333333333334e-05,
      "loss": 0.0006,
      "step": 4855
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.003788233967497945,
      "learning_rate": 9.202222222222223e-05,
      "loss": 0.0004,
      "step": 4860
    },
    {
      "epoch": 8.108333333333333,
      "grad_norm": 0.0015241383807733655,
      "learning_rate": 9.191111111111111e-05,
      "loss": 0.0004,
      "step": 4865
    },
    {
      "epoch": 8.116666666666667,
      "grad_norm": 0.21485622227191925,
      "learning_rate": 9.180000000000001e-05,
      "loss": 0.0007,
      "step": 4870
    },
    {
      "epoch": 8.125,
      "grad_norm": 0.0030197377782315016,
      "learning_rate": 9.16888888888889e-05,
      "loss": 0.0004,
      "step": 4875
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 0.003229889553040266,
      "learning_rate": 9.157777777777778e-05,
      "loss": 0.0004,
      "step": 4880
    },
    {
      "epoch": 8.141666666666667,
      "grad_norm": 0.005856408271938562,
      "learning_rate": 9.146666666666666e-05,
      "loss": 0.0116,
      "step": 4885
    },
    {
      "epoch": 8.15,
      "grad_norm": 0.0014968873001635075,
      "learning_rate": 9.135555555555556e-05,
      "loss": 0.0004,
      "step": 4890
    },
    {
      "epoch": 8.158333333333333,
      "grad_norm": 0.0014685502974316478,
      "learning_rate": 9.124444444444445e-05,
      "loss": 0.0012,
      "step": 4895
    },
    {
      "epoch": 8.166666666666666,
      "grad_norm": 0.0031129689887166023,
      "learning_rate": 9.113333333333334e-05,
      "loss": 0.067,
      "step": 4900
    },
    {
      "epoch": 8.166666666666666,
      "eval_accuracy": 0.8345833333333333,
      "eval_f1": 0.832487471710099,
      "eval_loss": 1.0822874307632446,
      "eval_precision": 0.8602239977388368,
      "eval_recall": 0.8345833333333333,
      "eval_runtime": 18.0483,
      "eval_samples_per_second": 132.976,
      "eval_steps_per_second": 16.622,
      "step": 4900
    },
    {
      "epoch": 8.175,
      "grad_norm": 0.0027243588119745255,
      "learning_rate": 9.102222222222223e-05,
      "loss": 0.0473,
      "step": 4905
    },
    {
      "epoch": 8.183333333333334,
      "grad_norm": 0.001571020344272256,
      "learning_rate": 9.091111111111111e-05,
      "loss": 0.0004,
      "step": 4910
    },
    {
      "epoch": 8.191666666666666,
      "grad_norm": 1.7120968103408813,
      "learning_rate": 9.080000000000001e-05,
      "loss": 0.1749,
      "step": 4915
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.0018422957509756088,
      "learning_rate": 9.06888888888889e-05,
      "loss": 0.0195,
      "step": 4920
    },
    {
      "epoch": 8.208333333333334,
      "grad_norm": 0.0032854112796485424,
      "learning_rate": 9.057777777777778e-05,
      "loss": 0.0004,
      "step": 4925
    },
    {
      "epoch": 8.216666666666667,
      "grad_norm": 11.092028617858887,
      "learning_rate": 9.046666666666667e-05,
      "loss": 0.0883,
      "step": 4930
    },
    {
      "epoch": 8.225,
      "grad_norm": 0.02730483189225197,
      "learning_rate": 9.035555555555556e-05,
      "loss": 0.0012,
      "step": 4935
    },
    {
      "epoch": 8.233333333333333,
      "grad_norm": 0.00577032333239913,
      "learning_rate": 9.024444444444445e-05,
      "loss": 0.0008,
      "step": 4940
    },
    {
      "epoch": 8.241666666666667,
      "grad_norm": 0.01072395034134388,
      "learning_rate": 9.013333333333333e-05,
      "loss": 0.0007,
      "step": 4945
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.003782175248488784,
      "learning_rate": 9.002222222222223e-05,
      "loss": 0.0005,
      "step": 4950
    },
    {
      "epoch": 8.258333333333333,
      "grad_norm": 0.002671755850315094,
      "learning_rate": 8.991111111111112e-05,
      "loss": 0.0005,
      "step": 4955
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.0016187657602131367,
      "learning_rate": 8.98e-05,
      "loss": 0.0008,
      "step": 4960
    },
    {
      "epoch": 8.275,
      "grad_norm": 0.030228691175580025,
      "learning_rate": 8.968888888888889e-05,
      "loss": 0.0005,
      "step": 4965
    },
    {
      "epoch": 8.283333333333333,
      "grad_norm": 0.00189516122918576,
      "learning_rate": 8.957777777777778e-05,
      "loss": 0.0494,
      "step": 4970
    },
    {
      "epoch": 8.291666666666666,
      "grad_norm": 0.0015982779441401362,
      "learning_rate": 8.946666666666668e-05,
      "loss": 0.0005,
      "step": 4975
    },
    {
      "epoch": 8.3,
      "grad_norm": 0.0021958542056381702,
      "learning_rate": 8.935555555555555e-05,
      "loss": 0.0005,
      "step": 4980
    },
    {
      "epoch": 8.308333333333334,
      "grad_norm": 0.0024760086089372635,
      "learning_rate": 8.924444444444445e-05,
      "loss": 0.0012,
      "step": 4985
    },
    {
      "epoch": 8.316666666666666,
      "grad_norm": 0.014488672837615013,
      "learning_rate": 8.913333333333334e-05,
      "loss": 0.0005,
      "step": 4990
    },
    {
      "epoch": 8.325,
      "grad_norm": 0.0032799814362078905,
      "learning_rate": 8.902222222222223e-05,
      "loss": 0.0005,
      "step": 4995
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.014586912468075752,
      "learning_rate": 8.89111111111111e-05,
      "loss": 0.0007,
      "step": 5000
    },
    {
      "epoch": 8.333333333333334,
      "eval_accuracy": 0.7995833333333333,
      "eval_f1": 0.7978038660395801,
      "eval_loss": 1.3014228343963623,
      "eval_precision": 0.8438977916420323,
      "eval_recall": 0.7995833333333333,
      "eval_runtime": 18.4944,
      "eval_samples_per_second": 129.769,
      "eval_steps_per_second": 16.221,
      "step": 5000
    },
    {
      "epoch": 8.341666666666667,
      "grad_norm": 0.0028951503336429596,
      "learning_rate": 8.88e-05,
      "loss": 0.0005,
      "step": 5005
    },
    {
      "epoch": 8.35,
      "grad_norm": 0.012304726056754589,
      "learning_rate": 8.868888888888889e-05,
      "loss": 0.0005,
      "step": 5010
    },
    {
      "epoch": 8.358333333333333,
      "grad_norm": 0.0021752656903117895,
      "learning_rate": 8.857777777777779e-05,
      "loss": 0.0005,
      "step": 5015
    },
    {
      "epoch": 8.366666666666667,
      "grad_norm": 0.002644604304805398,
      "learning_rate": 8.846666666666667e-05,
      "loss": 0.0004,
      "step": 5020
    },
    {
      "epoch": 8.375,
      "grad_norm": 0.0025647738948464394,
      "learning_rate": 8.835555555555556e-05,
      "loss": 0.0005,
      "step": 5025
    },
    {
      "epoch": 8.383333333333333,
      "grad_norm": 0.0018767263973131776,
      "learning_rate": 8.824444444444445e-05,
      "loss": 0.0003,
      "step": 5030
    },
    {
      "epoch": 8.391666666666667,
      "grad_norm": 0.0015689575811848044,
      "learning_rate": 8.813333333333334e-05,
      "loss": 0.0004,
      "step": 5035
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.001307573402300477,
      "learning_rate": 8.802222222222222e-05,
      "loss": 0.0003,
      "step": 5040
    },
    {
      "epoch": 8.408333333333333,
      "grad_norm": 0.028265563771128654,
      "learning_rate": 8.791111111111111e-05,
      "loss": 0.0004,
      "step": 5045
    },
    {
      "epoch": 8.416666666666666,
      "grad_norm": 0.0018882303265854716,
      "learning_rate": 8.78e-05,
      "loss": 0.0027,
      "step": 5050
    },
    {
      "epoch": 8.425,
      "grad_norm": 0.0018096283311024308,
      "learning_rate": 8.76888888888889e-05,
      "loss": 0.0003,
      "step": 5055
    },
    {
      "epoch": 8.433333333333334,
      "grad_norm": 0.0015225678216665983,
      "learning_rate": 8.757777777777778e-05,
      "loss": 0.0003,
      "step": 5060
    },
    {
      "epoch": 8.441666666666666,
      "grad_norm": 0.007878858596086502,
      "learning_rate": 8.746666666666667e-05,
      "loss": 0.0003,
      "step": 5065
    },
    {
      "epoch": 8.45,
      "grad_norm": 0.0016748522175475955,
      "learning_rate": 8.735555555555556e-05,
      "loss": 0.0003,
      "step": 5070
    },
    {
      "epoch": 8.458333333333334,
      "grad_norm": 0.0014724996872246265,
      "learning_rate": 8.724444444444446e-05,
      "loss": 0.0003,
      "step": 5075
    },
    {
      "epoch": 8.466666666666667,
      "grad_norm": 0.0018748282454907894,
      "learning_rate": 8.713333333333333e-05,
      "loss": 0.0003,
      "step": 5080
    },
    {
      "epoch": 8.475,
      "grad_norm": 0.005462238099426031,
      "learning_rate": 8.702222222222223e-05,
      "loss": 0.0003,
      "step": 5085
    },
    {
      "epoch": 8.483333333333333,
      "grad_norm": 0.0012754176277667284,
      "learning_rate": 8.691111111111111e-05,
      "loss": 0.0003,
      "step": 5090
    },
    {
      "epoch": 8.491666666666667,
      "grad_norm": 0.002526805968955159,
      "learning_rate": 8.680000000000001e-05,
      "loss": 0.0003,
      "step": 5095
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.001269698259420693,
      "learning_rate": 8.66888888888889e-05,
      "loss": 0.0003,
      "step": 5100
    },
    {
      "epoch": 8.5,
      "eval_accuracy": 0.7954166666666667,
      "eval_f1": 0.7986419356455468,
      "eval_loss": 1.3176263570785522,
      "eval_precision": 0.8397898765671731,
      "eval_recall": 0.7954166666666667,
      "eval_runtime": 18.1515,
      "eval_samples_per_second": 132.22,
      "eval_steps_per_second": 16.528,
      "step": 5100
    },
    {
      "epoch": 8.508333333333333,
      "grad_norm": 0.0012388181639835238,
      "learning_rate": 8.657777777777778e-05,
      "loss": 0.0011,
      "step": 5105
    },
    {
      "epoch": 8.516666666666667,
      "grad_norm": 0.0014382405206561089,
      "learning_rate": 8.646666666666668e-05,
      "loss": 0.0004,
      "step": 5110
    },
    {
      "epoch": 8.525,
      "grad_norm": 0.0013633264461532235,
      "learning_rate": 8.635555555555556e-05,
      "loss": 0.0003,
      "step": 5115
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.0012709638103842735,
      "learning_rate": 8.624444444444445e-05,
      "loss": 0.0003,
      "step": 5120
    },
    {
      "epoch": 8.541666666666666,
      "grad_norm": 0.002305518137291074,
      "learning_rate": 8.613333333333333e-05,
      "loss": 0.0003,
      "step": 5125
    },
    {
      "epoch": 8.55,
      "grad_norm": 0.005266694352030754,
      "learning_rate": 8.602222222222223e-05,
      "loss": 0.0003,
      "step": 5130
    },
    {
      "epoch": 8.558333333333334,
      "grad_norm": 0.006585756316781044,
      "learning_rate": 8.591111111111111e-05,
      "loss": 0.0003,
      "step": 5135
    },
    {
      "epoch": 8.566666666666666,
      "grad_norm": 0.001255087205208838,
      "learning_rate": 8.58e-05,
      "loss": 0.0003,
      "step": 5140
    },
    {
      "epoch": 8.575,
      "grad_norm": 0.0010666524758562446,
      "learning_rate": 8.56888888888889e-05,
      "loss": 0.0003,
      "step": 5145
    },
    {
      "epoch": 8.583333333333334,
      "grad_norm": 0.0013116669142618775,
      "learning_rate": 8.557777777777778e-05,
      "loss": 0.0003,
      "step": 5150
    },
    {
      "epoch": 8.591666666666667,
      "grad_norm": 0.001487078028731048,
      "learning_rate": 8.546666666666667e-05,
      "loss": 0.0003,
      "step": 5155
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.0010952592128887773,
      "learning_rate": 8.535555555555555e-05,
      "loss": 0.0003,
      "step": 5160
    },
    {
      "epoch": 8.608333333333333,
      "grad_norm": 0.0012562531046569347,
      "learning_rate": 8.524444444444445e-05,
      "loss": 0.0003,
      "step": 5165
    },
    {
      "epoch": 8.616666666666667,
      "grad_norm": 0.001168701215647161,
      "learning_rate": 8.513333333333335e-05,
      "loss": 0.0003,
      "step": 5170
    },
    {
      "epoch": 8.625,
      "grad_norm": 0.0012071920791640878,
      "learning_rate": 8.502222222222223e-05,
      "loss": 0.0003,
      "step": 5175
    },
    {
      "epoch": 8.633333333333333,
      "grad_norm": 0.0010822160402312875,
      "learning_rate": 8.491111111111112e-05,
      "loss": 0.0003,
      "step": 5180
    },
    {
      "epoch": 8.641666666666667,
      "grad_norm": 0.001139395171776414,
      "learning_rate": 8.48e-05,
      "loss": 0.0003,
      "step": 5185
    },
    {
      "epoch": 8.65,
      "grad_norm": 0.0010857543675228953,
      "learning_rate": 8.46888888888889e-05,
      "loss": 0.0003,
      "step": 5190
    },
    {
      "epoch": 8.658333333333333,
      "grad_norm": 0.0012551040854305029,
      "learning_rate": 8.457777777777778e-05,
      "loss": 0.0003,
      "step": 5195
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.0021674716845154762,
      "learning_rate": 8.446666666666667e-05,
      "loss": 0.0003,
      "step": 5200
    },
    {
      "epoch": 8.666666666666666,
      "eval_accuracy": 0.81125,
      "eval_f1": 0.812358316337729,
      "eval_loss": 1.2994208335876465,
      "eval_precision": 0.8558914351953846,
      "eval_recall": 0.81125,
      "eval_runtime": 18.5639,
      "eval_samples_per_second": 129.284,
      "eval_steps_per_second": 16.16,
      "step": 5200
    },
    {
      "epoch": 8.675,
      "grad_norm": 0.0013331255177035928,
      "learning_rate": 8.435555555555555e-05,
      "loss": 0.0003,
      "step": 5205
    },
    {
      "epoch": 8.683333333333334,
      "grad_norm": 0.001223869970999658,
      "learning_rate": 8.424444444444445e-05,
      "loss": 0.0003,
      "step": 5210
    },
    {
      "epoch": 8.691666666666666,
      "grad_norm": 0.001190881826914847,
      "learning_rate": 8.413333333333334e-05,
      "loss": 0.0003,
      "step": 5215
    },
    {
      "epoch": 8.7,
      "grad_norm": 0.0012936778366565704,
      "learning_rate": 8.402222222222222e-05,
      "loss": 0.0003,
      "step": 5220
    },
    {
      "epoch": 8.708333333333334,
      "grad_norm": 0.0011625731131061912,
      "learning_rate": 8.391111111111112e-05,
      "loss": 0.0003,
      "step": 5225
    },
    {
      "epoch": 8.716666666666667,
      "grad_norm": 0.0009399696136824787,
      "learning_rate": 8.38e-05,
      "loss": 0.0003,
      "step": 5230
    },
    {
      "epoch": 8.725,
      "grad_norm": 0.0010412222472950816,
      "learning_rate": 8.368888888888889e-05,
      "loss": 0.0003,
      "step": 5235
    },
    {
      "epoch": 8.733333333333333,
      "grad_norm": 0.0009861089056357741,
      "learning_rate": 8.357777777777777e-05,
      "loss": 0.0003,
      "step": 5240
    },
    {
      "epoch": 8.741666666666667,
      "grad_norm": 0.0012285622069612145,
      "learning_rate": 8.346666666666667e-05,
      "loss": 0.0002,
      "step": 5245
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.0012984727509319782,
      "learning_rate": 8.335555555555557e-05,
      "loss": 0.0003,
      "step": 5250
    },
    {
      "epoch": 8.758333333333333,
      "grad_norm": 0.00112599425483495,
      "learning_rate": 8.324444444444444e-05,
      "loss": 0.0003,
      "step": 5255
    },
    {
      "epoch": 8.766666666666667,
      "grad_norm": 0.0010774628026410937,
      "learning_rate": 8.313333333333334e-05,
      "loss": 0.0002,
      "step": 5260
    },
    {
      "epoch": 8.775,
      "grad_norm": 0.0010056387400254607,
      "learning_rate": 8.302222222222222e-05,
      "loss": 0.0003,
      "step": 5265
    },
    {
      "epoch": 8.783333333333333,
      "grad_norm": 0.0012177320895716548,
      "learning_rate": 8.291111111111112e-05,
      "loss": 0.0309,
      "step": 5270
    },
    {
      "epoch": 8.791666666666666,
      "grad_norm": 0.001081516733393073,
      "learning_rate": 8.28e-05,
      "loss": 0.0002,
      "step": 5275
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.0010835860157385468,
      "learning_rate": 8.268888888888889e-05,
      "loss": 0.0003,
      "step": 5280
    },
    {
      "epoch": 8.808333333333334,
      "grad_norm": 1.6564055681228638,
      "learning_rate": 8.257777777777779e-05,
      "loss": 0.0025,
      "step": 5285
    },
    {
      "epoch": 8.816666666666666,
      "grad_norm": 0.001208757166750729,
      "learning_rate": 8.246666666666667e-05,
      "loss": 0.0002,
      "step": 5290
    },
    {
      "epoch": 8.825,
      "grad_norm": 0.004277400206774473,
      "learning_rate": 8.235555555555556e-05,
      "loss": 0.0003,
      "step": 5295
    },
    {
      "epoch": 8.833333333333334,
      "grad_norm": 0.001116048777475953,
      "learning_rate": 8.224444444444444e-05,
      "loss": 0.0002,
      "step": 5300
    },
    {
      "epoch": 8.833333333333334,
      "eval_accuracy": 0.79375,
      "eval_f1": 0.7908316941739639,
      "eval_loss": 1.346003770828247,
      "eval_precision": 0.8308173576195076,
      "eval_recall": 0.79375,
      "eval_runtime": 18.5582,
      "eval_samples_per_second": 129.323,
      "eval_steps_per_second": 16.165,
      "step": 5300
    },
    {
      "epoch": 8.841666666666667,
      "grad_norm": 0.028774453327059746,
      "learning_rate": 8.213333333333334e-05,
      "loss": 0.0004,
      "step": 5305
    },
    {
      "epoch": 8.85,
      "grad_norm": 0.0013273048680275679,
      "learning_rate": 8.202222222222223e-05,
      "loss": 0.0006,
      "step": 5310
    },
    {
      "epoch": 8.858333333333333,
      "grad_norm": 0.0021637175232172012,
      "learning_rate": 8.191111111111111e-05,
      "loss": 0.0985,
      "step": 5315
    },
    {
      "epoch": 8.866666666666667,
      "grad_norm": 0.002020201412960887,
      "learning_rate": 8.18e-05,
      "loss": 0.0003,
      "step": 5320
    },
    {
      "epoch": 8.875,
      "grad_norm": 0.007847962900996208,
      "learning_rate": 8.16888888888889e-05,
      "loss": 0.0651,
      "step": 5325
    },
    {
      "epoch": 8.883333333333333,
      "grad_norm": 0.0029011364094913006,
      "learning_rate": 8.157777777777779e-05,
      "loss": 0.0006,
      "step": 5330
    },
    {
      "epoch": 8.891666666666667,
      "grad_norm": 0.00266357883810997,
      "learning_rate": 8.146666666666666e-05,
      "loss": 0.0004,
      "step": 5335
    },
    {
      "epoch": 8.9,
      "grad_norm": 0.003137425519526005,
      "learning_rate": 8.135555555555556e-05,
      "loss": 0.0003,
      "step": 5340
    },
    {
      "epoch": 8.908333333333333,
      "grad_norm": 0.001334360451437533,
      "learning_rate": 8.124444444444445e-05,
      "loss": 0.0002,
      "step": 5345
    },
    {
      "epoch": 8.916666666666666,
      "grad_norm": 0.02377103641629219,
      "learning_rate": 8.113333333333334e-05,
      "loss": 0.0047,
      "step": 5350
    },
    {
      "epoch": 8.925,
      "grad_norm": 0.5134826302528381,
      "learning_rate": 8.102222222222222e-05,
      "loss": 0.0008,
      "step": 5355
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 0.0014036045176908374,
      "learning_rate": 8.091111111111111e-05,
      "loss": 0.0003,
      "step": 5360
    },
    {
      "epoch": 8.941666666666666,
      "grad_norm": 0.0012253022287040949,
      "learning_rate": 8.080000000000001e-05,
      "loss": 0.0003,
      "step": 5365
    },
    {
      "epoch": 8.95,
      "grad_norm": 0.0011784350499510765,
      "learning_rate": 8.06888888888889e-05,
      "loss": 0.0004,
      "step": 5370
    },
    {
      "epoch": 8.958333333333334,
      "grad_norm": 0.0028952532447874546,
      "learning_rate": 8.060000000000001e-05,
      "loss": 0.0376,
      "step": 5375
    },
    {
      "epoch": 8.966666666666667,
      "grad_norm": 0.001750854542478919,
      "learning_rate": 8.048888888888889e-05,
      "loss": 0.0002,
      "step": 5380
    },
    {
      "epoch": 8.975,
      "grad_norm": 0.0400676392018795,
      "learning_rate": 8.037777777777779e-05,
      "loss": 0.0003,
      "step": 5385
    },
    {
      "epoch": 8.983333333333333,
      "grad_norm": 9.401113510131836,
      "learning_rate": 8.026666666666666e-05,
      "loss": 0.0547,
      "step": 5390
    },
    {
      "epoch": 8.991666666666667,
      "grad_norm": 0.0012322692200541496,
      "learning_rate": 8.015555555555556e-05,
      "loss": 0.0015,
      "step": 5395
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.0013038220349699259,
      "learning_rate": 8.004444444444444e-05,
      "loss": 0.0003,
      "step": 5400
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.8345833333333333,
      "eval_f1": 0.8362948941615953,
      "eval_loss": 1.0408397912979126,
      "eval_precision": 0.8541142790053812,
      "eval_recall": 0.8345833333333333,
      "eval_runtime": 18.5251,
      "eval_samples_per_second": 129.554,
      "eval_steps_per_second": 16.194,
      "step": 5400
    },
    {
      "epoch": 9.008333333333333,
      "grad_norm": 0.0018346981378272176,
      "learning_rate": 7.993333333333334e-05,
      "loss": 0.0003,
      "step": 5405
    },
    {
      "epoch": 9.016666666666667,
      "grad_norm": 0.0013850562972947955,
      "learning_rate": 7.982222222222223e-05,
      "loss": 0.0741,
      "step": 5410
    },
    {
      "epoch": 9.025,
      "grad_norm": 0.0009629763080738485,
      "learning_rate": 7.971111111111111e-05,
      "loss": 0.0002,
      "step": 5415
    },
    {
      "epoch": 9.033333333333333,
      "grad_norm": 0.005034321919083595,
      "learning_rate": 7.960000000000001e-05,
      "loss": 0.0003,
      "step": 5420
    },
    {
      "epoch": 9.041666666666666,
      "grad_norm": 0.007224700413644314,
      "learning_rate": 7.94888888888889e-05,
      "loss": 0.0003,
      "step": 5425
    },
    {
      "epoch": 9.05,
      "grad_norm": 0.2458488792181015,
      "learning_rate": 7.937777777777778e-05,
      "loss": 0.0006,
      "step": 5430
    },
    {
      "epoch": 9.058333333333334,
      "grad_norm": 0.001252181245945394,
      "learning_rate": 7.926666666666666e-05,
      "loss": 0.0003,
      "step": 5435
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 0.0010707697365432978,
      "learning_rate": 7.915555555555556e-05,
      "loss": 0.0004,
      "step": 5440
    },
    {
      "epoch": 9.075,
      "grad_norm": 0.0012539888266474009,
      "learning_rate": 7.904444444444445e-05,
      "loss": 0.0002,
      "step": 5445
    },
    {
      "epoch": 9.083333333333334,
      "grad_norm": 0.029164060950279236,
      "learning_rate": 7.893333333333333e-05,
      "loss": 0.0003,
      "step": 5450
    },
    {
      "epoch": 9.091666666666667,
      "grad_norm": 0.0009366451995447278,
      "learning_rate": 7.882222222222223e-05,
      "loss": 0.0002,
      "step": 5455
    },
    {
      "epoch": 9.1,
      "grad_norm": 0.0009910990484058857,
      "learning_rate": 7.871111111111111e-05,
      "loss": 0.0002,
      "step": 5460
    },
    {
      "epoch": 9.108333333333333,
      "grad_norm": 0.0009680807706899941,
      "learning_rate": 7.860000000000001e-05,
      "loss": 0.0002,
      "step": 5465
    },
    {
      "epoch": 9.116666666666667,
      "grad_norm": 0.0008522036951035261,
      "learning_rate": 7.848888888888888e-05,
      "loss": 0.0003,
      "step": 5470
    },
    {
      "epoch": 9.125,
      "grad_norm": 0.0016613422194495797,
      "learning_rate": 7.837777777777778e-05,
      "loss": 0.0002,
      "step": 5475
    },
    {
      "epoch": 9.133333333333333,
      "grad_norm": 0.3078015148639679,
      "learning_rate": 7.826666666666667e-05,
      "loss": 0.0009,
      "step": 5480
    },
    {
      "epoch": 9.141666666666667,
      "grad_norm": 0.0009623811347410083,
      "learning_rate": 7.815555555555557e-05,
      "loss": 0.0002,
      "step": 5485
    },
    {
      "epoch": 9.15,
      "grad_norm": 0.0011003322433680296,
      "learning_rate": 7.804444444444445e-05,
      "loss": 0.0003,
      "step": 5490
    },
    {
      "epoch": 9.158333333333333,
      "grad_norm": 0.0008207191131077707,
      "learning_rate": 7.793333333333333e-05,
      "loss": 0.0002,
      "step": 5495
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.0009419197449460626,
      "learning_rate": 7.782222222222223e-05,
      "loss": 0.0002,
      "step": 5500
    },
    {
      "epoch": 9.166666666666666,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8258481610792536,
      "eval_loss": 1.1658748388290405,
      "eval_precision": 0.8651009918431825,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.3512,
      "eval_samples_per_second": 130.782,
      "eval_steps_per_second": 16.348,
      "step": 5500
    },
    {
      "epoch": 9.175,
      "grad_norm": 0.0009926841594278812,
      "learning_rate": 7.771111111111112e-05,
      "loss": 0.0002,
      "step": 5505
    },
    {
      "epoch": 9.183333333333334,
      "grad_norm": 0.001257641357369721,
      "learning_rate": 7.76e-05,
      "loss": 0.0002,
      "step": 5510
    },
    {
      "epoch": 9.191666666666666,
      "grad_norm": 0.0010470019187778234,
      "learning_rate": 7.748888888888889e-05,
      "loss": 0.0002,
      "step": 5515
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.001068792538717389,
      "learning_rate": 7.737777777777779e-05,
      "loss": 0.0002,
      "step": 5520
    },
    {
      "epoch": 9.208333333333334,
      "grad_norm": 0.002308251801878214,
      "learning_rate": 7.726666666666667e-05,
      "loss": 0.0002,
      "step": 5525
    },
    {
      "epoch": 9.216666666666667,
      "grad_norm": 0.0010499281343072653,
      "learning_rate": 7.715555555555555e-05,
      "loss": 0.0002,
      "step": 5530
    },
    {
      "epoch": 9.225,
      "grad_norm": 0.0007911797729320824,
      "learning_rate": 7.704444444444445e-05,
      "loss": 0.0002,
      "step": 5535
    },
    {
      "epoch": 9.233333333333333,
      "grad_norm": 0.0008423263789154589,
      "learning_rate": 7.693333333333334e-05,
      "loss": 0.0002,
      "step": 5540
    },
    {
      "epoch": 9.241666666666667,
      "grad_norm": 0.0008619206491857767,
      "learning_rate": 7.682222222222222e-05,
      "loss": 0.0002,
      "step": 5545
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.003464031731709838,
      "learning_rate": 7.671111111111111e-05,
      "loss": 0.0002,
      "step": 5550
    },
    {
      "epoch": 9.258333333333333,
      "grad_norm": 0.001201487029902637,
      "learning_rate": 7.66e-05,
      "loss": 0.0002,
      "step": 5555
    },
    {
      "epoch": 9.266666666666667,
      "grad_norm": 0.001021482632495463,
      "learning_rate": 7.648888888888889e-05,
      "loss": 0.0002,
      "step": 5560
    },
    {
      "epoch": 9.275,
      "grad_norm": 0.0008893812191672623,
      "learning_rate": 7.637777777777779e-05,
      "loss": 0.0002,
      "step": 5565
    },
    {
      "epoch": 9.283333333333333,
      "grad_norm": 0.0010239302646368742,
      "learning_rate": 7.626666666666667e-05,
      "loss": 0.0002,
      "step": 5570
    },
    {
      "epoch": 9.291666666666666,
      "grad_norm": 0.0010389845119789243,
      "learning_rate": 7.615555555555556e-05,
      "loss": 0.0002,
      "step": 5575
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.0008383331005461514,
      "learning_rate": 7.604444444444446e-05,
      "loss": 0.0002,
      "step": 5580
    },
    {
      "epoch": 9.308333333333334,
      "grad_norm": 0.009199973195791245,
      "learning_rate": 7.593333333333334e-05,
      "loss": 0.0002,
      "step": 5585
    },
    {
      "epoch": 9.316666666666666,
      "grad_norm": 0.000865420326590538,
      "learning_rate": 7.582222222222223e-05,
      "loss": 0.0002,
      "step": 5590
    },
    {
      "epoch": 9.325,
      "grad_norm": 0.0009912363020703197,
      "learning_rate": 7.571111111111111e-05,
      "loss": 0.0002,
      "step": 5595
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.0008318329928442836,
      "learning_rate": 7.560000000000001e-05,
      "loss": 0.0002,
      "step": 5600
    },
    {
      "epoch": 9.333333333333334,
      "eval_accuracy": 0.82625,
      "eval_f1": 0.8269858297762426,
      "eval_loss": 1.182138204574585,
      "eval_precision": 0.8657438793772979,
      "eval_recall": 0.82625,
      "eval_runtime": 18.1719,
      "eval_samples_per_second": 132.072,
      "eval_steps_per_second": 16.509,
      "step": 5600
    },
    {
      "epoch": 9.341666666666667,
      "grad_norm": 0.00365930306725204,
      "learning_rate": 7.548888888888889e-05,
      "loss": 0.0002,
      "step": 5605
    },
    {
      "epoch": 9.35,
      "grad_norm": 0.0009552662959322333,
      "learning_rate": 7.537777777777778e-05,
      "loss": 0.0002,
      "step": 5610
    },
    {
      "epoch": 9.358333333333333,
      "grad_norm": 0.0013393379049375653,
      "learning_rate": 7.526666666666668e-05,
      "loss": 0.0002,
      "step": 5615
    },
    {
      "epoch": 9.366666666666667,
      "grad_norm": 0.000839283165987581,
      "learning_rate": 7.515555555555556e-05,
      "loss": 0.0002,
      "step": 5620
    },
    {
      "epoch": 9.375,
      "grad_norm": 0.0007811982650309801,
      "learning_rate": 7.504444444444444e-05,
      "loss": 0.0002,
      "step": 5625
    },
    {
      "epoch": 9.383333333333333,
      "grad_norm": 0.0008713383576832712,
      "learning_rate": 7.493333333333333e-05,
      "loss": 0.0004,
      "step": 5630
    },
    {
      "epoch": 9.391666666666667,
      "grad_norm": 0.0007420368492603302,
      "learning_rate": 7.482222222222223e-05,
      "loss": 0.0002,
      "step": 5635
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.0009224326349794865,
      "learning_rate": 7.471111111111111e-05,
      "loss": 0.0002,
      "step": 5640
    },
    {
      "epoch": 9.408333333333333,
      "grad_norm": 0.0012517764698714018,
      "learning_rate": 7.46e-05,
      "loss": 0.0002,
      "step": 5645
    },
    {
      "epoch": 9.416666666666666,
      "grad_norm": 0.0008241108735091984,
      "learning_rate": 7.44888888888889e-05,
      "loss": 0.0002,
      "step": 5650
    },
    {
      "epoch": 9.425,
      "grad_norm": 0.0009615992894396186,
      "learning_rate": 7.437777777777778e-05,
      "loss": 0.0002,
      "step": 5655
    },
    {
      "epoch": 9.433333333333334,
      "grad_norm": 0.0008037268999032676,
      "learning_rate": 7.426666666666668e-05,
      "loss": 0.0002,
      "step": 5660
    },
    {
      "epoch": 9.441666666666666,
      "grad_norm": 0.0009113966953009367,
      "learning_rate": 7.415555555555555e-05,
      "loss": 0.0002,
      "step": 5665
    },
    {
      "epoch": 9.45,
      "grad_norm": 0.0007515185279771686,
      "learning_rate": 7.404444444444445e-05,
      "loss": 0.0008,
      "step": 5670
    },
    {
      "epoch": 9.458333333333334,
      "grad_norm": 0.000765470671467483,
      "learning_rate": 7.393333333333333e-05,
      "loss": 0.0002,
      "step": 5675
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 0.0008239589515142143,
      "learning_rate": 7.382222222222223e-05,
      "loss": 0.0002,
      "step": 5680
    },
    {
      "epoch": 9.475,
      "grad_norm": 0.0008905070717446506,
      "learning_rate": 7.371111111111112e-05,
      "loss": 0.0002,
      "step": 5685
    },
    {
      "epoch": 9.483333333333333,
      "grad_norm": 0.0007725146715529263,
      "learning_rate": 7.36e-05,
      "loss": 0.0002,
      "step": 5690
    },
    {
      "epoch": 9.491666666666667,
      "grad_norm": 0.002431974746286869,
      "learning_rate": 7.34888888888889e-05,
      "loss": 0.0002,
      "step": 5695
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.00680494075641036,
      "learning_rate": 7.337777777777778e-05,
      "loss": 0.0002,
      "step": 5700
    },
    {
      "epoch": 9.5,
      "eval_accuracy": 0.8233333333333334,
      "eval_f1": 0.8227406294785573,
      "eval_loss": 1.2786237001419067,
      "eval_precision": 0.8607293141728131,
      "eval_recall": 0.8233333333333334,
      "eval_runtime": 18.3515,
      "eval_samples_per_second": 130.779,
      "eval_steps_per_second": 16.347,
      "step": 5700
    },
    {
      "epoch": 9.508333333333333,
      "grad_norm": 0.003784808097407222,
      "learning_rate": 7.326666666666667e-05,
      "loss": 0.0008,
      "step": 5705
    },
    {
      "epoch": 9.516666666666667,
      "grad_norm": 0.0007530453149229288,
      "learning_rate": 7.315555555555555e-05,
      "loss": 0.0002,
      "step": 5710
    },
    {
      "epoch": 9.525,
      "grad_norm": 0.0008318196050822735,
      "learning_rate": 7.304444444444445e-05,
      "loss": 0.0002,
      "step": 5715
    },
    {
      "epoch": 9.533333333333333,
      "grad_norm": 0.0007680055568926036,
      "learning_rate": 7.293333333333334e-05,
      "loss": 0.0002,
      "step": 5720
    },
    {
      "epoch": 9.541666666666666,
      "grad_norm": 0.0008074689540080726,
      "learning_rate": 7.282222222222222e-05,
      "loss": 0.0002,
      "step": 5725
    },
    {
      "epoch": 9.55,
      "grad_norm": 0.0008582723094150424,
      "learning_rate": 7.271111111111112e-05,
      "loss": 0.0002,
      "step": 5730
    },
    {
      "epoch": 9.558333333333334,
      "grad_norm": 0.0010530594736337662,
      "learning_rate": 7.26e-05,
      "loss": 0.0002,
      "step": 5735
    },
    {
      "epoch": 9.566666666666666,
      "grad_norm": 0.0009651319705881178,
      "learning_rate": 7.24888888888889e-05,
      "loss": 0.0002,
      "step": 5740
    },
    {
      "epoch": 9.575,
      "grad_norm": 0.0008767535910010338,
      "learning_rate": 7.237777777777777e-05,
      "loss": 0.0002,
      "step": 5745
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.0006876476691104472,
      "learning_rate": 7.226666666666667e-05,
      "loss": 0.0002,
      "step": 5750
    },
    {
      "epoch": 9.591666666666667,
      "grad_norm": 0.0009580470505170524,
      "learning_rate": 7.215555555555556e-05,
      "loss": 0.0002,
      "step": 5755
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.0010438320459797978,
      "learning_rate": 7.204444444444445e-05,
      "loss": 0.0002,
      "step": 5760
    },
    {
      "epoch": 9.608333333333333,
      "grad_norm": 0.0008343408117070794,
      "learning_rate": 7.193333333333334e-05,
      "loss": 0.0002,
      "step": 5765
    },
    {
      "epoch": 9.616666666666667,
      "grad_norm": 0.0007265022140927613,
      "learning_rate": 7.182222222222222e-05,
      "loss": 0.0002,
      "step": 5770
    },
    {
      "epoch": 9.625,
      "grad_norm": 0.016007952392101288,
      "learning_rate": 7.171111111111112e-05,
      "loss": 0.0002,
      "step": 5775
    },
    {
      "epoch": 9.633333333333333,
      "grad_norm": 0.0008638690342195332,
      "learning_rate": 7.16e-05,
      "loss": 0.0002,
      "step": 5780
    },
    {
      "epoch": 9.641666666666667,
      "grad_norm": 0.0007897046161815524,
      "learning_rate": 7.148888888888889e-05,
      "loss": 0.0002,
      "step": 5785
    },
    {
      "epoch": 9.65,
      "grad_norm": 0.005871389526873827,
      "learning_rate": 7.137777777777778e-05,
      "loss": 0.0002,
      "step": 5790
    },
    {
      "epoch": 9.658333333333333,
      "grad_norm": 0.0009566211956553161,
      "learning_rate": 7.126666666666667e-05,
      "loss": 0.0002,
      "step": 5795
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.0009313467307947576,
      "learning_rate": 7.115555555555556e-05,
      "loss": 0.0002,
      "step": 5800
    },
    {
      "epoch": 9.666666666666666,
      "eval_accuracy": 0.8216666666666667,
      "eval_f1": 0.8209575308302461,
      "eval_loss": 1.2610738277435303,
      "eval_precision": 0.8576505825348333,
      "eval_recall": 0.8216666666666667,
      "eval_runtime": 18.0971,
      "eval_samples_per_second": 132.618,
      "eval_steps_per_second": 16.577,
      "step": 5800
    },
    {
      "epoch": 9.675,
      "grad_norm": 0.0007594567141495645,
      "learning_rate": 7.104444444444444e-05,
      "loss": 0.0002,
      "step": 5805
    },
    {
      "epoch": 9.683333333333334,
      "grad_norm": 0.0007839714526198804,
      "learning_rate": 7.093333333333334e-05,
      "loss": 0.0002,
      "step": 5810
    },
    {
      "epoch": 9.691666666666666,
      "grad_norm": 0.0009332532063126564,
      "learning_rate": 7.082222222222223e-05,
      "loss": 0.0002,
      "step": 5815
    },
    {
      "epoch": 9.7,
      "grad_norm": 0.0008868243312463164,
      "learning_rate": 7.071111111111111e-05,
      "loss": 0.0002,
      "step": 5820
    },
    {
      "epoch": 9.708333333333334,
      "grad_norm": 0.0007776845013722777,
      "learning_rate": 7.06e-05,
      "loss": 0.0002,
      "step": 5825
    },
    {
      "epoch": 9.716666666666667,
      "grad_norm": 0.0007733421516604722,
      "learning_rate": 7.048888888888889e-05,
      "loss": 0.0002,
      "step": 5830
    },
    {
      "epoch": 9.725,
      "grad_norm": 0.0009907345520332456,
      "learning_rate": 7.037777777777778e-05,
      "loss": 0.0002,
      "step": 5835
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 0.0007281082798726857,
      "learning_rate": 7.026666666666668e-05,
      "loss": 0.0002,
      "step": 5840
    },
    {
      "epoch": 9.741666666666667,
      "grad_norm": 0.0009891972877085209,
      "learning_rate": 7.015555555555556e-05,
      "loss": 0.0002,
      "step": 5845
    },
    {
      "epoch": 9.75,
      "grad_norm": 0.002230957383289933,
      "learning_rate": 7.004444444444445e-05,
      "loss": 0.0002,
      "step": 5850
    },
    {
      "epoch": 9.758333333333333,
      "grad_norm": 0.0007820578175596893,
      "learning_rate": 6.993333333333334e-05,
      "loss": 0.0002,
      "step": 5855
    },
    {
      "epoch": 9.766666666666667,
      "grad_norm": 0.0006960494793020189,
      "learning_rate": 6.982222222222223e-05,
      "loss": 0.0002,
      "step": 5860
    },
    {
      "epoch": 9.775,
      "grad_norm": 0.0007643363205716014,
      "learning_rate": 6.971111111111111e-05,
      "loss": 0.0002,
      "step": 5865
    },
    {
      "epoch": 9.783333333333333,
      "grad_norm": 0.0006895543774589896,
      "learning_rate": 6.96e-05,
      "loss": 0.0002,
      "step": 5870
    },
    {
      "epoch": 9.791666666666666,
      "grad_norm": 0.0007149095763452351,
      "learning_rate": 6.94888888888889e-05,
      "loss": 0.0002,
      "step": 5875
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.0007269998895935714,
      "learning_rate": 6.937777777777778e-05,
      "loss": 0.0002,
      "step": 5880
    },
    {
      "epoch": 9.808333333333334,
      "grad_norm": 0.0008266782970167696,
      "learning_rate": 6.926666666666667e-05,
      "loss": 0.0002,
      "step": 5885
    },
    {
      "epoch": 9.816666666666666,
      "grad_norm": 0.0007755840779282153,
      "learning_rate": 6.915555555555556e-05,
      "loss": 0.0002,
      "step": 5890
    },
    {
      "epoch": 9.825,
      "grad_norm": 0.0037971462588757277,
      "learning_rate": 6.904444444444445e-05,
      "loss": 0.0002,
      "step": 5895
    },
    {
      "epoch": 9.833333333333334,
      "grad_norm": 0.0006950185634195805,
      "learning_rate": 6.893333333333333e-05,
      "loss": 0.0002,
      "step": 5900
    },
    {
      "epoch": 9.833333333333334,
      "eval_accuracy": 0.82125,
      "eval_f1": 0.8206336162536201,
      "eval_loss": 1.2555683851242065,
      "eval_precision": 0.8567901791138409,
      "eval_recall": 0.82125,
      "eval_runtime": 18.5799,
      "eval_samples_per_second": 129.172,
      "eval_steps_per_second": 16.146,
      "step": 5900
    },
    {
      "epoch": 9.841666666666667,
      "grad_norm": 0.0007028293912298977,
      "learning_rate": 6.882222222222222e-05,
      "loss": 0.0002,
      "step": 5905
    },
    {
      "epoch": 9.85,
      "grad_norm": 0.0007872290443629026,
      "learning_rate": 6.871111111111112e-05,
      "loss": 0.0002,
      "step": 5910
    },
    {
      "epoch": 9.858333333333333,
      "grad_norm": 0.0009258424397557974,
      "learning_rate": 6.860000000000001e-05,
      "loss": 0.0002,
      "step": 5915
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 0.0009778121020644903,
      "learning_rate": 6.848888888888889e-05,
      "loss": 0.0002,
      "step": 5920
    },
    {
      "epoch": 9.875,
      "grad_norm": 0.0006997496238909662,
      "learning_rate": 6.837777777777778e-05,
      "loss": 0.0002,
      "step": 5925
    },
    {
      "epoch": 9.883333333333333,
      "grad_norm": 0.0007326524355448782,
      "learning_rate": 6.826666666666667e-05,
      "loss": 0.0002,
      "step": 5930
    },
    {
      "epoch": 9.891666666666667,
      "grad_norm": 0.0007033259025774896,
      "learning_rate": 6.815555555555557e-05,
      "loss": 0.0002,
      "step": 5935
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.006114003714174032,
      "learning_rate": 6.804444444444444e-05,
      "loss": 0.0002,
      "step": 5940
    },
    {
      "epoch": 9.908333333333333,
      "grad_norm": 0.001013890141621232,
      "learning_rate": 6.793333333333334e-05,
      "loss": 0.0002,
      "step": 5945
    },
    {
      "epoch": 9.916666666666666,
      "grad_norm": 0.0008536350796930492,
      "learning_rate": 6.782222222222222e-05,
      "loss": 0.0002,
      "step": 5950
    },
    {
      "epoch": 9.925,
      "grad_norm": 1.4337728023529053,
      "learning_rate": 6.771111111111112e-05,
      "loss": 0.0012,
      "step": 5955
    },
    {
      "epoch": 9.933333333333334,
      "grad_norm": 0.0007836073054932058,
      "learning_rate": 6.76e-05,
      "loss": 0.0002,
      "step": 5960
    },
    {
      "epoch": 9.941666666666666,
      "grad_norm": 0.0006535999709740281,
      "learning_rate": 6.748888888888889e-05,
      "loss": 0.0002,
      "step": 5965
    },
    {
      "epoch": 9.95,
      "grad_norm": 0.0008059216197580099,
      "learning_rate": 6.737777777777779e-05,
      "loss": 0.0002,
      "step": 5970
    },
    {
      "epoch": 9.958333333333334,
      "grad_norm": 0.0010298272827640176,
      "learning_rate": 6.726666666666667e-05,
      "loss": 0.0015,
      "step": 5975
    },
    {
      "epoch": 9.966666666666667,
      "grad_norm": 0.0008291558478958905,
      "learning_rate": 6.715555555555556e-05,
      "loss": 0.0002,
      "step": 5980
    },
    {
      "epoch": 9.975,
      "grad_norm": 0.0006247684941627085,
      "learning_rate": 6.704444444444444e-05,
      "loss": 0.0002,
      "step": 5985
    },
    {
      "epoch": 9.983333333333333,
      "grad_norm": 0.0008153562084771693,
      "learning_rate": 6.693333333333334e-05,
      "loss": 0.0002,
      "step": 5990
    },
    {
      "epoch": 9.991666666666667,
      "grad_norm": 0.0006969192181713879,
      "learning_rate": 6.682222222222224e-05,
      "loss": 0.0002,
      "step": 5995
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.0007797215366736054,
      "learning_rate": 6.671111111111111e-05,
      "loss": 0.0002,
      "step": 6000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.8158333333333333,
      "eval_f1": 0.8157594583699,
      "eval_loss": 1.3472198247909546,
      "eval_precision": 0.8490918481954799,
      "eval_recall": 0.8158333333333333,
      "eval_runtime": 18.2507,
      "eval_samples_per_second": 131.502,
      "eval_steps_per_second": 16.438,
      "step": 6000
    },
    {
      "epoch": 10.008333333333333,
      "grad_norm": 0.0007617296651005745,
      "learning_rate": 6.66e-05,
      "loss": 0.0002,
      "step": 6005
    },
    {
      "epoch": 10.016666666666667,
      "grad_norm": 0.0006196133908815682,
      "learning_rate": 6.648888888888889e-05,
      "loss": 0.0002,
      "step": 6010
    },
    {
      "epoch": 10.025,
      "grad_norm": 0.0006404166924767196,
      "learning_rate": 6.637777777777779e-05,
      "loss": 0.0002,
      "step": 6015
    },
    {
      "epoch": 10.033333333333333,
      "grad_norm": 0.0007542711100541055,
      "learning_rate": 6.626666666666666e-05,
      "loss": 0.0002,
      "step": 6020
    },
    {
      "epoch": 10.041666666666666,
      "grad_norm": 0.0011842260137200356,
      "learning_rate": 6.615555555555556e-05,
      "loss": 0.0002,
      "step": 6025
    },
    {
      "epoch": 10.05,
      "grad_norm": 0.00120836915448308,
      "learning_rate": 6.604444444444444e-05,
      "loss": 0.0002,
      "step": 6030
    },
    {
      "epoch": 10.058333333333334,
      "grad_norm": 0.000822668254841119,
      "learning_rate": 6.593333333333334e-05,
      "loss": 0.0002,
      "step": 6035
    },
    {
      "epoch": 10.066666666666666,
      "grad_norm": 0.000639484147541225,
      "learning_rate": 6.582222222222223e-05,
      "loss": 0.0002,
      "step": 6040
    },
    {
      "epoch": 10.075,
      "grad_norm": 0.0008042759145610034,
      "learning_rate": 6.571111111111111e-05,
      "loss": 0.0002,
      "step": 6045
    },
    {
      "epoch": 10.083333333333334,
      "grad_norm": 0.0006389530026353896,
      "learning_rate": 6.560000000000001e-05,
      "loss": 0.0002,
      "step": 6050
    },
    {
      "epoch": 10.091666666666667,
      "grad_norm": 0.0005884898127987981,
      "learning_rate": 6.54888888888889e-05,
      "loss": 0.0002,
      "step": 6055
    },
    {
      "epoch": 10.1,
      "grad_norm": 0.0008616768755018711,
      "learning_rate": 6.537777777777778e-05,
      "loss": 0.0002,
      "step": 6060
    },
    {
      "epoch": 10.108333333333333,
      "grad_norm": 0.0007082959054969251,
      "learning_rate": 6.526666666666666e-05,
      "loss": 0.0002,
      "step": 6065
    },
    {
      "epoch": 10.116666666666667,
      "grad_norm": 0.0006776349036954343,
      "learning_rate": 6.515555555555556e-05,
      "loss": 0.0002,
      "step": 6070
    },
    {
      "epoch": 10.125,
      "grad_norm": 0.0006830878555774689,
      "learning_rate": 6.504444444444445e-05,
      "loss": 0.0002,
      "step": 6075
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.0008772220462560654,
      "learning_rate": 6.493333333333333e-05,
      "loss": 0.0002,
      "step": 6080
    },
    {
      "epoch": 10.141666666666667,
      "grad_norm": 0.0006550228572450578,
      "learning_rate": 6.482222222222223e-05,
      "loss": 0.0002,
      "step": 6085
    },
    {
      "epoch": 10.15,
      "grad_norm": 0.0006468156934715807,
      "learning_rate": 6.471111111111111e-05,
      "loss": 0.0002,
      "step": 6090
    },
    {
      "epoch": 10.158333333333333,
      "grad_norm": 0.0010098794009536505,
      "learning_rate": 6.460000000000001e-05,
      "loss": 0.0002,
      "step": 6095
    },
    {
      "epoch": 10.166666666666666,
      "grad_norm": 0.0007428113603964448,
      "learning_rate": 6.448888888888888e-05,
      "loss": 0.0002,
      "step": 6100
    },
    {
      "epoch": 10.166666666666666,
      "eval_accuracy": 0.8175,
      "eval_f1": 0.8175606681481901,
      "eval_loss": 1.3344614505767822,
      "eval_precision": 0.8502218253306513,
      "eval_recall": 0.8175,
      "eval_runtime": 18.1317,
      "eval_samples_per_second": 132.365,
      "eval_steps_per_second": 16.546,
      "step": 6100
    },
    {
      "epoch": 10.175,
      "grad_norm": 0.0006367929745465517,
      "learning_rate": 6.437777777777778e-05,
      "loss": 0.0002,
      "step": 6105
    },
    {
      "epoch": 10.183333333333334,
      "grad_norm": 0.0013397249858826399,
      "learning_rate": 6.426666666666668e-05,
      "loss": 0.0002,
      "step": 6110
    },
    {
      "epoch": 10.191666666666666,
      "grad_norm": 0.0006182223442010581,
      "learning_rate": 6.415555555555556e-05,
      "loss": 0.0001,
      "step": 6115
    },
    {
      "epoch": 10.2,
      "grad_norm": 0.0007648523314855993,
      "learning_rate": 6.404444444444445e-05,
      "loss": 0.0002,
      "step": 6120
    },
    {
      "epoch": 10.208333333333334,
      "grad_norm": 0.0005947829340584576,
      "learning_rate": 6.393333333333333e-05,
      "loss": 0.0002,
      "step": 6125
    },
    {
      "epoch": 10.216666666666667,
      "grad_norm": 0.0007538155186921358,
      "learning_rate": 6.382222222222223e-05,
      "loss": 0.0002,
      "step": 6130
    },
    {
      "epoch": 10.225,
      "grad_norm": 0.0006668209680356085,
      "learning_rate": 6.371111111111112e-05,
      "loss": 0.0002,
      "step": 6135
    },
    {
      "epoch": 10.233333333333333,
      "grad_norm": 0.0006989166722632945,
      "learning_rate": 6.36e-05,
      "loss": 0.0001,
      "step": 6140
    },
    {
      "epoch": 10.241666666666667,
      "grad_norm": 0.001163683133199811,
      "learning_rate": 6.348888888888889e-05,
      "loss": 0.0002,
      "step": 6145
    },
    {
      "epoch": 10.25,
      "grad_norm": 0.000639254052657634,
      "learning_rate": 6.337777777777778e-05,
      "loss": 0.0001,
      "step": 6150
    },
    {
      "epoch": 10.258333333333333,
      "grad_norm": 0.0006209752173162997,
      "learning_rate": 6.326666666666667e-05,
      "loss": 0.0001,
      "step": 6155
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 0.0006477818824350834,
      "learning_rate": 6.315555555555555e-05,
      "loss": 0.0001,
      "step": 6160
    },
    {
      "epoch": 10.275,
      "grad_norm": 0.0009242859086953104,
      "learning_rate": 6.304444444444445e-05,
      "loss": 0.0001,
      "step": 6165
    },
    {
      "epoch": 10.283333333333333,
      "grad_norm": 0.0006606071256101131,
      "learning_rate": 6.293333333333334e-05,
      "loss": 0.0001,
      "step": 6170
    },
    {
      "epoch": 10.291666666666666,
      "grad_norm": 0.0010548114078119397,
      "learning_rate": 6.282222222222222e-05,
      "loss": 0.0002,
      "step": 6175
    },
    {
      "epoch": 10.3,
      "grad_norm": 0.000713770801667124,
      "learning_rate": 6.27111111111111e-05,
      "loss": 0.0001,
      "step": 6180
    },
    {
      "epoch": 10.308333333333334,
      "grad_norm": 0.0005960146081633866,
      "learning_rate": 6.26e-05,
      "loss": 0.0001,
      "step": 6185
    },
    {
      "epoch": 10.316666666666666,
      "grad_norm": 0.0007829904789105058,
      "learning_rate": 6.24888888888889e-05,
      "loss": 0.0002,
      "step": 6190
    },
    {
      "epoch": 10.325,
      "grad_norm": 0.0006212044390849769,
      "learning_rate": 6.237777777777777e-05,
      "loss": 0.0001,
      "step": 6195
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.0006882916204631329,
      "learning_rate": 6.226666666666667e-05,
      "loss": 0.0001,
      "step": 6200
    },
    {
      "epoch": 10.333333333333334,
      "eval_accuracy": 0.81875,
      "eval_f1": 0.8188315084769204,
      "eval_loss": 1.33660089969635,
      "eval_precision": 0.8511544113949212,
      "eval_recall": 0.81875,
      "eval_runtime": 18.572,
      "eval_samples_per_second": 129.227,
      "eval_steps_per_second": 16.153,
      "step": 6200
    },
    {
      "epoch": 10.341666666666667,
      "grad_norm": 0.0012351188343018293,
      "learning_rate": 6.215555555555556e-05,
      "loss": 0.0001,
      "step": 6205
    },
    {
      "epoch": 10.35,
      "grad_norm": 0.0006313659250736237,
      "learning_rate": 6.204444444444445e-05,
      "loss": 0.0001,
      "step": 6210
    },
    {
      "epoch": 10.358333333333333,
      "grad_norm": 0.0009024040191434324,
      "learning_rate": 6.193333333333333e-05,
      "loss": 0.0002,
      "step": 6215
    },
    {
      "epoch": 10.366666666666667,
      "grad_norm": 0.0005953456275165081,
      "learning_rate": 6.182222222222222e-05,
      "loss": 0.0001,
      "step": 6220
    },
    {
      "epoch": 10.375,
      "grad_norm": 0.0006905103218741715,
      "learning_rate": 6.171111111111112e-05,
      "loss": 0.0001,
      "step": 6225
    },
    {
      "epoch": 10.383333333333333,
      "grad_norm": 0.0007023761281743646,
      "learning_rate": 6.16e-05,
      "loss": 0.0001,
      "step": 6230
    },
    {
      "epoch": 10.391666666666667,
      "grad_norm": 0.0008684241329319775,
      "learning_rate": 6.148888888888889e-05,
      "loss": 0.0002,
      "step": 6235
    },
    {
      "epoch": 10.4,
      "grad_norm": 0.000651313632261008,
      "learning_rate": 6.137777777777778e-05,
      "loss": 0.0002,
      "step": 6240
    },
    {
      "epoch": 10.408333333333333,
      "grad_norm": 0.0005947950994595885,
      "learning_rate": 6.126666666666667e-05,
      "loss": 0.0001,
      "step": 6245
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.0006660635117441416,
      "learning_rate": 6.115555555555556e-05,
      "loss": 0.0001,
      "step": 6250
    },
    {
      "epoch": 10.425,
      "grad_norm": 0.0005948302568867803,
      "learning_rate": 6.104444444444444e-05,
      "loss": 0.0001,
      "step": 6255
    },
    {
      "epoch": 10.433333333333334,
      "grad_norm": 0.000630512775387615,
      "learning_rate": 6.093333333333333e-05,
      "loss": 0.0001,
      "step": 6260
    },
    {
      "epoch": 10.441666666666666,
      "grad_norm": 0.0006161433993838727,
      "learning_rate": 6.0822222222222226e-05,
      "loss": 0.0001,
      "step": 6265
    },
    {
      "epoch": 10.45,
      "grad_norm": 0.0007753423997201025,
      "learning_rate": 6.071111111111112e-05,
      "loss": 0.0001,
      "step": 6270
    },
    {
      "epoch": 10.458333333333334,
      "grad_norm": 0.0006355245131999254,
      "learning_rate": 6.06e-05,
      "loss": 0.0001,
      "step": 6275
    },
    {
      "epoch": 10.466666666666667,
      "grad_norm": 0.0006601325003430247,
      "learning_rate": 6.0488888888888894e-05,
      "loss": 0.0001,
      "step": 6280
    },
    {
      "epoch": 10.475,
      "grad_norm": 0.0007268107146956027,
      "learning_rate": 6.037777777777778e-05,
      "loss": 0.0002,
      "step": 6285
    },
    {
      "epoch": 10.483333333333333,
      "grad_norm": 0.0007480881758965552,
      "learning_rate": 6.026666666666667e-05,
      "loss": 0.0001,
      "step": 6290
    },
    {
      "epoch": 10.491666666666667,
      "grad_norm": 0.0005992217920720577,
      "learning_rate": 6.0155555555555555e-05,
      "loss": 0.0001,
      "step": 6295
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.0006052407552488148,
      "learning_rate": 6.0044444444444446e-05,
      "loss": 0.0001,
      "step": 6300
    },
    {
      "epoch": 10.5,
      "eval_accuracy": 0.8170833333333334,
      "eval_f1": 0.8174273754102424,
      "eval_loss": 1.3362832069396973,
      "eval_precision": 0.8496682479951491,
      "eval_recall": 0.8170833333333334,
      "eval_runtime": 18.359,
      "eval_samples_per_second": 130.726,
      "eval_steps_per_second": 16.341,
      "step": 6300
    },
    {
      "epoch": 10.508333333333333,
      "grad_norm": 0.0006618450279347599,
      "learning_rate": 5.9933333333333345e-05,
      "loss": 0.0002,
      "step": 6305
    },
    {
      "epoch": 10.516666666666667,
      "grad_norm": 0.0005847912980243564,
      "learning_rate": 5.982222222222222e-05,
      "loss": 0.0001,
      "step": 6310
    },
    {
      "epoch": 10.525,
      "grad_norm": 0.0006148474058136344,
      "learning_rate": 5.971111111111112e-05,
      "loss": 0.0001,
      "step": 6315
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.0005697245942428708,
      "learning_rate": 5.96e-05,
      "loss": 0.0001,
      "step": 6320
    },
    {
      "epoch": 10.541666666666666,
      "grad_norm": 0.0006648455746471882,
      "learning_rate": 5.94888888888889e-05,
      "loss": 0.0001,
      "step": 6325
    },
    {
      "epoch": 10.55,
      "grad_norm": 0.0006106301443651319,
      "learning_rate": 5.9377777777777775e-05,
      "loss": 0.0001,
      "step": 6330
    },
    {
      "epoch": 10.558333333333334,
      "grad_norm": 0.0006070677773095667,
      "learning_rate": 5.926666666666667e-05,
      "loss": 0.0002,
      "step": 6335
    },
    {
      "epoch": 10.566666666666666,
      "grad_norm": 0.000765189528465271,
      "learning_rate": 5.915555555555555e-05,
      "loss": 0.0001,
      "step": 6340
    },
    {
      "epoch": 10.575,
      "grad_norm": 0.0006719662342220545,
      "learning_rate": 5.904444444444445e-05,
      "loss": 0.0001,
      "step": 6345
    },
    {
      "epoch": 10.583333333333334,
      "grad_norm": 0.0006646363763138652,
      "learning_rate": 5.893333333333334e-05,
      "loss": 0.0001,
      "step": 6350
    },
    {
      "epoch": 10.591666666666667,
      "grad_norm": 0.0007356636342592537,
      "learning_rate": 5.8822222222222225e-05,
      "loss": 0.0001,
      "step": 6355
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.0007011078996583819,
      "learning_rate": 5.871111111111112e-05,
      "loss": 0.0001,
      "step": 6360
    },
    {
      "epoch": 10.608333333333333,
      "grad_norm": 0.0006038883002474904,
      "learning_rate": 5.86e-05,
      "loss": 0.0001,
      "step": 6365
    },
    {
      "epoch": 10.616666666666667,
      "grad_norm": 0.0005955101805739105,
      "learning_rate": 5.848888888888889e-05,
      "loss": 0.0001,
      "step": 6370
    },
    {
      "epoch": 10.625,
      "grad_norm": 0.000590805197134614,
      "learning_rate": 5.837777777777778e-05,
      "loss": 0.0001,
      "step": 6375
    },
    {
      "epoch": 10.633333333333333,
      "grad_norm": 0.0005425077397376299,
      "learning_rate": 5.826666666666667e-05,
      "loss": 0.0001,
      "step": 6380
    },
    {
      "epoch": 10.641666666666667,
      "grad_norm": 0.0006232214509509504,
      "learning_rate": 5.815555555555556e-05,
      "loss": 0.0001,
      "step": 6385
    },
    {
      "epoch": 10.65,
      "grad_norm": 0.0005686040967702866,
      "learning_rate": 5.8044444444444445e-05,
      "loss": 0.0001,
      "step": 6390
    },
    {
      "epoch": 10.658333333333333,
      "grad_norm": 0.000545601942576468,
      "learning_rate": 5.7933333333333337e-05,
      "loss": 0.0001,
      "step": 6395
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.0005896830116398633,
      "learning_rate": 5.782222222222222e-05,
      "loss": 0.0001,
      "step": 6400
    },
    {
      "epoch": 10.666666666666666,
      "eval_accuracy": 0.8195833333333333,
      "eval_f1": 0.8198337477570065,
      "eval_loss": 1.333965539932251,
      "eval_precision": 0.8516525839051599,
      "eval_recall": 0.8195833333333333,
      "eval_runtime": 18.257,
      "eval_samples_per_second": 131.457,
      "eval_steps_per_second": 16.432,
      "step": 6400
    },
    {
      "epoch": 10.675,
      "grad_norm": 0.000576981226913631,
      "learning_rate": 5.771111111111111e-05,
      "loss": 0.0001,
      "step": 6405
    },
    {
      "epoch": 10.683333333333334,
      "grad_norm": 0.0005057179951108992,
      "learning_rate": 5.76e-05,
      "loss": 0.0001,
      "step": 6410
    },
    {
      "epoch": 10.691666666666666,
      "grad_norm": 0.0006342566339299083,
      "learning_rate": 5.748888888888889e-05,
      "loss": 0.0001,
      "step": 6415
    },
    {
      "epoch": 10.7,
      "grad_norm": 0.000593676115386188,
      "learning_rate": 5.737777777777779e-05,
      "loss": 0.0001,
      "step": 6420
    },
    {
      "epoch": 10.708333333333334,
      "grad_norm": 0.0006453676032833755,
      "learning_rate": 5.726666666666667e-05,
      "loss": 0.0001,
      "step": 6425
    },
    {
      "epoch": 10.716666666666667,
      "grad_norm": 0.0007206158479675651,
      "learning_rate": 5.715555555555556e-05,
      "loss": 0.0001,
      "step": 6430
    },
    {
      "epoch": 10.725,
      "grad_norm": 0.0005986125324852765,
      "learning_rate": 5.704444444444445e-05,
      "loss": 0.0001,
      "step": 6435
    },
    {
      "epoch": 10.733333333333333,
      "grad_norm": 0.0006063361652195454,
      "learning_rate": 5.693333333333334e-05,
      "loss": 0.0001,
      "step": 6440
    },
    {
      "epoch": 10.741666666666667,
      "grad_norm": 0.0005408660508692265,
      "learning_rate": 5.6822222222222224e-05,
      "loss": 0.0001,
      "step": 6445
    },
    {
      "epoch": 10.75,
      "grad_norm": 0.000554003519937396,
      "learning_rate": 5.6711111111111116e-05,
      "loss": 0.0003,
      "step": 6450
    },
    {
      "epoch": 10.758333333333333,
      "grad_norm": 0.0005553930532187223,
      "learning_rate": 5.66e-05,
      "loss": 0.0001,
      "step": 6455
    },
    {
      "epoch": 10.766666666666667,
      "grad_norm": 0.0009742838446982205,
      "learning_rate": 5.648888888888889e-05,
      "loss": 0.0001,
      "step": 6460
    },
    {
      "epoch": 10.775,
      "grad_norm": 0.0006966202636249363,
      "learning_rate": 5.637777777777778e-05,
      "loss": 0.0001,
      "step": 6465
    },
    {
      "epoch": 10.783333333333333,
      "grad_norm": 0.0005736821913160384,
      "learning_rate": 5.626666666666667e-05,
      "loss": 0.0001,
      "step": 6470
    },
    {
      "epoch": 10.791666666666666,
      "grad_norm": 0.0005368809797801077,
      "learning_rate": 5.615555555555556e-05,
      "loss": 0.0001,
      "step": 6475
    },
    {
      "epoch": 10.8,
      "grad_norm": 0.0006695727934129536,
      "learning_rate": 5.6044444444444444e-05,
      "loss": 0.0001,
      "step": 6480
    },
    {
      "epoch": 10.808333333333334,
      "grad_norm": 0.000537110841833055,
      "learning_rate": 5.5933333333333335e-05,
      "loss": 0.0001,
      "step": 6485
    },
    {
      "epoch": 10.816666666666666,
      "grad_norm": 0.0005455692880786955,
      "learning_rate": 5.582222222222222e-05,
      "loss": 0.0001,
      "step": 6490
    },
    {
      "epoch": 10.825,
      "grad_norm": 0.008493797853589058,
      "learning_rate": 5.571111111111111e-05,
      "loss": 0.0001,
      "step": 6495
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.0006584751536138356,
      "learning_rate": 5.560000000000001e-05,
      "loss": 0.0001,
      "step": 6500
    },
    {
      "epoch": 10.833333333333334,
      "eval_accuracy": 0.8233333333333334,
      "eval_f1": 0.8243244361165576,
      "eval_loss": 1.3657629489898682,
      "eval_precision": 0.859284613951612,
      "eval_recall": 0.8233333333333334,
      "eval_runtime": 18.2975,
      "eval_samples_per_second": 131.165,
      "eval_steps_per_second": 16.396,
      "step": 6500
    },
    {
      "epoch": 10.841666666666667,
      "grad_norm": 0.0006145316874608397,
      "learning_rate": 5.548888888888889e-05,
      "loss": 0.0001,
      "step": 6505
    },
    {
      "epoch": 10.85,
      "grad_norm": 0.0005247116787359118,
      "learning_rate": 5.5377777777777786e-05,
      "loss": 0.0001,
      "step": 6510
    },
    {
      "epoch": 10.858333333333333,
      "grad_norm": 0.0007184727001003921,
      "learning_rate": 5.5266666666666664e-05,
      "loss": 0.0001,
      "step": 6515
    },
    {
      "epoch": 10.866666666666667,
      "grad_norm": 0.0005957568064332008,
      "learning_rate": 5.515555555555556e-05,
      "loss": 0.0001,
      "step": 6520
    },
    {
      "epoch": 10.875,
      "grad_norm": 0.0006277114152908325,
      "learning_rate": 5.504444444444444e-05,
      "loss": 0.0001,
      "step": 6525
    },
    {
      "epoch": 10.883333333333333,
      "grad_norm": 0.0014081740519031882,
      "learning_rate": 5.493333333333334e-05,
      "loss": 0.0001,
      "step": 6530
    },
    {
      "epoch": 10.891666666666667,
      "grad_norm": 0.0005116913234815001,
      "learning_rate": 5.482222222222223e-05,
      "loss": 0.0001,
      "step": 6535
    },
    {
      "epoch": 10.9,
      "grad_norm": 0.0005332265864126384,
      "learning_rate": 5.4711111111111114e-05,
      "loss": 0.0001,
      "step": 6540
    },
    {
      "epoch": 10.908333333333333,
      "grad_norm": 0.0005375162581913173,
      "learning_rate": 5.4600000000000006e-05,
      "loss": 0.0001,
      "step": 6545
    },
    {
      "epoch": 10.916666666666666,
      "grad_norm": 0.0005599938449449837,
      "learning_rate": 5.448888888888889e-05,
      "loss": 0.0001,
      "step": 6550
    },
    {
      "epoch": 10.925,
      "grad_norm": 0.0004985817358829081,
      "learning_rate": 5.437777777777778e-05,
      "loss": 0.0001,
      "step": 6555
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 0.0005920694675296545,
      "learning_rate": 5.4266666666666667e-05,
      "loss": 0.0001,
      "step": 6560
    },
    {
      "epoch": 10.941666666666666,
      "grad_norm": 0.0005402617971412838,
      "learning_rate": 5.415555555555556e-05,
      "loss": 0.0001,
      "step": 6565
    },
    {
      "epoch": 10.95,
      "grad_norm": 0.0005805408582091331,
      "learning_rate": 5.404444444444444e-05,
      "loss": 0.0001,
      "step": 6570
    },
    {
      "epoch": 10.958333333333334,
      "grad_norm": 0.0004932158626616001,
      "learning_rate": 5.3933333333333334e-05,
      "loss": 0.0001,
      "step": 6575
    },
    {
      "epoch": 10.966666666666667,
      "grad_norm": 0.0005690606776624918,
      "learning_rate": 5.382222222222223e-05,
      "loss": 0.0001,
      "step": 6580
    },
    {
      "epoch": 10.975,
      "grad_norm": 0.0005123337032273412,
      "learning_rate": 5.371111111111111e-05,
      "loss": 0.0001,
      "step": 6585
    },
    {
      "epoch": 10.983333333333333,
      "grad_norm": 0.0005926656303927302,
      "learning_rate": 5.360000000000001e-05,
      "loss": 0.0001,
      "step": 6590
    },
    {
      "epoch": 10.991666666666667,
      "grad_norm": 0.0005818104255013168,
      "learning_rate": 5.3488888888888886e-05,
      "loss": 0.0001,
      "step": 6595
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.0005826727137900889,
      "learning_rate": 5.3377777777777785e-05,
      "loss": 0.0001,
      "step": 6600
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.82375,
      "eval_f1": 0.8247022657658046,
      "eval_loss": 1.370850682258606,
      "eval_precision": 0.8595431665492219,
      "eval_recall": 0.82375,
      "eval_runtime": 18.175,
      "eval_samples_per_second": 132.05,
      "eval_steps_per_second": 16.506,
      "step": 6600
    },
    {
      "epoch": 11.008333333333333,
      "grad_norm": 0.0004514521569944918,
      "learning_rate": 5.326666666666666e-05,
      "loss": 0.0001,
      "step": 6605
    },
    {
      "epoch": 11.016666666666667,
      "grad_norm": 0.0004834923311136663,
      "learning_rate": 5.315555555555556e-05,
      "loss": 0.0001,
      "step": 6610
    },
    {
      "epoch": 11.025,
      "grad_norm": 0.0005325529491528869,
      "learning_rate": 5.304444444444445e-05,
      "loss": 0.0001,
      "step": 6615
    },
    {
      "epoch": 11.033333333333333,
      "grad_norm": 0.0010346847120672464,
      "learning_rate": 5.293333333333334e-05,
      "loss": 0.0001,
      "step": 6620
    },
    {
      "epoch": 11.041666666666666,
      "grad_norm": 0.0005535251111723483,
      "learning_rate": 5.282222222222223e-05,
      "loss": 0.0001,
      "step": 6625
    },
    {
      "epoch": 11.05,
      "grad_norm": 0.0005177569109946489,
      "learning_rate": 5.271111111111111e-05,
      "loss": 0.0001,
      "step": 6630
    },
    {
      "epoch": 11.058333333333334,
      "grad_norm": 0.0006657259073108435,
      "learning_rate": 5.2600000000000005e-05,
      "loss": 0.0001,
      "step": 6635
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 0.0005323018995113671,
      "learning_rate": 5.248888888888889e-05,
      "loss": 0.0001,
      "step": 6640
    },
    {
      "epoch": 11.075,
      "grad_norm": 0.000503746559843421,
      "learning_rate": 5.237777777777778e-05,
      "loss": 0.0001,
      "step": 6645
    },
    {
      "epoch": 11.083333333333334,
      "grad_norm": 0.00046736374497413635,
      "learning_rate": 5.2266666666666665e-05,
      "loss": 0.0001,
      "step": 6650
    },
    {
      "epoch": 11.091666666666667,
      "grad_norm": 0.0005175730329938233,
      "learning_rate": 5.215555555555556e-05,
      "loss": 0.0001,
      "step": 6655
    },
    {
      "epoch": 11.1,
      "grad_norm": 0.0005206156056374311,
      "learning_rate": 5.204444444444445e-05,
      "loss": 0.0001,
      "step": 6660
    },
    {
      "epoch": 11.108333333333333,
      "grad_norm": 0.00045403940021060407,
      "learning_rate": 5.193333333333333e-05,
      "loss": 0.0001,
      "step": 6665
    },
    {
      "epoch": 11.116666666666667,
      "grad_norm": 0.0006261487142182887,
      "learning_rate": 5.1822222222222224e-05,
      "loss": 0.0001,
      "step": 6670
    },
    {
      "epoch": 11.125,
      "grad_norm": 0.000699338037520647,
      "learning_rate": 5.171111111111111e-05,
      "loss": 0.0001,
      "step": 6675
    },
    {
      "epoch": 11.133333333333333,
      "grad_norm": 0.0005187708884477615,
      "learning_rate": 5.16e-05,
      "loss": 0.0001,
      "step": 6680
    },
    {
      "epoch": 11.141666666666667,
      "grad_norm": 0.00043869149521924555,
      "learning_rate": 5.1488888888888885e-05,
      "loss": 0.0001,
      "step": 6685
    },
    {
      "epoch": 11.15,
      "grad_norm": 0.00047371553955599666,
      "learning_rate": 5.1377777777777784e-05,
      "loss": 0.0001,
      "step": 6690
    },
    {
      "epoch": 11.158333333333333,
      "grad_norm": 0.0005079036927781999,
      "learning_rate": 5.1266666666666675e-05,
      "loss": 0.0001,
      "step": 6695
    },
    {
      "epoch": 11.166666666666666,
      "grad_norm": 0.0006647506961598992,
      "learning_rate": 5.115555555555556e-05,
      "loss": 0.0001,
      "step": 6700
    },
    {
      "epoch": 11.166666666666666,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8249192951849192,
      "eval_loss": 1.3651756048202515,
      "eval_precision": 0.8585005306466523,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.1971,
      "eval_samples_per_second": 131.889,
      "eval_steps_per_second": 16.486,
      "step": 6700
    },
    {
      "epoch": 11.175,
      "grad_norm": 0.0005561176803894341,
      "learning_rate": 5.104444444444445e-05,
      "loss": 0.0001,
      "step": 6705
    },
    {
      "epoch": 11.183333333333334,
      "grad_norm": 0.000727316364645958,
      "learning_rate": 5.0933333333333336e-05,
      "loss": 0.0001,
      "step": 6710
    },
    {
      "epoch": 11.191666666666666,
      "grad_norm": 0.00056845584185794,
      "learning_rate": 5.082222222222223e-05,
      "loss": 0.0001,
      "step": 6715
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.0005078176036477089,
      "learning_rate": 5.071111111111111e-05,
      "loss": 0.0001,
      "step": 6720
    },
    {
      "epoch": 11.208333333333334,
      "grad_norm": 0.0005057771923020482,
      "learning_rate": 5.0600000000000003e-05,
      "loss": 0.0001,
      "step": 6725
    },
    {
      "epoch": 11.216666666666667,
      "grad_norm": 0.000508237280882895,
      "learning_rate": 5.0488888888888895e-05,
      "loss": 0.0001,
      "step": 6730
    },
    {
      "epoch": 11.225,
      "grad_norm": 0.0005523670697584748,
      "learning_rate": 5.037777777777778e-05,
      "loss": 0.0001,
      "step": 6735
    },
    {
      "epoch": 11.233333333333333,
      "grad_norm": 0.0006332244374789298,
      "learning_rate": 5.026666666666667e-05,
      "loss": 0.0001,
      "step": 6740
    },
    {
      "epoch": 11.241666666666667,
      "grad_norm": 0.0004733493260573596,
      "learning_rate": 5.0155555555555556e-05,
      "loss": 0.0001,
      "step": 6745
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.0005050125764682889,
      "learning_rate": 5.004444444444445e-05,
      "loss": 0.0001,
      "step": 6750
    },
    {
      "epoch": 11.258333333333333,
      "grad_norm": 0.00045458023669198155,
      "learning_rate": 4.993333333333334e-05,
      "loss": 0.0001,
      "step": 6755
    },
    {
      "epoch": 11.266666666666667,
      "grad_norm": 0.0005489554605446756,
      "learning_rate": 4.982222222222222e-05,
      "loss": 0.0001,
      "step": 6760
    },
    {
      "epoch": 11.275,
      "grad_norm": 0.0005050277686677873,
      "learning_rate": 4.9711111111111115e-05,
      "loss": 0.0001,
      "step": 6765
    },
    {
      "epoch": 11.283333333333333,
      "grad_norm": 0.0005804018001072109,
      "learning_rate": 4.96e-05,
      "loss": 0.0001,
      "step": 6770
    },
    {
      "epoch": 11.291666666666666,
      "grad_norm": 0.000498745299410075,
      "learning_rate": 4.948888888888889e-05,
      "loss": 0.0001,
      "step": 6775
    },
    {
      "epoch": 11.3,
      "grad_norm": 0.0006867604097351432,
      "learning_rate": 4.9377777777777776e-05,
      "loss": 0.0001,
      "step": 6780
    },
    {
      "epoch": 11.308333333333334,
      "grad_norm": 0.0005235482240095735,
      "learning_rate": 4.926666666666667e-05,
      "loss": 0.0001,
      "step": 6785
    },
    {
      "epoch": 11.316666666666666,
      "grad_norm": 0.00045795037294737995,
      "learning_rate": 4.915555555555556e-05,
      "loss": 0.0001,
      "step": 6790
    },
    {
      "epoch": 11.325,
      "grad_norm": 0.0005321766366250813,
      "learning_rate": 4.904444444444445e-05,
      "loss": 0.0001,
      "step": 6795
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.0005057633970864117,
      "learning_rate": 4.8933333333333335e-05,
      "loss": 0.0001,
      "step": 6800
    },
    {
      "epoch": 11.333333333333334,
      "eval_accuracy": 0.825,
      "eval_f1": 0.825813832978926,
      "eval_loss": 1.3702805042266846,
      "eval_precision": 0.8594348394087512,
      "eval_recall": 0.825,
      "eval_runtime": 18.3764,
      "eval_samples_per_second": 130.603,
      "eval_steps_per_second": 16.325,
      "step": 6800
    },
    {
      "epoch": 11.341666666666667,
      "grad_norm": 0.0005611376836895943,
      "learning_rate": 4.8822222222222226e-05,
      "loss": 0.0001,
      "step": 6805
    },
    {
      "epoch": 11.35,
      "grad_norm": 0.0004955355543643236,
      "learning_rate": 4.871111111111111e-05,
      "loss": 0.0001,
      "step": 6810
    },
    {
      "epoch": 11.358333333333333,
      "grad_norm": 0.00048431981122121215,
      "learning_rate": 4.86e-05,
      "loss": 0.0001,
      "step": 6815
    },
    {
      "epoch": 11.366666666666667,
      "grad_norm": 0.0004591705510392785,
      "learning_rate": 4.848888888888889e-05,
      "loss": 0.0001,
      "step": 6820
    },
    {
      "epoch": 11.375,
      "grad_norm": 0.008771992288529873,
      "learning_rate": 4.837777777777778e-05,
      "loss": 0.0001,
      "step": 6825
    },
    {
      "epoch": 11.383333333333333,
      "grad_norm": 0.0005253329873085022,
      "learning_rate": 4.826666666666667e-05,
      "loss": 0.0001,
      "step": 6830
    },
    {
      "epoch": 11.391666666666667,
      "grad_norm": 0.00046361968270502985,
      "learning_rate": 4.815555555555556e-05,
      "loss": 0.0001,
      "step": 6835
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.0005164684844203293,
      "learning_rate": 4.8044444444444446e-05,
      "loss": 0.0001,
      "step": 6840
    },
    {
      "epoch": 11.408333333333333,
      "grad_norm": 0.0006900911103002727,
      "learning_rate": 4.793333333333334e-05,
      "loss": 0.0001,
      "step": 6845
    },
    {
      "epoch": 11.416666666666666,
      "grad_norm": 0.0004773307591676712,
      "learning_rate": 4.782222222222222e-05,
      "loss": 0.0001,
      "step": 6850
    },
    {
      "epoch": 11.425,
      "grad_norm": 0.0008057226659730077,
      "learning_rate": 4.7711111111111114e-05,
      "loss": 0.0001,
      "step": 6855
    },
    {
      "epoch": 11.433333333333334,
      "grad_norm": 0.0005682262708432972,
      "learning_rate": 4.76e-05,
      "loss": 0.0001,
      "step": 6860
    },
    {
      "epoch": 11.441666666666666,
      "grad_norm": 0.0005307867540977895,
      "learning_rate": 4.7488888888888897e-05,
      "loss": 0.0001,
      "step": 6865
    },
    {
      "epoch": 11.45,
      "grad_norm": 0.0005404683761298656,
      "learning_rate": 4.737777777777778e-05,
      "loss": 0.0001,
      "step": 6870
    },
    {
      "epoch": 11.458333333333334,
      "grad_norm": 0.0006801317795179784,
      "learning_rate": 4.726666666666667e-05,
      "loss": 0.0001,
      "step": 6875
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.0005148720811121166,
      "learning_rate": 4.715555555555556e-05,
      "loss": 0.0001,
      "step": 6880
    },
    {
      "epoch": 11.475,
      "grad_norm": 0.0005836860509589314,
      "learning_rate": 4.704444444444445e-05,
      "loss": 0.0001,
      "step": 6885
    },
    {
      "epoch": 11.483333333333333,
      "grad_norm": 0.0004738565185107291,
      "learning_rate": 4.6933333333333333e-05,
      "loss": 0.0001,
      "step": 6890
    },
    {
      "epoch": 11.491666666666667,
      "grad_norm": 0.0005394300096668303,
      "learning_rate": 4.6822222222222225e-05,
      "loss": 0.0001,
      "step": 6895
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.0005076228408142924,
      "learning_rate": 4.671111111111111e-05,
      "loss": 0.0001,
      "step": 6900
    },
    {
      "epoch": 11.5,
      "eval_accuracy": 0.82375,
      "eval_f1": 0.8246575644970386,
      "eval_loss": 1.375512719154358,
      "eval_precision": 0.8578869878676261,
      "eval_recall": 0.82375,
      "eval_runtime": 18.5655,
      "eval_samples_per_second": 129.272,
      "eval_steps_per_second": 16.159,
      "step": 6900
    },
    {
      "epoch": 11.508333333333333,
      "grad_norm": 0.000661301426589489,
      "learning_rate": 4.660000000000001e-05,
      "loss": 0.0001,
      "step": 6905
    },
    {
      "epoch": 11.516666666666667,
      "grad_norm": 0.0004380093887448311,
      "learning_rate": 4.648888888888889e-05,
      "loss": 0.0001,
      "step": 6910
    },
    {
      "epoch": 11.525,
      "grad_norm": 0.000526891672052443,
      "learning_rate": 4.6377777777777784e-05,
      "loss": 0.0001,
      "step": 6915
    },
    {
      "epoch": 11.533333333333333,
      "grad_norm": 0.0004979672958143055,
      "learning_rate": 4.626666666666667e-05,
      "loss": 0.0001,
      "step": 6920
    },
    {
      "epoch": 11.541666666666666,
      "grad_norm": 0.0006162117351777852,
      "learning_rate": 4.615555555555556e-05,
      "loss": 0.0001,
      "step": 6925
    },
    {
      "epoch": 11.55,
      "grad_norm": 0.0004308745847083628,
      "learning_rate": 4.6044444444444445e-05,
      "loss": 0.0001,
      "step": 6930
    },
    {
      "epoch": 11.558333333333334,
      "grad_norm": 0.00048256973968818784,
      "learning_rate": 4.5933333333333336e-05,
      "loss": 0.0001,
      "step": 6935
    },
    {
      "epoch": 11.566666666666666,
      "grad_norm": 0.0008367598638869822,
      "learning_rate": 4.582222222222222e-05,
      "loss": 0.0001,
      "step": 6940
    },
    {
      "epoch": 11.575,
      "grad_norm": 0.0005378990317694843,
      "learning_rate": 4.571111111111111e-05,
      "loss": 0.0001,
      "step": 6945
    },
    {
      "epoch": 11.583333333333334,
      "grad_norm": 0.0005166303599253297,
      "learning_rate": 4.5600000000000004e-05,
      "loss": 0.0001,
      "step": 6950
    },
    {
      "epoch": 11.591666666666667,
      "grad_norm": 0.0004492754233069718,
      "learning_rate": 4.5488888888888895e-05,
      "loss": 0.0001,
      "step": 6955
    },
    {
      "epoch": 11.6,
      "grad_norm": 0.0004306653281673789,
      "learning_rate": 4.537777777777778e-05,
      "loss": 0.0001,
      "step": 6960
    },
    {
      "epoch": 11.608333333333333,
      "grad_norm": 0.0004940804792568088,
      "learning_rate": 4.526666666666667e-05,
      "loss": 0.0001,
      "step": 6965
    },
    {
      "epoch": 11.616666666666667,
      "grad_norm": 0.00042793419561348855,
      "learning_rate": 4.5155555555555556e-05,
      "loss": 0.0001,
      "step": 6970
    },
    {
      "epoch": 11.625,
      "grad_norm": 0.00043160433415323496,
      "learning_rate": 4.504444444444445e-05,
      "loss": 0.0001,
      "step": 6975
    },
    {
      "epoch": 11.633333333333333,
      "grad_norm": 0.00043123855721205473,
      "learning_rate": 4.493333333333333e-05,
      "loss": 0.0001,
      "step": 6980
    },
    {
      "epoch": 11.641666666666667,
      "grad_norm": 0.0005215457640588284,
      "learning_rate": 4.4822222222222224e-05,
      "loss": 0.0001,
      "step": 6985
    },
    {
      "epoch": 11.65,
      "grad_norm": 0.00042495355592109263,
      "learning_rate": 4.4711111111111115e-05,
      "loss": 0.0001,
      "step": 6990
    },
    {
      "epoch": 11.658333333333333,
      "grad_norm": 0.00046995599404908717,
      "learning_rate": 4.46e-05,
      "loss": 0.0001,
      "step": 6995
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.0004837663727812469,
      "learning_rate": 4.448888888888889e-05,
      "loss": 0.0001,
      "step": 7000
    },
    {
      "epoch": 11.666666666666666,
      "eval_accuracy": 0.82375,
      "eval_f1": 0.8246575644970386,
      "eval_loss": 1.3780838251113892,
      "eval_precision": 0.8578869878676261,
      "eval_recall": 0.82375,
      "eval_runtime": 18.2745,
      "eval_samples_per_second": 131.331,
      "eval_steps_per_second": 16.416,
      "step": 7000
    },
    {
      "epoch": 11.675,
      "grad_norm": 0.0006574945291504264,
      "learning_rate": 4.4377777777777776e-05,
      "loss": 0.0001,
      "step": 7005
    },
    {
      "epoch": 11.683333333333334,
      "grad_norm": 0.00042309716809540987,
      "learning_rate": 4.426666666666667e-05,
      "loss": 0.0001,
      "step": 7010
    },
    {
      "epoch": 11.691666666666666,
      "grad_norm": 0.0006367659079842269,
      "learning_rate": 4.415555555555556e-05,
      "loss": 0.0001,
      "step": 7015
    },
    {
      "epoch": 11.7,
      "grad_norm": 0.00046530095278285444,
      "learning_rate": 4.404444444444445e-05,
      "loss": 0.0001,
      "step": 7020
    },
    {
      "epoch": 11.708333333333334,
      "grad_norm": 0.00047611366608180106,
      "learning_rate": 4.3933333333333335e-05,
      "loss": 0.0001,
      "step": 7025
    },
    {
      "epoch": 11.716666666666667,
      "grad_norm": 0.0007362097385339439,
      "learning_rate": 4.3822222222222227e-05,
      "loss": 0.0001,
      "step": 7030
    },
    {
      "epoch": 11.725,
      "grad_norm": 0.0006020494038239121,
      "learning_rate": 4.371111111111111e-05,
      "loss": 0.0001,
      "step": 7035
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.000432642555097118,
      "learning_rate": 4.36e-05,
      "loss": 0.0001,
      "step": 7040
    },
    {
      "epoch": 11.741666666666667,
      "grad_norm": 0.0004198742099106312,
      "learning_rate": 4.348888888888889e-05,
      "loss": 0.0001,
      "step": 7045
    },
    {
      "epoch": 11.75,
      "grad_norm": 0.0005722015048377216,
      "learning_rate": 4.337777777777778e-05,
      "loss": 0.0001,
      "step": 7050
    },
    {
      "epoch": 11.758333333333333,
      "grad_norm": 0.0006349142058752477,
      "learning_rate": 4.3266666666666664e-05,
      "loss": 0.0001,
      "step": 7055
    },
    {
      "epoch": 11.766666666666667,
      "grad_norm": 0.000593913602642715,
      "learning_rate": 4.315555555555556e-05,
      "loss": 0.0001,
      "step": 7060
    },
    {
      "epoch": 11.775,
      "grad_norm": 0.0004960476071573794,
      "learning_rate": 4.3044444444444446e-05,
      "loss": 0.0001,
      "step": 7065
    },
    {
      "epoch": 11.783333333333333,
      "grad_norm": 0.0003962348564527929,
      "learning_rate": 4.293333333333334e-05,
      "loss": 0.0001,
      "step": 7070
    },
    {
      "epoch": 11.791666666666666,
      "grad_norm": 0.001308353035710752,
      "learning_rate": 4.282222222222222e-05,
      "loss": 0.0001,
      "step": 7075
    },
    {
      "epoch": 11.8,
      "grad_norm": 0.000508679891936481,
      "learning_rate": 4.2711111111111114e-05,
      "loss": 0.0001,
      "step": 7080
    },
    {
      "epoch": 11.808333333333334,
      "grad_norm": 0.0005883373669348657,
      "learning_rate": 4.26e-05,
      "loss": 0.0001,
      "step": 7085
    },
    {
      "epoch": 11.816666666666666,
      "grad_norm": 0.0004262687871232629,
      "learning_rate": 4.248888888888889e-05,
      "loss": 0.0001,
      "step": 7090
    },
    {
      "epoch": 11.825,
      "grad_norm": 0.00044181750854477286,
      "learning_rate": 4.2377777777777775e-05,
      "loss": 0.0001,
      "step": 7095
    },
    {
      "epoch": 11.833333333333334,
      "grad_norm": 0.000545486225746572,
      "learning_rate": 4.226666666666667e-05,
      "loss": 0.0001,
      "step": 7100
    },
    {
      "epoch": 11.833333333333334,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.825082442596489,
      "eval_loss": 1.3811156749725342,
      "eval_precision": 0.8582104159930615,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.5128,
      "eval_samples_per_second": 129.64,
      "eval_steps_per_second": 16.205,
      "step": 7100
    },
    {
      "epoch": 11.841666666666667,
      "grad_norm": 0.00046239650691859424,
      "learning_rate": 4.215555555555556e-05,
      "loss": 0.0001,
      "step": 7105
    },
    {
      "epoch": 11.85,
      "grad_norm": 0.0005156578845344484,
      "learning_rate": 4.204444444444445e-05,
      "loss": 0.0001,
      "step": 7110
    },
    {
      "epoch": 11.858333333333333,
      "grad_norm": 0.00041606329614296556,
      "learning_rate": 4.1933333333333334e-05,
      "loss": 0.0001,
      "step": 7115
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.0005161067238077521,
      "learning_rate": 4.1822222222222225e-05,
      "loss": 0.0001,
      "step": 7120
    },
    {
      "epoch": 11.875,
      "grad_norm": 0.00043923084740526974,
      "learning_rate": 4.171111111111111e-05,
      "loss": 0.0001,
      "step": 7125
    },
    {
      "epoch": 11.883333333333333,
      "grad_norm": 0.00043223632383160293,
      "learning_rate": 4.16e-05,
      "loss": 0.0001,
      "step": 7130
    },
    {
      "epoch": 11.891666666666667,
      "grad_norm": 0.00047290624934248626,
      "learning_rate": 4.1488888888888886e-05,
      "loss": 0.0001,
      "step": 7135
    },
    {
      "epoch": 11.9,
      "grad_norm": 0.00046254624612629414,
      "learning_rate": 4.1377777777777784e-05,
      "loss": 0.0001,
      "step": 7140
    },
    {
      "epoch": 11.908333333333333,
      "grad_norm": 0.0005742640933021903,
      "learning_rate": 4.126666666666667e-05,
      "loss": 0.0001,
      "step": 7145
    },
    {
      "epoch": 11.916666666666666,
      "grad_norm": 0.00060677231522277,
      "learning_rate": 4.115555555555556e-05,
      "loss": 0.0001,
      "step": 7150
    },
    {
      "epoch": 11.925,
      "grad_norm": 0.0004509868158493191,
      "learning_rate": 4.1044444444444445e-05,
      "loss": 0.0001,
      "step": 7155
    },
    {
      "epoch": 11.933333333333334,
      "grad_norm": 0.0004459586925804615,
      "learning_rate": 4.093333333333334e-05,
      "loss": 0.0001,
      "step": 7160
    },
    {
      "epoch": 11.941666666666666,
      "grad_norm": 0.00043453648686408997,
      "learning_rate": 4.082222222222222e-05,
      "loss": 0.0001,
      "step": 7165
    },
    {
      "epoch": 11.95,
      "grad_norm": 0.00044679277925752103,
      "learning_rate": 4.071111111111111e-05,
      "loss": 0.0001,
      "step": 7170
    },
    {
      "epoch": 11.958333333333334,
      "grad_norm": 0.0004192161140963435,
      "learning_rate": 4.0600000000000004e-05,
      "loss": 0.0001,
      "step": 7175
    },
    {
      "epoch": 11.966666666666667,
      "grad_norm": 0.0004325911868363619,
      "learning_rate": 4.0488888888888896e-05,
      "loss": 0.0001,
      "step": 7180
    },
    {
      "epoch": 11.975,
      "grad_norm": 0.0005940438713878393,
      "learning_rate": 4.037777777777778e-05,
      "loss": 0.0001,
      "step": 7185
    },
    {
      "epoch": 11.983333333333333,
      "grad_norm": 0.00045917037641629577,
      "learning_rate": 4.026666666666667e-05,
      "loss": 0.0001,
      "step": 7190
    },
    {
      "epoch": 11.991666666666667,
      "grad_norm": 0.0008869346929714084,
      "learning_rate": 4.0155555555555557e-05,
      "loss": 0.0001,
      "step": 7195
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.000449428305728361,
      "learning_rate": 4.004444444444445e-05,
      "loss": 0.0001,
      "step": 7200
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.82375,
      "eval_f1": 0.8247237857591991,
      "eval_loss": 1.3851231336593628,
      "eval_precision": 0.8577923262103732,
      "eval_recall": 0.82375,
      "eval_runtime": 18.426,
      "eval_samples_per_second": 130.25,
      "eval_steps_per_second": 16.281,
      "step": 7200
    },
    {
      "epoch": 12.008333333333333,
      "grad_norm": 0.00041375099681317806,
      "learning_rate": 3.993333333333333e-05,
      "loss": 0.0001,
      "step": 7205
    },
    {
      "epoch": 12.016666666666667,
      "grad_norm": 0.00044174189679324627,
      "learning_rate": 3.9822222222222224e-05,
      "loss": 0.0001,
      "step": 7210
    },
    {
      "epoch": 12.025,
      "grad_norm": 0.000941599952057004,
      "learning_rate": 3.9711111111111116e-05,
      "loss": 0.0001,
      "step": 7215
    },
    {
      "epoch": 12.033333333333333,
      "grad_norm": 0.00045322091318666935,
      "learning_rate": 3.960000000000001e-05,
      "loss": 0.0001,
      "step": 7220
    },
    {
      "epoch": 12.041666666666666,
      "grad_norm": 0.0006815177039243281,
      "learning_rate": 3.948888888888889e-05,
      "loss": 0.0001,
      "step": 7225
    },
    {
      "epoch": 12.05,
      "grad_norm": 0.0009934775298461318,
      "learning_rate": 3.937777777777778e-05,
      "loss": 0.0001,
      "step": 7230
    },
    {
      "epoch": 12.058333333333334,
      "grad_norm": 0.00040556403109803796,
      "learning_rate": 3.926666666666667e-05,
      "loss": 0.0001,
      "step": 7235
    },
    {
      "epoch": 12.066666666666666,
      "grad_norm": 0.00040209112921729684,
      "learning_rate": 3.915555555555556e-05,
      "loss": 0.0001,
      "step": 7240
    },
    {
      "epoch": 12.075,
      "grad_norm": 0.0005132457590661943,
      "learning_rate": 3.9044444444444444e-05,
      "loss": 0.0001,
      "step": 7245
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.0005364056560210884,
      "learning_rate": 3.8933333333333336e-05,
      "loss": 0.0001,
      "step": 7250
    },
    {
      "epoch": 12.091666666666667,
      "grad_norm": 0.0006670449511148036,
      "learning_rate": 3.882222222222223e-05,
      "loss": 0.0001,
      "step": 7255
    },
    {
      "epoch": 12.1,
      "grad_norm": 0.0003928669902961701,
      "learning_rate": 3.871111111111111e-05,
      "loss": 0.0001,
      "step": 7260
    },
    {
      "epoch": 12.108333333333333,
      "grad_norm": 0.000700164760928601,
      "learning_rate": 3.86e-05,
      "loss": 0.0001,
      "step": 7265
    },
    {
      "epoch": 12.116666666666667,
      "grad_norm": 0.0004022257053293288,
      "learning_rate": 3.848888888888889e-05,
      "loss": 0.0001,
      "step": 7270
    },
    {
      "epoch": 12.125,
      "grad_norm": 0.0003731944307219237,
      "learning_rate": 3.837777777777778e-05,
      "loss": 0.0001,
      "step": 7275
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 0.00044076054473407567,
      "learning_rate": 3.8266666666666664e-05,
      "loss": 0.0001,
      "step": 7280
    },
    {
      "epoch": 12.141666666666667,
      "grad_norm": 0.0005085532902739942,
      "learning_rate": 3.8155555555555555e-05,
      "loss": 0.0001,
      "step": 7285
    },
    {
      "epoch": 12.15,
      "grad_norm": 0.0005286951782181859,
      "learning_rate": 3.804444444444445e-05,
      "loss": 0.0001,
      "step": 7290
    },
    {
      "epoch": 12.158333333333333,
      "grad_norm": 0.0005377719644457102,
      "learning_rate": 3.793333333333334e-05,
      "loss": 0.0001,
      "step": 7295
    },
    {
      "epoch": 12.166666666666666,
      "grad_norm": 0.0004231789498589933,
      "learning_rate": 3.782222222222222e-05,
      "loss": 0.0001,
      "step": 7300
    },
    {
      "epoch": 12.166666666666666,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8251093661288398,
      "eval_loss": 1.3881044387817383,
      "eval_precision": 0.8579576680071278,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.1346,
      "eval_samples_per_second": 132.344,
      "eval_steps_per_second": 16.543,
      "step": 7300
    },
    {
      "epoch": 12.175,
      "grad_norm": 0.0007733327220194042,
      "learning_rate": 3.7711111111111114e-05,
      "loss": 0.0001,
      "step": 7305
    },
    {
      "epoch": 12.183333333333334,
      "grad_norm": 0.0003747630980797112,
      "learning_rate": 3.76e-05,
      "loss": 0.0001,
      "step": 7310
    },
    {
      "epoch": 12.191666666666666,
      "grad_norm": 0.0005912589840590954,
      "learning_rate": 3.748888888888889e-05,
      "loss": 0.0001,
      "step": 7315
    },
    {
      "epoch": 12.2,
      "grad_norm": 0.0004663715371862054,
      "learning_rate": 3.7377777777777775e-05,
      "loss": 0.0001,
      "step": 7320
    },
    {
      "epoch": 12.208333333333334,
      "grad_norm": 0.0003985895018558949,
      "learning_rate": 3.726666666666667e-05,
      "loss": 0.0001,
      "step": 7325
    },
    {
      "epoch": 12.216666666666667,
      "grad_norm": 0.00043880101293325424,
      "learning_rate": 3.715555555555555e-05,
      "loss": 0.0001,
      "step": 7330
    },
    {
      "epoch": 12.225,
      "grad_norm": 0.0004159927775617689,
      "learning_rate": 3.704444444444445e-05,
      "loss": 0.0001,
      "step": 7335
    },
    {
      "epoch": 12.233333333333333,
      "grad_norm": 0.0004549678706098348,
      "learning_rate": 3.6933333333333334e-05,
      "loss": 0.0001,
      "step": 7340
    },
    {
      "epoch": 12.241666666666667,
      "grad_norm": 0.0004796825523953885,
      "learning_rate": 3.6822222222222226e-05,
      "loss": 0.0001,
      "step": 7345
    },
    {
      "epoch": 12.25,
      "grad_norm": 0.0004271277866791934,
      "learning_rate": 3.671111111111111e-05,
      "loss": 0.0001,
      "step": 7350
    },
    {
      "epoch": 12.258333333333333,
      "grad_norm": 0.0004967559361830354,
      "learning_rate": 3.66e-05,
      "loss": 0.0001,
      "step": 7355
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.00047417712630704045,
      "learning_rate": 3.648888888888889e-05,
      "loss": 0.0001,
      "step": 7360
    },
    {
      "epoch": 12.275,
      "grad_norm": 0.0004026749811600894,
      "learning_rate": 3.637777777777778e-05,
      "loss": 0.0001,
      "step": 7365
    },
    {
      "epoch": 12.283333333333333,
      "grad_norm": 0.00045370598672889173,
      "learning_rate": 3.626666666666667e-05,
      "loss": 0.0001,
      "step": 7370
    },
    {
      "epoch": 12.291666666666666,
      "grad_norm": 0.00046597604523412883,
      "learning_rate": 3.615555555555556e-05,
      "loss": 0.0001,
      "step": 7375
    },
    {
      "epoch": 12.3,
      "grad_norm": 0.0004049469134770334,
      "learning_rate": 3.6044444444444446e-05,
      "loss": 0.0001,
      "step": 7380
    },
    {
      "epoch": 12.308333333333334,
      "grad_norm": 0.0008248354424722493,
      "learning_rate": 3.593333333333334e-05,
      "loss": 0.0001,
      "step": 7385
    },
    {
      "epoch": 12.316666666666666,
      "grad_norm": 0.000385368155548349,
      "learning_rate": 3.582222222222222e-05,
      "loss": 0.0001,
      "step": 7390
    },
    {
      "epoch": 12.325,
      "grad_norm": 0.00041240884456783533,
      "learning_rate": 3.571111111111111e-05,
      "loss": 0.0001,
      "step": 7395
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.0004627451708074659,
      "learning_rate": 3.56e-05,
      "loss": 0.0001,
      "step": 7400
    },
    {
      "epoch": 12.333333333333334,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.390952467918396,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.4426,
      "eval_samples_per_second": 130.134,
      "eval_steps_per_second": 16.267,
      "step": 7400
    },
    {
      "epoch": 12.341666666666667,
      "grad_norm": 0.0003887239727191627,
      "learning_rate": 3.548888888888889e-05,
      "loss": 0.0001,
      "step": 7405
    },
    {
      "epoch": 12.35,
      "grad_norm": 0.0003953032137360424,
      "learning_rate": 3.537777777777778e-05,
      "loss": 0.0001,
      "step": 7410
    },
    {
      "epoch": 12.358333333333333,
      "grad_norm": 0.0003906291094608605,
      "learning_rate": 3.526666666666667e-05,
      "loss": 0.0001,
      "step": 7415
    },
    {
      "epoch": 12.366666666666667,
      "grad_norm": 0.0005005869315937161,
      "learning_rate": 3.515555555555556e-05,
      "loss": 0.0001,
      "step": 7420
    },
    {
      "epoch": 12.375,
      "grad_norm": 0.0003735747595783323,
      "learning_rate": 3.504444444444445e-05,
      "loss": 0.0001,
      "step": 7425
    },
    {
      "epoch": 12.383333333333333,
      "grad_norm": 0.00035883625969290733,
      "learning_rate": 3.493333333333333e-05,
      "loss": 0.0001,
      "step": 7430
    },
    {
      "epoch": 12.391666666666667,
      "grad_norm": 0.0003970731049776077,
      "learning_rate": 3.4822222222222225e-05,
      "loss": 0.0001,
      "step": 7435
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.0003867565537802875,
      "learning_rate": 3.471111111111111e-05,
      "loss": 0.0001,
      "step": 7440
    },
    {
      "epoch": 12.408333333333333,
      "grad_norm": 0.0003762682608794421,
      "learning_rate": 3.46e-05,
      "loss": 0.0001,
      "step": 7445
    },
    {
      "epoch": 12.416666666666666,
      "grad_norm": 0.00046727160224691033,
      "learning_rate": 3.448888888888889e-05,
      "loss": 0.0001,
      "step": 7450
    },
    {
      "epoch": 12.425,
      "grad_norm": 0.0003924863995052874,
      "learning_rate": 3.4377777777777784e-05,
      "loss": 0.0001,
      "step": 7455
    },
    {
      "epoch": 12.433333333333334,
      "grad_norm": 0.00036956125404685736,
      "learning_rate": 3.426666666666667e-05,
      "loss": 0.0001,
      "step": 7460
    },
    {
      "epoch": 12.441666666666666,
      "grad_norm": 0.000365294108632952,
      "learning_rate": 3.415555555555556e-05,
      "loss": 0.0001,
      "step": 7465
    },
    {
      "epoch": 12.45,
      "grad_norm": 0.0003773056378122419,
      "learning_rate": 3.4044444444444445e-05,
      "loss": 0.0001,
      "step": 7470
    },
    {
      "epoch": 12.458333333333334,
      "grad_norm": 0.0005858006770722568,
      "learning_rate": 3.3933333333333336e-05,
      "loss": 0.0001,
      "step": 7475
    },
    {
      "epoch": 12.466666666666667,
      "grad_norm": 0.0004055030585732311,
      "learning_rate": 3.382222222222222e-05,
      "loss": 0.0001,
      "step": 7480
    },
    {
      "epoch": 12.475,
      "grad_norm": 0.00040051856194622815,
      "learning_rate": 3.371111111111111e-05,
      "loss": 0.0001,
      "step": 7485
    },
    {
      "epoch": 12.483333333333333,
      "grad_norm": 0.0004083556996192783,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 0.0001,
      "step": 7490
    },
    {
      "epoch": 12.491666666666667,
      "grad_norm": 0.00036605235072784126,
      "learning_rate": 3.3488888888888895e-05,
      "loss": 0.0001,
      "step": 7495
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.000376599287847057,
      "learning_rate": 3.337777777777778e-05,
      "loss": 0.0001,
      "step": 7500
    },
    {
      "epoch": 12.5,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.3937443494796753,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.3191,
      "eval_samples_per_second": 131.011,
      "eval_steps_per_second": 16.376,
      "step": 7500
    },
    {
      "epoch": 12.508333333333333,
      "grad_norm": 0.00040043372428044677,
      "learning_rate": 3.326666666666667e-05,
      "loss": 0.0001,
      "step": 7505
    },
    {
      "epoch": 12.516666666666667,
      "grad_norm": 0.0004863941576331854,
      "learning_rate": 3.3155555555555556e-05,
      "loss": 0.0001,
      "step": 7510
    },
    {
      "epoch": 12.525,
      "grad_norm": 0.0003951008548028767,
      "learning_rate": 3.304444444444445e-05,
      "loss": 0.0001,
      "step": 7515
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.0005890594329684973,
      "learning_rate": 3.293333333333333e-05,
      "loss": 0.0001,
      "step": 7520
    },
    {
      "epoch": 12.541666666666666,
      "grad_norm": 0.0004093022143933922,
      "learning_rate": 3.2822222222222223e-05,
      "loss": 0.0001,
      "step": 7525
    },
    {
      "epoch": 12.55,
      "grad_norm": 0.0004830595280509442,
      "learning_rate": 3.2711111111111115e-05,
      "loss": 0.0001,
      "step": 7530
    },
    {
      "epoch": 12.558333333333334,
      "grad_norm": 0.0003759435494430363,
      "learning_rate": 3.26e-05,
      "loss": 0.0001,
      "step": 7535
    },
    {
      "epoch": 12.566666666666666,
      "grad_norm": 0.00037202390376478434,
      "learning_rate": 3.248888888888889e-05,
      "loss": 0.0001,
      "step": 7540
    },
    {
      "epoch": 12.575,
      "grad_norm": 0.00037519316538237035,
      "learning_rate": 3.2377777777777776e-05,
      "loss": 0.0001,
      "step": 7545
    },
    {
      "epoch": 12.583333333333334,
      "grad_norm": 0.0004145005950704217,
      "learning_rate": 3.226666666666667e-05,
      "loss": 0.0001,
      "step": 7550
    },
    {
      "epoch": 12.591666666666667,
      "grad_norm": 0.0003955464344471693,
      "learning_rate": 3.215555555555556e-05,
      "loss": 0.0001,
      "step": 7555
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.0003457553102634847,
      "learning_rate": 3.204444444444444e-05,
      "loss": 0.0001,
      "step": 7560
    },
    {
      "epoch": 12.608333333333333,
      "grad_norm": 0.0004020553024020046,
      "learning_rate": 3.1933333333333335e-05,
      "loss": 0.0001,
      "step": 7565
    },
    {
      "epoch": 12.616666666666667,
      "grad_norm": 0.0003803831059485674,
      "learning_rate": 3.1822222222222226e-05,
      "loss": 0.0001,
      "step": 7570
    },
    {
      "epoch": 12.625,
      "grad_norm": 0.00047710892977193,
      "learning_rate": 3.171111111111111e-05,
      "loss": 0.0001,
      "step": 7575
    },
    {
      "epoch": 12.633333333333333,
      "grad_norm": 0.00039982094313018024,
      "learning_rate": 3.16e-05,
      "loss": 0.0001,
      "step": 7580
    },
    {
      "epoch": 12.641666666666667,
      "grad_norm": 0.00041062600212171674,
      "learning_rate": 3.148888888888889e-05,
      "loss": 0.0001,
      "step": 7585
    },
    {
      "epoch": 12.65,
      "grad_norm": 0.0004058949707541615,
      "learning_rate": 3.137777777777778e-05,
      "loss": 0.0001,
      "step": 7590
    },
    {
      "epoch": 12.658333333333333,
      "grad_norm": 0.0003884659381583333,
      "learning_rate": 3.126666666666666e-05,
      "loss": 0.0001,
      "step": 7595
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.0004205872246529907,
      "learning_rate": 3.1155555555555555e-05,
      "loss": 0.0001,
      "step": 7600
    },
    {
      "epoch": 12.666666666666666,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.3976839780807495,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.532,
      "eval_samples_per_second": 129.506,
      "eval_steps_per_second": 16.188,
      "step": 7600
    },
    {
      "epoch": 12.675,
      "grad_norm": 0.00037065817741677165,
      "learning_rate": 3.1044444444444446e-05,
      "loss": 0.0001,
      "step": 7605
    },
    {
      "epoch": 12.683333333333334,
      "grad_norm": 0.000382413825718686,
      "learning_rate": 3.093333333333334e-05,
      "loss": 0.0001,
      "step": 7610
    },
    {
      "epoch": 12.691666666666666,
      "grad_norm": 0.0010162547696381807,
      "learning_rate": 3.082222222222222e-05,
      "loss": 0.0001,
      "step": 7615
    },
    {
      "epoch": 12.7,
      "grad_norm": 0.0003589971165638417,
      "learning_rate": 3.0711111111111114e-05,
      "loss": 0.0001,
      "step": 7620
    },
    {
      "epoch": 12.708333333333334,
      "grad_norm": 0.00043974327854812145,
      "learning_rate": 3.06e-05,
      "loss": 0.0001,
      "step": 7625
    },
    {
      "epoch": 12.716666666666667,
      "grad_norm": 0.0003465871268417686,
      "learning_rate": 3.048888888888889e-05,
      "loss": 0.0001,
      "step": 7630
    },
    {
      "epoch": 12.725,
      "grad_norm": 0.00040102293132804334,
      "learning_rate": 3.0377777777777778e-05,
      "loss": 0.0001,
      "step": 7635
    },
    {
      "epoch": 12.733333333333333,
      "grad_norm": 0.00040679462836124003,
      "learning_rate": 3.0266666666666666e-05,
      "loss": 0.0001,
      "step": 7640
    },
    {
      "epoch": 12.741666666666667,
      "grad_norm": 0.00033191448892466724,
      "learning_rate": 3.0155555555555557e-05,
      "loss": 0.0001,
      "step": 7645
    },
    {
      "epoch": 12.75,
      "grad_norm": 0.0003547274391166866,
      "learning_rate": 3.004444444444445e-05,
      "loss": 0.0001,
      "step": 7650
    },
    {
      "epoch": 12.758333333333333,
      "grad_norm": 0.0003300440439488739,
      "learning_rate": 2.9933333333333337e-05,
      "loss": 0.0001,
      "step": 7655
    },
    {
      "epoch": 12.766666666666667,
      "grad_norm": 0.0004255892417859286,
      "learning_rate": 2.9822222222222225e-05,
      "loss": 0.0001,
      "step": 7660
    },
    {
      "epoch": 12.775,
      "grad_norm": 0.00043635768815875053,
      "learning_rate": 2.9711111111111113e-05,
      "loss": 0.0001,
      "step": 7665
    },
    {
      "epoch": 12.783333333333333,
      "grad_norm": 0.00038433654117397964,
      "learning_rate": 2.96e-05,
      "loss": 0.0001,
      "step": 7670
    },
    {
      "epoch": 12.791666666666666,
      "grad_norm": 0.00036065198946744204,
      "learning_rate": 2.948888888888889e-05,
      "loss": 0.0001,
      "step": 7675
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.00036280558560974896,
      "learning_rate": 2.937777777777778e-05,
      "loss": 0.0001,
      "step": 7680
    },
    {
      "epoch": 12.808333333333334,
      "grad_norm": 0.00036848834133706987,
      "learning_rate": 2.926666666666667e-05,
      "loss": 0.0001,
      "step": 7685
    },
    {
      "epoch": 12.816666666666666,
      "grad_norm": 0.0004197373054921627,
      "learning_rate": 2.9155555555555557e-05,
      "loss": 0.0001,
      "step": 7690
    },
    {
      "epoch": 12.825,
      "grad_norm": 0.0011079185642302036,
      "learning_rate": 2.9044444444444445e-05,
      "loss": 0.0001,
      "step": 7695
    },
    {
      "epoch": 12.833333333333334,
      "grad_norm": 0.0003795675002038479,
      "learning_rate": 2.8933333333333333e-05,
      "loss": 0.0001,
      "step": 7700
    },
    {
      "epoch": 12.833333333333334,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.3995190858840942,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.4883,
      "eval_samples_per_second": 129.812,
      "eval_steps_per_second": 16.227,
      "step": 7700
    },
    {
      "epoch": 12.841666666666667,
      "grad_norm": 0.0004290227370802313,
      "learning_rate": 2.882222222222222e-05,
      "loss": 0.0001,
      "step": 7705
    },
    {
      "epoch": 12.85,
      "grad_norm": 0.00038179929833859205,
      "learning_rate": 2.8711111111111113e-05,
      "loss": 0.0001,
      "step": 7710
    },
    {
      "epoch": 12.858333333333333,
      "grad_norm": 0.0003485574561636895,
      "learning_rate": 2.86e-05,
      "loss": 0.0001,
      "step": 7715
    },
    {
      "epoch": 12.866666666666667,
      "grad_norm": 0.00044295142288319767,
      "learning_rate": 2.8488888888888892e-05,
      "loss": 0.0001,
      "step": 7720
    },
    {
      "epoch": 12.875,
      "grad_norm": 0.0003721510584000498,
      "learning_rate": 2.837777777777778e-05,
      "loss": 0.0001,
      "step": 7725
    },
    {
      "epoch": 12.883333333333333,
      "grad_norm": 0.00035109397140331566,
      "learning_rate": 2.8266666666666668e-05,
      "loss": 0.0001,
      "step": 7730
    },
    {
      "epoch": 12.891666666666667,
      "grad_norm": 0.0003847751358989626,
      "learning_rate": 2.8155555555555556e-05,
      "loss": 0.0001,
      "step": 7735
    },
    {
      "epoch": 12.9,
      "grad_norm": 0.00041203334694728255,
      "learning_rate": 2.8044444444444444e-05,
      "loss": 0.0001,
      "step": 7740
    },
    {
      "epoch": 12.908333333333333,
      "grad_norm": 0.00043652302701957524,
      "learning_rate": 2.7933333333333332e-05,
      "loss": 0.0001,
      "step": 7745
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.00038014777237549424,
      "learning_rate": 2.782222222222222e-05,
      "loss": 0.0001,
      "step": 7750
    },
    {
      "epoch": 12.925,
      "grad_norm": 0.00032745825592428446,
      "learning_rate": 2.771111111111111e-05,
      "loss": 0.0001,
      "step": 7755
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.0003546374791767448,
      "learning_rate": 2.7600000000000003e-05,
      "loss": 0.0001,
      "step": 7760
    },
    {
      "epoch": 12.941666666666666,
      "grad_norm": 0.0003590897540561855,
      "learning_rate": 2.748888888888889e-05,
      "loss": 0.0001,
      "step": 7765
    },
    {
      "epoch": 12.95,
      "grad_norm": 0.0004503269155975431,
      "learning_rate": 2.737777777777778e-05,
      "loss": 0.0001,
      "step": 7770
    },
    {
      "epoch": 12.958333333333334,
      "grad_norm": 0.00039048935286700726,
      "learning_rate": 2.7266666666666668e-05,
      "loss": 0.0001,
      "step": 7775
    },
    {
      "epoch": 12.966666666666667,
      "grad_norm": 0.00037571517168544233,
      "learning_rate": 2.7155555555555556e-05,
      "loss": 0.0001,
      "step": 7780
    },
    {
      "epoch": 12.975,
      "grad_norm": 0.00036088787601329386,
      "learning_rate": 2.7044444444444444e-05,
      "loss": 0.0001,
      "step": 7785
    },
    {
      "epoch": 12.983333333333333,
      "grad_norm": 0.000362628314178437,
      "learning_rate": 2.6933333333333332e-05,
      "loss": 0.0001,
      "step": 7790
    },
    {
      "epoch": 12.991666666666667,
      "grad_norm": 0.0005962448776699603,
      "learning_rate": 2.682222222222222e-05,
      "loss": 0.0001,
      "step": 7795
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.0004152738838456571,
      "learning_rate": 2.6711111111111115e-05,
      "loss": 0.0001,
      "step": 7800
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.4021415710449219,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.2195,
      "eval_samples_per_second": 131.727,
      "eval_steps_per_second": 16.466,
      "step": 7800
    },
    {
      "epoch": 13.008333333333333,
      "grad_norm": 0.0005408341530710459,
      "learning_rate": 2.6600000000000003e-05,
      "loss": 0.0001,
      "step": 7805
    },
    {
      "epoch": 13.016666666666667,
      "grad_norm": 0.00042096260585822165,
      "learning_rate": 2.648888888888889e-05,
      "loss": 0.0001,
      "step": 7810
    },
    {
      "epoch": 13.025,
      "grad_norm": 0.00037876568967476487,
      "learning_rate": 2.637777777777778e-05,
      "loss": 0.0001,
      "step": 7815
    },
    {
      "epoch": 13.033333333333333,
      "grad_norm": 0.0003601407806854695,
      "learning_rate": 2.6266666666666667e-05,
      "loss": 0.0001,
      "step": 7820
    },
    {
      "epoch": 13.041666666666666,
      "grad_norm": 0.0005142168374732137,
      "learning_rate": 2.6155555555555555e-05,
      "loss": 0.0001,
      "step": 7825
    },
    {
      "epoch": 13.05,
      "grad_norm": 0.0003697772335726768,
      "learning_rate": 2.6044444444444443e-05,
      "loss": 0.0001,
      "step": 7830
    },
    {
      "epoch": 13.058333333333334,
      "grad_norm": 0.0003545851504895836,
      "learning_rate": 2.5933333333333338e-05,
      "loss": 0.0001,
      "step": 7835
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 0.0004086746776010841,
      "learning_rate": 2.5822222222222226e-05,
      "loss": 0.0001,
      "step": 7840
    },
    {
      "epoch": 13.075,
      "grad_norm": 0.00033289240673184395,
      "learning_rate": 2.5711111111111114e-05,
      "loss": 0.0001,
      "step": 7845
    },
    {
      "epoch": 13.083333333333334,
      "grad_norm": 0.0005776479374617338,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 0.0001,
      "step": 7850
    },
    {
      "epoch": 13.091666666666667,
      "grad_norm": 0.0004157981020398438,
      "learning_rate": 2.548888888888889e-05,
      "loss": 0.0001,
      "step": 7855
    },
    {
      "epoch": 13.1,
      "grad_norm": 0.00035688909702003,
      "learning_rate": 2.537777777777778e-05,
      "loss": 0.0001,
      "step": 7860
    },
    {
      "epoch": 13.108333333333333,
      "grad_norm": 0.0003693710023071617,
      "learning_rate": 2.5266666666666666e-05,
      "loss": 0.0001,
      "step": 7865
    },
    {
      "epoch": 13.116666666666667,
      "grad_norm": 0.00032150879269465804,
      "learning_rate": 2.5155555555555555e-05,
      "loss": 0.0001,
      "step": 7870
    },
    {
      "epoch": 13.125,
      "grad_norm": 0.0004432180430740118,
      "learning_rate": 2.504444444444445e-05,
      "loss": 0.0001,
      "step": 7875
    },
    {
      "epoch": 13.133333333333333,
      "grad_norm": 0.00034520772169344127,
      "learning_rate": 2.4933333333333334e-05,
      "loss": 0.0001,
      "step": 7880
    },
    {
      "epoch": 13.141666666666667,
      "grad_norm": 0.0003710399614647031,
      "learning_rate": 2.4822222222222225e-05,
      "loss": 0.0001,
      "step": 7885
    },
    {
      "epoch": 13.15,
      "grad_norm": 0.00046263966942206025,
      "learning_rate": 2.4711111111111114e-05,
      "loss": 0.0001,
      "step": 7890
    },
    {
      "epoch": 13.158333333333333,
      "grad_norm": 0.0003490612143650651,
      "learning_rate": 2.46e-05,
      "loss": 0.0001,
      "step": 7895
    },
    {
      "epoch": 13.166666666666666,
      "grad_norm": 0.0003556726442184299,
      "learning_rate": 2.448888888888889e-05,
      "loss": 0.0001,
      "step": 7900
    },
    {
      "epoch": 13.166666666666666,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.4048336744308472,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.4489,
      "eval_samples_per_second": 130.089,
      "eval_steps_per_second": 16.261,
      "step": 7900
    },
    {
      "epoch": 13.175,
      "grad_norm": 0.0004012535500805825,
      "learning_rate": 2.437777777777778e-05,
      "loss": 0.0001,
      "step": 7905
    },
    {
      "epoch": 13.183333333333334,
      "grad_norm": 0.0004188623861409724,
      "learning_rate": 2.426666666666667e-05,
      "loss": 0.0001,
      "step": 7910
    },
    {
      "epoch": 13.191666666666666,
      "grad_norm": 0.00043160849600099027,
      "learning_rate": 2.4155555555555557e-05,
      "loss": 0.0001,
      "step": 7915
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.0003280006640125066,
      "learning_rate": 2.4044444444444445e-05,
      "loss": 0.0001,
      "step": 7920
    },
    {
      "epoch": 13.208333333333334,
      "grad_norm": 0.00037349906051531434,
      "learning_rate": 2.3933333333333337e-05,
      "loss": 0.0001,
      "step": 7925
    },
    {
      "epoch": 13.216666666666667,
      "grad_norm": 0.0003129677497781813,
      "learning_rate": 2.3822222222222225e-05,
      "loss": 0.0001,
      "step": 7930
    },
    {
      "epoch": 13.225,
      "grad_norm": 0.00035483852843753994,
      "learning_rate": 2.3711111111111113e-05,
      "loss": 0.0001,
      "step": 7935
    },
    {
      "epoch": 13.233333333333333,
      "grad_norm": 0.0003575640730559826,
      "learning_rate": 2.36e-05,
      "loss": 0.0001,
      "step": 7940
    },
    {
      "epoch": 13.241666666666667,
      "grad_norm": 0.00035716782440431416,
      "learning_rate": 2.3488888888888893e-05,
      "loss": 0.0001,
      "step": 7945
    },
    {
      "epoch": 13.25,
      "grad_norm": 0.00033485444146208465,
      "learning_rate": 2.337777777777778e-05,
      "loss": 0.0001,
      "step": 7950
    },
    {
      "epoch": 13.258333333333333,
      "grad_norm": 0.000389173801522702,
      "learning_rate": 2.326666666666667e-05,
      "loss": 0.0001,
      "step": 7955
    },
    {
      "epoch": 13.266666666666667,
      "grad_norm": 0.00034865475026890635,
      "learning_rate": 2.3155555555555557e-05,
      "loss": 0.0001,
      "step": 7960
    },
    {
      "epoch": 13.275,
      "grad_norm": 0.00037059298483654857,
      "learning_rate": 2.3044444444444445e-05,
      "loss": 0.0001,
      "step": 7965
    },
    {
      "epoch": 13.283333333333333,
      "grad_norm": 0.0003893170796800405,
      "learning_rate": 2.2933333333333333e-05,
      "loss": 0.0001,
      "step": 7970
    },
    {
      "epoch": 13.291666666666666,
      "grad_norm": 0.0005469413590617478,
      "learning_rate": 2.282222222222222e-05,
      "loss": 0.0001,
      "step": 7975
    },
    {
      "epoch": 13.3,
      "grad_norm": 0.00034091618726961315,
      "learning_rate": 2.2711111111111112e-05,
      "loss": 0.0001,
      "step": 7980
    },
    {
      "epoch": 13.308333333333334,
      "grad_norm": 0.00034197792410850525,
      "learning_rate": 2.26e-05,
      "loss": 0.0001,
      "step": 7985
    },
    {
      "epoch": 13.316666666666666,
      "grad_norm": 0.00038844806840643287,
      "learning_rate": 2.248888888888889e-05,
      "loss": 0.0001,
      "step": 7990
    },
    {
      "epoch": 13.325,
      "grad_norm": 0.00036107024061493576,
      "learning_rate": 2.2377777777777777e-05,
      "loss": 0.0001,
      "step": 7995
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.0003193200973328203,
      "learning_rate": 2.2266666666666668e-05,
      "loss": 0.0001,
      "step": 8000
    },
    {
      "epoch": 13.333333333333334,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.4074379205703735,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.5176,
      "eval_samples_per_second": 129.606,
      "eval_steps_per_second": 16.201,
      "step": 8000
    },
    {
      "epoch": 13.341666666666667,
      "grad_norm": 0.000349676760379225,
      "learning_rate": 2.2155555555555556e-05,
      "loss": 0.0001,
      "step": 8005
    },
    {
      "epoch": 13.35,
      "grad_norm": 0.00033983762841671705,
      "learning_rate": 2.2044444444444444e-05,
      "loss": 0.0001,
      "step": 8010
    },
    {
      "epoch": 13.358333333333333,
      "grad_norm": 0.0004948312416672707,
      "learning_rate": 2.1933333333333332e-05,
      "loss": 0.0001,
      "step": 8015
    },
    {
      "epoch": 13.366666666666667,
      "grad_norm": 0.0003985862131230533,
      "learning_rate": 2.1822222222222224e-05,
      "loss": 0.0001,
      "step": 8020
    },
    {
      "epoch": 13.375,
      "grad_norm": 0.0003303490811958909,
      "learning_rate": 2.1711111111111112e-05,
      "loss": 0.0001,
      "step": 8025
    },
    {
      "epoch": 13.383333333333333,
      "grad_norm": 0.0004971749149262905,
      "learning_rate": 2.16e-05,
      "loss": 0.0001,
      "step": 8030
    },
    {
      "epoch": 13.391666666666667,
      "grad_norm": 0.00038460572250187397,
      "learning_rate": 2.1488888888888888e-05,
      "loss": 0.0001,
      "step": 8035
    },
    {
      "epoch": 13.4,
      "grad_norm": 0.00039292610017582774,
      "learning_rate": 2.137777777777778e-05,
      "loss": 0.0001,
      "step": 8040
    },
    {
      "epoch": 13.408333333333333,
      "grad_norm": 0.00033739442005753517,
      "learning_rate": 2.1266666666666667e-05,
      "loss": 0.0001,
      "step": 8045
    },
    {
      "epoch": 13.416666666666666,
      "grad_norm": 0.00032319960882887244,
      "learning_rate": 2.1155555555555556e-05,
      "loss": 0.0001,
      "step": 8050
    },
    {
      "epoch": 13.425,
      "grad_norm": 0.0004480242496356368,
      "learning_rate": 2.1044444444444444e-05,
      "loss": 0.0001,
      "step": 8055
    },
    {
      "epoch": 13.433333333333334,
      "grad_norm": 0.0004771481326315552,
      "learning_rate": 2.0933333333333335e-05,
      "loss": 0.0001,
      "step": 8060
    },
    {
      "epoch": 13.441666666666666,
      "grad_norm": 0.0003479143779259175,
      "learning_rate": 2.0822222222222223e-05,
      "loss": 0.0001,
      "step": 8065
    },
    {
      "epoch": 13.45,
      "grad_norm": 0.00044757151044905186,
      "learning_rate": 2.071111111111111e-05,
      "loss": 0.0001,
      "step": 8070
    },
    {
      "epoch": 13.458333333333334,
      "grad_norm": 0.00030499871354550123,
      "learning_rate": 2.06e-05,
      "loss": 0.0001,
      "step": 8075
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 0.0003128983953502029,
      "learning_rate": 2.048888888888889e-05,
      "loss": 0.0001,
      "step": 8080
    },
    {
      "epoch": 13.475,
      "grad_norm": 0.00033999321749433875,
      "learning_rate": 2.037777777777778e-05,
      "loss": 0.0001,
      "step": 8085
    },
    {
      "epoch": 13.483333333333333,
      "grad_norm": 0.0003824002342298627,
      "learning_rate": 2.0266666666666667e-05,
      "loss": 0.0001,
      "step": 8090
    },
    {
      "epoch": 13.491666666666667,
      "grad_norm": 0.0003915838024113327,
      "learning_rate": 2.0155555555555555e-05,
      "loss": 0.0001,
      "step": 8095
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.0003894790424965322,
      "learning_rate": 2.0044444444444446e-05,
      "loss": 0.0001,
      "step": 8100
    },
    {
      "epoch": 13.5,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.409901738166809,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.2697,
      "eval_samples_per_second": 131.365,
      "eval_steps_per_second": 16.421,
      "step": 8100
    },
    {
      "epoch": 13.508333333333333,
      "grad_norm": 0.0003329915343783796,
      "learning_rate": 1.9933333333333334e-05,
      "loss": 0.0001,
      "step": 8105
    },
    {
      "epoch": 13.516666666666667,
      "grad_norm": 0.00031788222258910537,
      "learning_rate": 1.9822222222222223e-05,
      "loss": 0.0001,
      "step": 8110
    },
    {
      "epoch": 13.525,
      "grad_norm": 0.00048702070489525795,
      "learning_rate": 1.971111111111111e-05,
      "loss": 0.0001,
      "step": 8115
    },
    {
      "epoch": 13.533333333333333,
      "grad_norm": 0.00031933115678839386,
      "learning_rate": 1.9600000000000002e-05,
      "loss": 0.0001,
      "step": 8120
    },
    {
      "epoch": 13.541666666666666,
      "grad_norm": 0.0004623760178219527,
      "learning_rate": 1.948888888888889e-05,
      "loss": 0.0001,
      "step": 8125
    },
    {
      "epoch": 13.55,
      "grad_norm": 0.0005749340052716434,
      "learning_rate": 1.9377777777777778e-05,
      "loss": 0.0001,
      "step": 8130
    },
    {
      "epoch": 13.558333333333334,
      "grad_norm": 0.00038741319440305233,
      "learning_rate": 1.926666666666667e-05,
      "loss": 0.0001,
      "step": 8135
    },
    {
      "epoch": 13.566666666666666,
      "grad_norm": 0.00045862773549742997,
      "learning_rate": 1.9155555555555558e-05,
      "loss": 0.0001,
      "step": 8140
    },
    {
      "epoch": 13.575,
      "grad_norm": 0.0003530282119754702,
      "learning_rate": 1.9044444444444446e-05,
      "loss": 0.0001,
      "step": 8145
    },
    {
      "epoch": 13.583333333333334,
      "grad_norm": 0.0003271048772148788,
      "learning_rate": 1.8933333333333334e-05,
      "loss": 0.0001,
      "step": 8150
    },
    {
      "epoch": 13.591666666666667,
      "grad_norm": 0.0003434489481151104,
      "learning_rate": 1.8822222222222225e-05,
      "loss": 0.0001,
      "step": 8155
    },
    {
      "epoch": 13.6,
      "grad_norm": 0.0003298399969935417,
      "learning_rate": 1.8711111111111113e-05,
      "loss": 0.0001,
      "step": 8160
    },
    {
      "epoch": 13.608333333333333,
      "grad_norm": 0.00030905724270269275,
      "learning_rate": 1.86e-05,
      "loss": 0.0001,
      "step": 8165
    },
    {
      "epoch": 13.616666666666667,
      "grad_norm": 0.0003508078516460955,
      "learning_rate": 1.848888888888889e-05,
      "loss": 0.0001,
      "step": 8170
    },
    {
      "epoch": 13.625,
      "grad_norm": 0.0004488564154598862,
      "learning_rate": 1.837777777777778e-05,
      "loss": 0.0001,
      "step": 8175
    },
    {
      "epoch": 13.633333333333333,
      "grad_norm": 0.0003854240640066564,
      "learning_rate": 1.826666666666667e-05,
      "loss": 0.0001,
      "step": 8180
    },
    {
      "epoch": 13.641666666666667,
      "grad_norm": 0.00034628884168341756,
      "learning_rate": 1.8155555555555557e-05,
      "loss": 0.0001,
      "step": 8185
    },
    {
      "epoch": 13.65,
      "grad_norm": 0.00033160255406983197,
      "learning_rate": 1.8044444444444445e-05,
      "loss": 0.0001,
      "step": 8190
    },
    {
      "epoch": 13.658333333333333,
      "grad_norm": 0.0003542742342688143,
      "learning_rate": 1.7933333333333337e-05,
      "loss": 0.0001,
      "step": 8195
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.00034505789517425,
      "learning_rate": 1.7822222222222225e-05,
      "loss": 0.0001,
      "step": 8200
    },
    {
      "epoch": 13.666666666666666,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8256575324507148,
      "eval_loss": 1.4117413759231567,
      "eval_precision": 0.8579885724129855,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 20.201,
      "eval_samples_per_second": 118.806,
      "eval_steps_per_second": 14.851,
      "step": 8200
    },
    {
      "epoch": 13.675,
      "grad_norm": 0.00029653622186742723,
      "learning_rate": 1.7711111111111113e-05,
      "loss": 0.0001,
      "step": 8205
    },
    {
      "epoch": 13.683333333333334,
      "grad_norm": 0.00036016269586980343,
      "learning_rate": 1.76e-05,
      "loss": 0.0001,
      "step": 8210
    },
    {
      "epoch": 13.691666666666666,
      "grad_norm": 0.0004054538730997592,
      "learning_rate": 1.7488888888888892e-05,
      "loss": 0.0001,
      "step": 8215
    },
    {
      "epoch": 13.7,
      "grad_norm": 0.00030277480254881084,
      "learning_rate": 1.737777777777778e-05,
      "loss": 0.0001,
      "step": 8220
    },
    {
      "epoch": 13.708333333333334,
      "grad_norm": 0.0003467584610916674,
      "learning_rate": 1.726666666666667e-05,
      "loss": 0.0001,
      "step": 8225
    },
    {
      "epoch": 13.716666666666667,
      "grad_norm": 0.0005076255183666945,
      "learning_rate": 1.7155555555555557e-05,
      "loss": 0.0001,
      "step": 8230
    },
    {
      "epoch": 13.725,
      "grad_norm": 0.0003456475678831339,
      "learning_rate": 1.7044444444444445e-05,
      "loss": 0.0001,
      "step": 8235
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.0003623644297476858,
      "learning_rate": 1.6933333333333333e-05,
      "loss": 0.0001,
      "step": 8240
    },
    {
      "epoch": 13.741666666666667,
      "grad_norm": 0.0003590309352148324,
      "learning_rate": 1.6822222222222224e-05,
      "loss": 0.0001,
      "step": 8245
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.00037374775274656713,
      "learning_rate": 1.6711111111111112e-05,
      "loss": 0.0001,
      "step": 8250
    },
    {
      "epoch": 13.758333333333333,
      "grad_norm": 0.00034284908906556666,
      "learning_rate": 1.66e-05,
      "loss": 0.0001,
      "step": 8255
    },
    {
      "epoch": 13.766666666666667,
      "grad_norm": 0.0003145568771287799,
      "learning_rate": 1.648888888888889e-05,
      "loss": 0.0001,
      "step": 8260
    },
    {
      "epoch": 13.775,
      "grad_norm": 0.0003234481264371425,
      "learning_rate": 1.6377777777777776e-05,
      "loss": 0.0001,
      "step": 8265
    },
    {
      "epoch": 13.783333333333333,
      "grad_norm": 0.0003517933073453605,
      "learning_rate": 1.6266666666666665e-05,
      "loss": 0.0001,
      "step": 8270
    },
    {
      "epoch": 13.791666666666666,
      "grad_norm": 0.00033587098005227745,
      "learning_rate": 1.6155555555555556e-05,
      "loss": 0.0001,
      "step": 8275
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.00035203699371777475,
      "learning_rate": 1.6044444444444444e-05,
      "loss": 0.0001,
      "step": 8280
    },
    {
      "epoch": 13.808333333333334,
      "grad_norm": 0.0003495515265967697,
      "learning_rate": 1.5933333333333332e-05,
      "loss": 0.0001,
      "step": 8285
    },
    {
      "epoch": 13.816666666666666,
      "grad_norm": 0.0003849548811558634,
      "learning_rate": 1.582222222222222e-05,
      "loss": 0.0001,
      "step": 8290
    },
    {
      "epoch": 13.825,
      "grad_norm": 0.0003326910373289138,
      "learning_rate": 1.571111111111111e-05,
      "loss": 0.0001,
      "step": 8295
    },
    {
      "epoch": 13.833333333333334,
      "grad_norm": 0.00032454452593810856,
      "learning_rate": 1.56e-05,
      "loss": 0.0001,
      "step": 8300
    },
    {
      "epoch": 13.833333333333334,
      "eval_accuracy": 0.825,
      "eval_f1": 0.8261097724910968,
      "eval_loss": 1.413382649421692,
      "eval_precision": 0.858212311613282,
      "eval_recall": 0.825,
      "eval_runtime": 20.7552,
      "eval_samples_per_second": 115.633,
      "eval_steps_per_second": 14.454,
      "step": 8300
    },
    {
      "epoch": 13.841666666666667,
      "grad_norm": 0.00033390719909220934,
      "learning_rate": 1.5488888888888888e-05,
      "loss": 0.0001,
      "step": 8305
    },
    {
      "epoch": 13.85,
      "grad_norm": 0.00039605904021300375,
      "learning_rate": 1.537777777777778e-05,
      "loss": 0.0001,
      "step": 8310
    },
    {
      "epoch": 13.858333333333333,
      "grad_norm": 0.0002970903005916625,
      "learning_rate": 1.5266666666666667e-05,
      "loss": 0.0001,
      "step": 8315
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.0003776454832404852,
      "learning_rate": 1.5155555555555555e-05,
      "loss": 0.0001,
      "step": 8320
    },
    {
      "epoch": 13.875,
      "grad_norm": 0.0003326006990391761,
      "learning_rate": 1.5044444444444445e-05,
      "loss": 0.0001,
      "step": 8325
    },
    {
      "epoch": 13.883333333333333,
      "grad_norm": 0.0004221514391247183,
      "learning_rate": 1.4933333333333335e-05,
      "loss": 0.0001,
      "step": 8330
    },
    {
      "epoch": 13.891666666666667,
      "grad_norm": 0.000294290017336607,
      "learning_rate": 1.4822222222222223e-05,
      "loss": 0.0001,
      "step": 8335
    },
    {
      "epoch": 13.9,
      "grad_norm": 0.0003111393307335675,
      "learning_rate": 1.4711111111111111e-05,
      "loss": 0.0001,
      "step": 8340
    },
    {
      "epoch": 13.908333333333333,
      "grad_norm": 0.0003848693741019815,
      "learning_rate": 1.4599999999999999e-05,
      "loss": 0.0001,
      "step": 8345
    },
    {
      "epoch": 13.916666666666666,
      "grad_norm": 0.0002959505654871464,
      "learning_rate": 1.448888888888889e-05,
      "loss": 0.0001,
      "step": 8350
    },
    {
      "epoch": 13.925,
      "grad_norm": 0.00033235421869903803,
      "learning_rate": 1.4377777777777779e-05,
      "loss": 0.0001,
      "step": 8355
    },
    {
      "epoch": 13.933333333333334,
      "grad_norm": 0.00031168133136816323,
      "learning_rate": 1.4266666666666667e-05,
      "loss": 0.0001,
      "step": 8360
    },
    {
      "epoch": 13.941666666666666,
      "grad_norm": 0.0003348593309056014,
      "learning_rate": 1.4155555555555555e-05,
      "loss": 0.0001,
      "step": 8365
    },
    {
      "epoch": 13.95,
      "grad_norm": 0.00035929479054175317,
      "learning_rate": 1.4044444444444446e-05,
      "loss": 0.0001,
      "step": 8370
    },
    {
      "epoch": 13.958333333333334,
      "grad_norm": 0.00033812510082498193,
      "learning_rate": 1.3933333333333334e-05,
      "loss": 0.0001,
      "step": 8375
    },
    {
      "epoch": 13.966666666666667,
      "grad_norm": 0.00032165751326829195,
      "learning_rate": 1.3822222222222222e-05,
      "loss": 0.0001,
      "step": 8380
    },
    {
      "epoch": 13.975,
      "grad_norm": 0.00033529303618706763,
      "learning_rate": 1.371111111111111e-05,
      "loss": 0.0001,
      "step": 8385
    },
    {
      "epoch": 13.983333333333333,
      "grad_norm": 0.00030750149744562805,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.0001,
      "step": 8390
    },
    {
      "epoch": 13.991666666666667,
      "grad_norm": 0.00031219766242429614,
      "learning_rate": 1.348888888888889e-05,
      "loss": 0.0001,
      "step": 8395
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.000366823049262166,
      "learning_rate": 1.3377777777777778e-05,
      "loss": 0.0001,
      "step": 8400
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.825,
      "eval_f1": 0.8261097724910968,
      "eval_loss": 1.4150114059448242,
      "eval_precision": 0.858212311613282,
      "eval_recall": 0.825,
      "eval_runtime": 20.2688,
      "eval_samples_per_second": 118.408,
      "eval_steps_per_second": 14.801,
      "step": 8400
    },
    {
      "epoch": 14.008333333333333,
      "grad_norm": 0.0010701261926442385,
      "learning_rate": 1.3266666666666666e-05,
      "loss": 0.0001,
      "step": 8405
    },
    {
      "epoch": 14.016666666666667,
      "grad_norm": 0.00030093142413534224,
      "learning_rate": 1.3155555555555558e-05,
      "loss": 0.0001,
      "step": 8410
    },
    {
      "epoch": 14.025,
      "grad_norm": 0.00030148346559144557,
      "learning_rate": 1.3044444444444446e-05,
      "loss": 0.0001,
      "step": 8415
    },
    {
      "epoch": 14.033333333333333,
      "grad_norm": 0.0003663400129880756,
      "learning_rate": 1.2933333333333334e-05,
      "loss": 0.0001,
      "step": 8420
    },
    {
      "epoch": 14.041666666666666,
      "grad_norm": 0.00034310907358303666,
      "learning_rate": 1.2822222222222222e-05,
      "loss": 0.0001,
      "step": 8425
    },
    {
      "epoch": 14.05,
      "grad_norm": 0.0003105229989159852,
      "learning_rate": 1.2711111111111113e-05,
      "loss": 0.0001,
      "step": 8430
    },
    {
      "epoch": 14.058333333333334,
      "grad_norm": 0.0003301667748019099,
      "learning_rate": 1.2600000000000001e-05,
      "loss": 0.0001,
      "step": 8435
    },
    {
      "epoch": 14.066666666666666,
      "grad_norm": 0.00030807056464254856,
      "learning_rate": 1.248888888888889e-05,
      "loss": 0.0001,
      "step": 8440
    },
    {
      "epoch": 14.075,
      "grad_norm": 0.000438639079220593,
      "learning_rate": 1.237777777777778e-05,
      "loss": 0.0001,
      "step": 8445
    },
    {
      "epoch": 14.083333333333334,
      "grad_norm": 0.000303552282275632,
      "learning_rate": 1.2266666666666667e-05,
      "loss": 0.0001,
      "step": 8450
    },
    {
      "epoch": 14.091666666666667,
      "grad_norm": 0.00038808875251561403,
      "learning_rate": 1.2155555555555555e-05,
      "loss": 0.0001,
      "step": 8455
    },
    {
      "epoch": 14.1,
      "grad_norm": 0.00030307090491987765,
      "learning_rate": 1.2044444444444445e-05,
      "loss": 0.0001,
      "step": 8460
    },
    {
      "epoch": 14.108333333333333,
      "grad_norm": 0.00031208927975967526,
      "learning_rate": 1.1933333333333333e-05,
      "loss": 0.0001,
      "step": 8465
    },
    {
      "epoch": 14.116666666666667,
      "grad_norm": 0.00038164693978615105,
      "learning_rate": 1.1822222222222223e-05,
      "loss": 0.0001,
      "step": 8470
    },
    {
      "epoch": 14.125,
      "grad_norm": 0.00033908564364537597,
      "learning_rate": 1.1711111111111111e-05,
      "loss": 0.0001,
      "step": 8475
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.0003435859107412398,
      "learning_rate": 1.16e-05,
      "loss": 0.0001,
      "step": 8480
    },
    {
      "epoch": 14.141666666666667,
      "grad_norm": 0.00032262178137898445,
      "learning_rate": 1.1488888888888889e-05,
      "loss": 0.0001,
      "step": 8485
    },
    {
      "epoch": 14.15,
      "grad_norm": 0.00034588633570820093,
      "learning_rate": 1.1377777777777779e-05,
      "loss": 0.0001,
      "step": 8490
    },
    {
      "epoch": 14.158333333333333,
      "grad_norm": 0.0003053388500120491,
      "learning_rate": 1.1266666666666667e-05,
      "loss": 0.0001,
      "step": 8495
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.00030523905297741294,
      "learning_rate": 1.1155555555555556e-05,
      "loss": 0.0001,
      "step": 8500
    },
    {
      "epoch": 14.166666666666666,
      "eval_accuracy": 0.8245833333333333,
      "eval_f1": 0.8257507602418821,
      "eval_loss": 1.4163964986801147,
      "eval_precision": 0.8577969518835461,
      "eval_recall": 0.8245833333333333,
      "eval_runtime": 18.1038,
      "eval_samples_per_second": 132.569,
      "eval_steps_per_second": 16.571,
      "step": 8500
    },
    {
      "epoch": 14.175,
      "grad_norm": 0.0003181042557116598,
      "learning_rate": 1.1044444444444444e-05,
      "loss": 0.0001,
      "step": 8505
    },
    {
      "epoch": 14.183333333333334,
      "grad_norm": 0.0003221993974875659,
      "learning_rate": 1.0933333333333334e-05,
      "loss": 0.0001,
      "step": 8510
    },
    {
      "epoch": 14.191666666666666,
      "grad_norm": 0.00032941889367066324,
      "learning_rate": 1.0822222222222222e-05,
      "loss": 0.0001,
      "step": 8515
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.0003109782701358199,
      "learning_rate": 1.0711111111111112e-05,
      "loss": 0.0001,
      "step": 8520
    },
    {
      "epoch": 14.208333333333334,
      "grad_norm": 0.0003156247257720679,
      "learning_rate": 1.06e-05,
      "loss": 0.0001,
      "step": 8525
    },
    {
      "epoch": 14.216666666666667,
      "grad_norm": 0.00030126390629447997,
      "learning_rate": 1.048888888888889e-05,
      "loss": 0.0001,
      "step": 8530
    },
    {
      "epoch": 14.225,
      "grad_norm": 0.0002982111764140427,
      "learning_rate": 1.0377777777777778e-05,
      "loss": 0.0001,
      "step": 8535
    },
    {
      "epoch": 14.233333333333333,
      "grad_norm": 0.00031460245372727513,
      "learning_rate": 1.0266666666666668e-05,
      "loss": 0.0001,
      "step": 8540
    },
    {
      "epoch": 14.241666666666667,
      "grad_norm": 0.00039774749893695116,
      "learning_rate": 1.0155555555555556e-05,
      "loss": 0.0001,
      "step": 8545
    },
    {
      "epoch": 14.25,
      "grad_norm": 0.0006752362241968513,
      "learning_rate": 1.0044444444444446e-05,
      "loss": 0.0001,
      "step": 8550
    },
    {
      "epoch": 14.258333333333333,
      "grad_norm": 0.0003350953629706055,
      "learning_rate": 9.933333333333334e-06,
      "loss": 0.0001,
      "step": 8555
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.0003047759528271854,
      "learning_rate": 9.822222222222223e-06,
      "loss": 0.0001,
      "step": 8560
    },
    {
      "epoch": 14.275,
      "grad_norm": 0.0003133053833153099,
      "learning_rate": 9.711111111111111e-06,
      "loss": 0.0001,
      "step": 8565
    },
    {
      "epoch": 14.283333333333333,
      "grad_norm": 0.00048779763164930046,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.0001,
      "step": 8570
    },
    {
      "epoch": 14.291666666666666,
      "grad_norm": 0.0003029101644642651,
      "learning_rate": 9.48888888888889e-06,
      "loss": 0.0001,
      "step": 8575
    },
    {
      "epoch": 14.3,
      "grad_norm": 0.0002853863115888089,
      "learning_rate": 9.377777777777779e-06,
      "loss": 0.0001,
      "step": 8580
    },
    {
      "epoch": 14.308333333333334,
      "grad_norm": 0.0004367511428426951,
      "learning_rate": 9.266666666666667e-06,
      "loss": 0.0001,
      "step": 8585
    },
    {
      "epoch": 14.316666666666666,
      "grad_norm": 0.0003608675906434655,
      "learning_rate": 9.155555555555557e-06,
      "loss": 0.0001,
      "step": 8590
    },
    {
      "epoch": 14.325,
      "grad_norm": 0.0002870437456294894,
      "learning_rate": 9.044444444444445e-06,
      "loss": 0.0001,
      "step": 8595
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.001796862343326211,
      "learning_rate": 8.933333333333333e-06,
      "loss": 0.0001,
      "step": 8600
    },
    {
      "epoch": 14.333333333333334,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8253917352526898,
      "eval_loss": 1.4175758361816406,
      "eval_precision": 0.8573827901425399,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.3716,
      "eval_samples_per_second": 130.637,
      "eval_steps_per_second": 16.33,
      "step": 8600
    },
    {
      "epoch": 14.341666666666667,
      "grad_norm": 0.0003142754139844328,
      "learning_rate": 8.822222222222223e-06,
      "loss": 0.0001,
      "step": 8605
    },
    {
      "epoch": 14.35,
      "grad_norm": 0.0003916557179763913,
      "learning_rate": 8.711111111111111e-06,
      "loss": 0.0001,
      "step": 8610
    },
    {
      "epoch": 14.358333333333333,
      "grad_norm": 0.0003419801651034504,
      "learning_rate": 8.599999999999999e-06,
      "loss": 0.0001,
      "step": 8615
    },
    {
      "epoch": 14.366666666666667,
      "grad_norm": 0.0002934688818641007,
      "learning_rate": 8.488888888888889e-06,
      "loss": 0.0001,
      "step": 8620
    },
    {
      "epoch": 14.375,
      "grad_norm": 0.00040784775046631694,
      "learning_rate": 8.377777777777779e-06,
      "loss": 0.0001,
      "step": 8625
    },
    {
      "epoch": 14.383333333333333,
      "grad_norm": 0.00032440759241580963,
      "learning_rate": 8.266666666666667e-06,
      "loss": 0.0001,
      "step": 8630
    },
    {
      "epoch": 14.391666666666667,
      "grad_norm": 0.0002910681942012161,
      "learning_rate": 8.155555555555556e-06,
      "loss": 0.0001,
      "step": 8635
    },
    {
      "epoch": 14.4,
      "grad_norm": 0.00038870779098942876,
      "learning_rate": 8.044444444444444e-06,
      "loss": 0.0001,
      "step": 8640
    },
    {
      "epoch": 14.408333333333333,
      "grad_norm": 0.0003435661201365292,
      "learning_rate": 7.933333333333334e-06,
      "loss": 0.0001,
      "step": 8645
    },
    {
      "epoch": 14.416666666666666,
      "grad_norm": 0.0003127196978311986,
      "learning_rate": 7.822222222222222e-06,
      "loss": 0.0001,
      "step": 8650
    },
    {
      "epoch": 14.425,
      "grad_norm": 0.0003209597198292613,
      "learning_rate": 7.711111111111112e-06,
      "loss": 0.0001,
      "step": 8655
    },
    {
      "epoch": 14.433333333333334,
      "grad_norm": 0.0003321100666653365,
      "learning_rate": 7.6e-06,
      "loss": 0.0001,
      "step": 8660
    },
    {
      "epoch": 14.441666666666666,
      "grad_norm": 0.00030726054683327675,
      "learning_rate": 7.48888888888889e-06,
      "loss": 0.0001,
      "step": 8665
    },
    {
      "epoch": 14.45,
      "grad_norm": 0.00032573178759776056,
      "learning_rate": 7.377777777777778e-06,
      "loss": 0.0001,
      "step": 8670
    },
    {
      "epoch": 14.458333333333334,
      "grad_norm": 0.0002996810944750905,
      "learning_rate": 7.266666666666668e-06,
      "loss": 0.0001,
      "step": 8675
    },
    {
      "epoch": 14.466666666666667,
      "grad_norm": 0.00046270564780570567,
      "learning_rate": 7.155555555555556e-06,
      "loss": 0.0001,
      "step": 8680
    },
    {
      "epoch": 14.475,
      "grad_norm": 0.00030952150700613856,
      "learning_rate": 7.0444444444444455e-06,
      "loss": 0.0001,
      "step": 8685
    },
    {
      "epoch": 14.483333333333333,
      "grad_norm": 0.00033105345210060477,
      "learning_rate": 6.933333333333334e-06,
      "loss": 0.0001,
      "step": 8690
    },
    {
      "epoch": 14.491666666666667,
      "grad_norm": 0.00032249282230623066,
      "learning_rate": 6.8222222222222225e-06,
      "loss": 0.0001,
      "step": 8695
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.00029874773463234305,
      "learning_rate": 6.711111111111111e-06,
      "loss": 0.0001,
      "step": 8700
    },
    {
      "epoch": 14.5,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8253917352526898,
      "eval_loss": 1.418643593788147,
      "eval_precision": 0.8573827901425399,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 20.2639,
      "eval_samples_per_second": 118.437,
      "eval_steps_per_second": 14.805,
      "step": 8700
    },
    {
      "epoch": 14.508333333333333,
      "grad_norm": 0.0003288841980975121,
      "learning_rate": 6.6e-06,
      "loss": 0.0001,
      "step": 8705
    },
    {
      "epoch": 14.516666666666667,
      "grad_norm": 0.00032262009335681796,
      "learning_rate": 6.488888888888888e-06,
      "loss": 0.0001,
      "step": 8710
    },
    {
      "epoch": 14.525,
      "grad_norm": 0.0004114665789529681,
      "learning_rate": 6.377777777777778e-06,
      "loss": 0.0001,
      "step": 8715
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.00032446839031763375,
      "learning_rate": 6.266666666666666e-06,
      "loss": 0.0001,
      "step": 8720
    },
    {
      "epoch": 14.541666666666666,
      "grad_norm": 0.00039629387902095914,
      "learning_rate": 6.155555555555556e-06,
      "loss": 0.0001,
      "step": 8725
    },
    {
      "epoch": 14.55,
      "grad_norm": 0.000456485926406458,
      "learning_rate": 6.044444444444445e-06,
      "loss": 0.0001,
      "step": 8730
    },
    {
      "epoch": 14.558333333333334,
      "grad_norm": 0.00033100374275818467,
      "learning_rate": 5.933333333333334e-06,
      "loss": 0.0001,
      "step": 8735
    },
    {
      "epoch": 14.566666666666666,
      "grad_norm": 0.0003677963395603001,
      "learning_rate": 5.822222222222223e-06,
      "loss": 0.0001,
      "step": 8740
    },
    {
      "epoch": 14.575,
      "grad_norm": 0.00029217012342996895,
      "learning_rate": 5.711111111111112e-06,
      "loss": 0.0001,
      "step": 8745
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.00029486248968169093,
      "learning_rate": 5.600000000000001e-06,
      "loss": 0.0001,
      "step": 8750
    },
    {
      "epoch": 14.591666666666667,
      "grad_norm": 0.00033162676845677197,
      "learning_rate": 5.4888888888888895e-06,
      "loss": 0.0001,
      "step": 8755
    },
    {
      "epoch": 14.6,
      "grad_norm": 0.0005571521469391882,
      "learning_rate": 5.3777777777777784e-06,
      "loss": 0.0001,
      "step": 8760
    },
    {
      "epoch": 14.608333333333333,
      "grad_norm": 0.00029558796086348593,
      "learning_rate": 5.266666666666667e-06,
      "loss": 0.0001,
      "step": 8765
    },
    {
      "epoch": 14.616666666666667,
      "grad_norm": 0.00031574894092045724,
      "learning_rate": 5.155555555555555e-06,
      "loss": 0.0001,
      "step": 8770
    },
    {
      "epoch": 14.625,
      "grad_norm": 0.00040991679998114705,
      "learning_rate": 5.044444444444444e-06,
      "loss": 0.0001,
      "step": 8775
    },
    {
      "epoch": 14.633333333333333,
      "grad_norm": 0.00031708585447631776,
      "learning_rate": 4.933333333333333e-06,
      "loss": 0.0001,
      "step": 8780
    },
    {
      "epoch": 14.641666666666667,
      "grad_norm": 0.00039245927473530173,
      "learning_rate": 4.822222222222222e-06,
      "loss": 0.0001,
      "step": 8785
    },
    {
      "epoch": 14.65,
      "grad_norm": 0.0003353845386300236,
      "learning_rate": 4.711111111111111e-06,
      "loss": 0.0001,
      "step": 8790
    },
    {
      "epoch": 14.658333333333333,
      "grad_norm": 0.000453892134828493,
      "learning_rate": 4.6e-06,
      "loss": 0.0001,
      "step": 8795
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.00033166087814606726,
      "learning_rate": 4.488888888888889e-06,
      "loss": 0.0001,
      "step": 8800
    },
    {
      "epoch": 14.666666666666666,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8253917352526898,
      "eval_loss": 1.419190526008606,
      "eval_precision": 0.8573827901425399,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 19.6179,
      "eval_samples_per_second": 122.337,
      "eval_steps_per_second": 15.292,
      "step": 8800
    },
    {
      "epoch": 14.675,
      "grad_norm": 0.00032048451248556376,
      "learning_rate": 4.377777777777778e-06,
      "loss": 0.0001,
      "step": 8805
    },
    {
      "epoch": 14.683333333333334,
      "grad_norm": 0.00042022488196380436,
      "learning_rate": 4.266666666666667e-06,
      "loss": 0.0001,
      "step": 8810
    },
    {
      "epoch": 14.691666666666666,
      "grad_norm": 0.000267522205831483,
      "learning_rate": 4.155555555555556e-06,
      "loss": 0.0001,
      "step": 8815
    },
    {
      "epoch": 14.7,
      "grad_norm": 0.0003261179372202605,
      "learning_rate": 4.044444444444445e-06,
      "loss": 0.0001,
      "step": 8820
    },
    {
      "epoch": 14.708333333333334,
      "grad_norm": 0.0003284654812887311,
      "learning_rate": 3.9333333333333335e-06,
      "loss": 0.0001,
      "step": 8825
    },
    {
      "epoch": 14.716666666666667,
      "grad_norm": 0.0003550841938704252,
      "learning_rate": 3.8222222222222224e-06,
      "loss": 0.0001,
      "step": 8830
    },
    {
      "epoch": 14.725,
      "grad_norm": 0.00032094665220938623,
      "learning_rate": 3.711111111111111e-06,
      "loss": 0.0001,
      "step": 8835
    },
    {
      "epoch": 14.733333333333333,
      "grad_norm": 0.00028344575548544526,
      "learning_rate": 3.6e-06,
      "loss": 0.0001,
      "step": 8840
    },
    {
      "epoch": 14.741666666666667,
      "grad_norm": 0.0002945625747088343,
      "learning_rate": 3.4888888888888888e-06,
      "loss": 0.0001,
      "step": 8845
    },
    {
      "epoch": 14.75,
      "grad_norm": 0.0003473708056844771,
      "learning_rate": 3.3777777777777777e-06,
      "loss": 0.0001,
      "step": 8850
    },
    {
      "epoch": 14.758333333333333,
      "grad_norm": 0.0003136787563562393,
      "learning_rate": 3.2666666666666666e-06,
      "loss": 0.0001,
      "step": 8855
    },
    {
      "epoch": 14.766666666666667,
      "grad_norm": 0.00028752823709510267,
      "learning_rate": 3.155555555555556e-06,
      "loss": 0.0001,
      "step": 8860
    },
    {
      "epoch": 14.775,
      "grad_norm": 0.000316179939545691,
      "learning_rate": 3.0444444444444444e-06,
      "loss": 0.0001,
      "step": 8865
    },
    {
      "epoch": 14.783333333333333,
      "grad_norm": 0.00033353944309055805,
      "learning_rate": 2.9333333333333333e-06,
      "loss": 0.0001,
      "step": 8870
    },
    {
      "epoch": 14.791666666666666,
      "grad_norm": 0.00031073138234205544,
      "learning_rate": 2.8222222222222223e-06,
      "loss": 0.0001,
      "step": 8875
    },
    {
      "epoch": 14.8,
      "grad_norm": 0.00041760035674087703,
      "learning_rate": 2.711111111111111e-06,
      "loss": 0.0001,
      "step": 8880
    },
    {
      "epoch": 14.808333333333334,
      "grad_norm": 0.00038239179411903024,
      "learning_rate": 2.6e-06,
      "loss": 0.0001,
      "step": 8885
    },
    {
      "epoch": 14.816666666666666,
      "grad_norm": 0.00038238035631366074,
      "learning_rate": 2.488888888888889e-06,
      "loss": 0.0001,
      "step": 8890
    },
    {
      "epoch": 14.825,
      "grad_norm": 0.0003121039771940559,
      "learning_rate": 2.377777777777778e-06,
      "loss": 0.0001,
      "step": 8895
    },
    {
      "epoch": 14.833333333333334,
      "grad_norm": 0.0003342683194205165,
      "learning_rate": 2.266666666666667e-06,
      "loss": 0.0001,
      "step": 8900
    },
    {
      "epoch": 14.833333333333334,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8253917352526898,
      "eval_loss": 1.4197375774383545,
      "eval_precision": 0.8573827901425399,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.8063,
      "eval_samples_per_second": 127.617,
      "eval_steps_per_second": 15.952,
      "step": 8900
    },
    {
      "epoch": 14.841666666666667,
      "grad_norm": 0.00035432775621302426,
      "learning_rate": 2.1555555555555558e-06,
      "loss": 0.0001,
      "step": 8905
    },
    {
      "epoch": 14.85,
      "grad_norm": 0.00036676027229987085,
      "learning_rate": 2.0444444444444447e-06,
      "loss": 0.0001,
      "step": 8910
    },
    {
      "epoch": 14.858333333333333,
      "grad_norm": 0.00043310420005582273,
      "learning_rate": 1.9333333333333336e-06,
      "loss": 0.0001,
      "step": 8915
    },
    {
      "epoch": 14.866666666666667,
      "grad_norm": 0.00031130158458836377,
      "learning_rate": 1.8222222222222223e-06,
      "loss": 0.0001,
      "step": 8920
    },
    {
      "epoch": 14.875,
      "grad_norm": 0.0002939142577815801,
      "learning_rate": 1.7111111111111112e-06,
      "loss": 0.0001,
      "step": 8925
    },
    {
      "epoch": 14.883333333333333,
      "grad_norm": 0.00038912208401598036,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 0.0001,
      "step": 8930
    },
    {
      "epoch": 14.891666666666667,
      "grad_norm": 0.0003677493950817734,
      "learning_rate": 1.488888888888889e-06,
      "loss": 0.0001,
      "step": 8935
    },
    {
      "epoch": 14.9,
      "grad_norm": 0.00030830351170152426,
      "learning_rate": 1.3777777777777778e-06,
      "loss": 0.0001,
      "step": 8940
    },
    {
      "epoch": 14.908333333333333,
      "grad_norm": 0.00034665281418710947,
      "learning_rate": 1.2666666666666667e-06,
      "loss": 0.0001,
      "step": 8945
    },
    {
      "epoch": 14.916666666666666,
      "grad_norm": 0.00035094842314720154,
      "learning_rate": 1.1555555555555556e-06,
      "loss": 0.0001,
      "step": 8950
    },
    {
      "epoch": 14.925,
      "grad_norm": 0.00031136226607486606,
      "learning_rate": 1.0444444444444445e-06,
      "loss": 0.0001,
      "step": 8955
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.00037354990490712225,
      "learning_rate": 9.333333333333334e-07,
      "loss": 0.0001,
      "step": 8960
    },
    {
      "epoch": 14.941666666666666,
      "grad_norm": 0.00040528515819460154,
      "learning_rate": 8.222222222222223e-07,
      "loss": 0.0001,
      "step": 8965
    },
    {
      "epoch": 14.95,
      "grad_norm": 0.00032020226353779435,
      "learning_rate": 7.111111111111112e-07,
      "loss": 0.0001,
      "step": 8970
    },
    {
      "epoch": 14.958333333333334,
      "grad_norm": 0.0002966771135106683,
      "learning_rate": 6.000000000000001e-07,
      "loss": 0.0001,
      "step": 8975
    },
    {
      "epoch": 14.966666666666667,
      "grad_norm": 0.00030583818443119526,
      "learning_rate": 4.888888888888889e-07,
      "loss": 0.0001,
      "step": 8980
    },
    {
      "epoch": 14.975,
      "grad_norm": 0.00029550286126323044,
      "learning_rate": 3.777777777777778e-07,
      "loss": 0.0001,
      "step": 8985
    },
    {
      "epoch": 14.983333333333333,
      "grad_norm": 0.00028674560599029064,
      "learning_rate": 2.6666666666666667e-07,
      "loss": 0.0001,
      "step": 8990
    },
    {
      "epoch": 14.991666666666667,
      "grad_norm": 0.00027991042588837445,
      "learning_rate": 1.5555555555555556e-07,
      "loss": 0.0001,
      "step": 8995
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.00030722483643330634,
      "learning_rate": 4.444444444444445e-08,
      "loss": 0.0001,
      "step": 9000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.8241666666666667,
      "eval_f1": 0.8253917352526898,
      "eval_loss": 1.4199734926223755,
      "eval_precision": 0.8573827901425399,
      "eval_recall": 0.8241666666666667,
      "eval_runtime": 18.7517,
      "eval_samples_per_second": 127.988,
      "eval_steps_per_second": 15.999,
      "step": 9000
    },
    {
      "epoch": 15.0,
      "step": 9000,
      "total_flos": 1.115924655734784e+19,
      "train_loss": 0.04577389787799782,
      "train_runtime": 3268.1428,
      "train_samples_per_second": 44.062,
      "train_steps_per_second": 2.754
    }
  ],
  "logging_steps": 5,
  "max_steps": 9000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 15,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.115924655734784e+19,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}