{
  "best_metric": 0.4481864273548126,
  "best_model_checkpoint": "vit-base-kidney-stone-5-Jonathan_El-Beze_-w256_1k_v1-_MIX\\checkpoint-600",
  "epoch": 15.0,
  "eval_steps": 100,
  "global_step": 9000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 2.0151748657226562,
      "learning_rate": 0.0001998888888888889,
      "loss": 1.6576,
      "step": 5
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 2.3233230113983154,
      "learning_rate": 0.0001997777777777778,
      "loss": 1.4176,
      "step": 10
    },
    {
      "epoch": 0.025,
      "grad_norm": 2.4521141052246094,
      "learning_rate": 0.00019966666666666668,
      "loss": 1.1802,
      "step": 15
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 1.910316824913025,
      "learning_rate": 0.00019955555555555558,
      "loss": 0.9344,
      "step": 20
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 1.54771888256073,
      "learning_rate": 0.00019944444444444445,
      "loss": 0.7729,
      "step": 25
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.3516550064086914,
      "learning_rate": 0.00019933333333333334,
      "loss": 0.6294,
      "step": 30
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 3.6978862285614014,
      "learning_rate": 0.00019922222222222222,
      "loss": 0.5784,
      "step": 35
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 6.289088726043701,
      "learning_rate": 0.00019911111111111111,
      "loss": 0.5723,
      "step": 40
    },
    {
      "epoch": 0.075,
      "grad_norm": 6.547412872314453,
      "learning_rate": 0.000199,
      "loss": 0.5927,
      "step": 45
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 3.9533019065856934,
      "learning_rate": 0.0001988888888888889,
      "loss": 0.577,
      "step": 50
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 4.7664079666137695,
      "learning_rate": 0.0001987777777777778,
      "loss": 0.4091,
      "step": 55
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8215303421020508,
      "learning_rate": 0.00019866666666666668,
      "loss": 0.3915,
      "step": 60
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 5.420493125915527,
      "learning_rate": 0.00019855555555555555,
      "loss": 0.6069,
      "step": 65
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 3.265394687652588,
      "learning_rate": 0.00019844444444444445,
      "loss": 0.605,
      "step": 70
    },
    {
      "epoch": 0.125,
      "grad_norm": 5.716144561767578,
      "learning_rate": 0.00019833333333333335,
      "loss": 0.5942,
      "step": 75
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 2.3308231830596924,
      "learning_rate": 0.00019822222222222225,
      "loss": 0.5582,
      "step": 80
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 2.209805965423584,
      "learning_rate": 0.00019811111111111112,
      "loss": 0.4925,
      "step": 85
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1179794073104858,
      "learning_rate": 0.00019800000000000002,
      "loss": 0.2075,
      "step": 90
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 1.892861008644104,
      "learning_rate": 0.0001978888888888889,
      "loss": 0.3165,
      "step": 95
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 2.1581900119781494,
      "learning_rate": 0.00019777777777777778,
      "loss": 0.2457,
      "step": 100
    },
    {
      "epoch": 0.16666666666666666,
      "eval_accuracy": 0.8258333333333333,
      "eval_f1": 0.8180108572241755,
      "eval_loss": 0.5382459759712219,
      "eval_precision": 0.838244281793125,
      "eval_recall": 0.8258333333333333,
      "eval_runtime": 17.3244,
      "eval_samples_per_second": 138.533,
      "eval_steps_per_second": 17.317,
      "step": 100
    },
    {
      "epoch": 0.175,
      "grad_norm": 3.714635133743286,
      "learning_rate": 0.00019766666666666666,
      "loss": 0.301,
      "step": 105
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.7843374609947205,
      "learning_rate": 0.00019755555555555555,
      "loss": 0.3558,
      "step": 110
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 0.38035011291503906,
      "learning_rate": 0.00019744444444444445,
      "loss": 0.3077,
      "step": 115
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.897113561630249,
      "learning_rate": 0.00019733333333333335,
      "loss": 0.3058,
      "step": 120
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 14.884307861328125,
      "learning_rate": 0.00019722222222222225,
      "loss": 0.3342,
      "step": 125
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 2.6088204383850098,
      "learning_rate": 0.00019711111111111112,
      "loss": 0.3082,
      "step": 130
    },
    {
      "epoch": 0.225,
      "grad_norm": 2.0172951221466064,
      "learning_rate": 0.00019700000000000002,
      "loss": 0.267,
      "step": 135
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 2.4850337505340576,
      "learning_rate": 0.0001968888888888889,
      "loss": 0.3059,
      "step": 140
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 4.9133219718933105,
      "learning_rate": 0.0001967777777777778,
      "loss": 0.277,
      "step": 145
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.6948211193084717,
      "learning_rate": 0.00019666666666666666,
      "loss": 0.3174,
      "step": 150
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 3.210355520248413,
      "learning_rate": 0.00019655555555555556,
      "loss": 0.294,
      "step": 155
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 4.517940044403076,
      "learning_rate": 0.00019644444444444445,
      "loss": 0.2708,
      "step": 160
    },
    {
      "epoch": 0.275,
      "grad_norm": 4.924372673034668,
      "learning_rate": 0.00019633333333333335,
      "loss": 0.1759,
      "step": 165
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 5.386207580566406,
      "learning_rate": 0.00019622222222222225,
      "loss": 0.3181,
      "step": 170
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 7.9569549560546875,
      "learning_rate": 0.00019611111111111112,
      "loss": 0.3282,
      "step": 175
    },
    {
      "epoch": 0.3,
      "grad_norm": 6.544825077056885,
      "learning_rate": 0.000196,
      "loss": 0.2254,
      "step": 180
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 2.433943033218384,
      "learning_rate": 0.0001958888888888889,
      "loss": 0.1782,
      "step": 185
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 1.1732033491134644,
      "learning_rate": 0.0001957777777777778,
      "loss": 0.2024,
      "step": 190
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.2430170327425003,
      "learning_rate": 0.0001956666666666667,
      "loss": 0.1322,
      "step": 195
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 2.0334067344665527,
      "learning_rate": 0.00019555555555555556,
      "loss": 0.0854,
      "step": 200
    },
    {
      "epoch": 0.3333333333333333,
      "eval_accuracy": 0.7875,
      "eval_f1": 0.7795468641941387,
      "eval_loss": 0.7377088665962219,
      "eval_precision": 0.8421859440134711,
      "eval_recall": 0.7875,
      "eval_runtime": 17.6773,
      "eval_samples_per_second": 135.767,
      "eval_steps_per_second": 16.971,
      "step": 200
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 5.228248596191406,
      "learning_rate": 0.00019544444444444446,
      "loss": 0.1832,
      "step": 205
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.722928285598755,
      "learning_rate": 0.00019533333333333336,
      "loss": 0.3475,
      "step": 210
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 4.3563432693481445,
      "learning_rate": 0.00019522222222222223,
      "loss": 0.513,
      "step": 215
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 7.122325420379639,
      "learning_rate": 0.0001951111111111111,
      "loss": 0.1826,
      "step": 220
    },
    {
      "epoch": 0.375,
      "grad_norm": 5.149264812469482,
      "learning_rate": 0.000195,
      "loss": 0.328,
      "step": 225
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 0.18589343130588531,
      "learning_rate": 0.0001948888888888889,
      "loss": 0.1357,
      "step": 230
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 19.197574615478516,
      "learning_rate": 0.0001948,
      "loss": 0.3585,
      "step": 235
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.6940202713012695,
      "learning_rate": 0.0001946888888888889,
      "loss": 0.4114,
      "step": 240
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 4.40463399887085,
      "learning_rate": 0.0001945777777777778,
      "loss": 0.1095,
      "step": 245
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 5.575969696044922,
      "learning_rate": 0.00019446666666666669,
      "loss": 0.1626,
      "step": 250
    },
    {
      "epoch": 0.425,
      "grad_norm": 3.9409167766571045,
      "learning_rate": 0.00019435555555555556,
      "loss": 0.6107,
      "step": 255
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 7.727848529815674,
      "learning_rate": 0.00019424444444444446,
      "loss": 0.1618,
      "step": 260
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 2.1326913833618164,
      "learning_rate": 0.00019413333333333335,
      "loss": 0.1987,
      "step": 265
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.897132158279419,
      "learning_rate": 0.00019402222222222223,
      "loss": 0.1524,
      "step": 270
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 7.3303327560424805,
      "learning_rate": 0.00019391111111111112,
      "loss": 0.3369,
      "step": 275
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 8.890677452087402,
      "learning_rate": 0.0001938,
      "loss": 0.2162,
      "step": 280
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.164458766579628,
      "learning_rate": 0.0001936888888888889,
      "loss": 0.1226,
      "step": 285
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 1.044877290725708,
      "learning_rate": 0.0001935777777777778,
      "loss": 0.1093,
      "step": 290
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 2.7460777759552,
      "learning_rate": 0.0001934666666666667,
      "loss": 0.099,
      "step": 295
    },
    {
      "epoch": 0.5,
      "grad_norm": 5.280365467071533,
      "learning_rate": 0.00019335555555555556,
      "loss": 0.1279,
      "step": 300
    },
    {
      "epoch": 0.5,
      "eval_accuracy": 0.7883333333333333,
      "eval_f1": 0.7882687935484298,
      "eval_loss": 0.6709940433502197,
      "eval_precision": 0.8567790541008793,
      "eval_recall": 0.7883333333333333,
      "eval_runtime": 17.4535,
      "eval_samples_per_second": 137.508,
      "eval_steps_per_second": 17.189,
      "step": 300
    },
    {
      "epoch": 0.5083333333333333,
      "grad_norm": 6.6346306800842285,
      "learning_rate": 0.00019324444444444446,
      "loss": 0.1524,
      "step": 305
    },
    {
      "epoch": 0.5166666666666667,
      "grad_norm": 16.1156005859375,
      "learning_rate": 0.00019313333333333336,
      "loss": 0.3573,
      "step": 310
    },
    {
      "epoch": 0.525,
      "grad_norm": 4.792377471923828,
      "learning_rate": 0.00019302222222222223,
      "loss": 0.3692,
      "step": 315
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 1.6233325004577637,
      "learning_rate": 0.00019291111111111113,
      "loss": 0.3004,
      "step": 320
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 4.573233127593994,
      "learning_rate": 0.0001928,
      "loss": 0.1901,
      "step": 325
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.11000101268291473,
      "learning_rate": 0.0001926888888888889,
      "loss": 0.1541,
      "step": 330
    },
    {
      "epoch": 0.5583333333333333,
      "grad_norm": 0.26401522755622864,
      "learning_rate": 0.0001925777777777778,
      "loss": 0.112,
      "step": 335
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 1.0159333944320679,
      "learning_rate": 0.0001924666666666667,
      "loss": 0.1319,
      "step": 340
    },
    {
      "epoch": 0.575,
      "grad_norm": 5.7190680503845215,
      "learning_rate": 0.00019235555555555556,
      "loss": 0.2082,
      "step": 345
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 7.511305332183838,
      "learning_rate": 0.00019224444444444446,
      "loss": 0.2818,
      "step": 350
    },
    {
      "epoch": 0.5916666666666667,
      "grad_norm": 2.126477003097534,
      "learning_rate": 0.00019213333333333333,
      "loss": 0.1337,
      "step": 355
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.19633042812347412,
      "learning_rate": 0.00019202222222222223,
      "loss": 0.0838,
      "step": 360
    },
    {
      "epoch": 0.6083333333333333,
      "grad_norm": 3.4972422122955322,
      "learning_rate": 0.00019191111111111113,
      "loss": 0.2178,
      "step": 365
    },
    {
      "epoch": 0.6166666666666667,
      "grad_norm": 5.106044769287109,
      "learning_rate": 0.0001918,
      "loss": 0.2247,
      "step": 370
    },
    {
      "epoch": 0.625,
      "grad_norm": 3.554905652999878,
      "learning_rate": 0.0001916888888888889,
      "loss": 0.2045,
      "step": 375
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 10.975298881530762,
      "learning_rate": 0.0001915777777777778,
      "loss": 0.1743,
      "step": 380
    },
    {
      "epoch": 0.6416666666666667,
      "grad_norm": 1.3391939401626587,
      "learning_rate": 0.0001914666666666667,
      "loss": 0.1749,
      "step": 385
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.061521053314209,
      "learning_rate": 0.00019135555555555557,
      "loss": 0.2233,
      "step": 390
    },
    {
      "epoch": 0.6583333333333333,
      "grad_norm": 5.82518196105957,
      "learning_rate": 0.00019124444444444444,
      "loss": 0.2865,
      "step": 395
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.4280928671360016,
      "learning_rate": 0.00019113333333333334,
      "loss": 0.1442,
      "step": 400
    },
    {
      "epoch": 0.6666666666666666,
      "eval_accuracy": 0.8191666666666667,
      "eval_f1": 0.8191798586282162,
      "eval_loss": 0.5535349249839783,
      "eval_precision": 0.834171393330734,
      "eval_recall": 0.8191666666666667,
      "eval_runtime": 17.4581,
      "eval_samples_per_second": 137.472,
      "eval_steps_per_second": 17.184,
      "step": 400
    },
    {
      "epoch": 0.675,
      "grad_norm": 2.4421956539154053,
      "learning_rate": 0.00019102222222222223,
      "loss": 0.1643,
      "step": 405
    },
    {
      "epoch": 0.6833333333333333,
      "grad_norm": 0.9507102370262146,
      "learning_rate": 0.00019091111111111113,
      "loss": 0.1062,
      "step": 410
    },
    {
      "epoch": 0.6916666666666667,
      "grad_norm": 3.091611862182617,
      "learning_rate": 0.0001908,
      "loss": 0.092,
      "step": 415
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.118267297744751,
      "learning_rate": 0.0001906888888888889,
      "loss": 0.0984,
      "step": 420
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 0.6028767824172974,
      "learning_rate": 0.0001905777777777778,
      "loss": 0.1119,
      "step": 425
    },
    {
      "epoch": 0.7166666666666667,
      "grad_norm": 4.5912766456604,
      "learning_rate": 0.00019046666666666667,
      "loss": 0.038,
      "step": 430
    },
    {
      "epoch": 0.725,
      "grad_norm": 0.07686551660299301,
      "learning_rate": 0.00019035555555555554,
      "loss": 0.1014,
      "step": 435
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 4.039865970611572,
      "learning_rate": 0.00019024444444444444,
      "loss": 0.2411,
      "step": 440
    },
    {
      "epoch": 0.7416666666666667,
      "grad_norm": 1.5955013036727905,
      "learning_rate": 0.00019013333333333334,
      "loss": 0.055,
      "step": 445
    },
    {
      "epoch": 0.75,
      "grad_norm": 5.876543998718262,
      "learning_rate": 0.00019002222222222224,
      "loss": 0.2719,
      "step": 450
    },
    {
      "epoch": 0.7583333333333333,
      "grad_norm": 0.17846155166625977,
      "learning_rate": 0.00018991111111111113,
      "loss": 0.0277,
      "step": 455
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 1.8669077157974243,
      "learning_rate": 0.0001898,
      "loss": 0.1183,
      "step": 460
    },
    {
      "epoch": 0.775,
      "grad_norm": 0.09883430600166321,
      "learning_rate": 0.0001896888888888889,
      "loss": 0.0381,
      "step": 465
    },
    {
      "epoch": 0.7833333333333333,
      "grad_norm": 2.195051908493042,
      "learning_rate": 0.00018957777777777777,
      "loss": 0.0817,
      "step": 470
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 4.305550575256348,
      "learning_rate": 0.00018946666666666667,
      "loss": 0.1127,
      "step": 475
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.606879949569702,
      "learning_rate": 0.00018935555555555557,
      "loss": 0.0533,
      "step": 480
    },
    {
      "epoch": 0.8083333333333333,
      "grad_norm": 0.05592324957251549,
      "learning_rate": 0.00018924444444444444,
      "loss": 0.0198,
      "step": 485
    },
    {
      "epoch": 0.8166666666666667,
      "grad_norm": 1.6200608015060425,
      "learning_rate": 0.00018913333333333334,
      "loss": 0.1213,
      "step": 490
    },
    {
      "epoch": 0.825,
      "grad_norm": 0.4175179898738861,
      "learning_rate": 0.00018902222222222224,
      "loss": 0.0849,
      "step": 495
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 9.535263061523438,
      "learning_rate": 0.00018891111111111114,
      "loss": 0.2868,
      "step": 500
    },
    {
      "epoch": 0.8333333333333334,
      "eval_accuracy": 0.7241666666666666,
      "eval_f1": 0.7163323788300904,
      "eval_loss": 1.0679333209991455,
      "eval_precision": 0.7910099940054888,
      "eval_recall": 0.7241666666666666,
      "eval_runtime": 17.283,
      "eval_samples_per_second": 138.865,
      "eval_steps_per_second": 17.358,
      "step": 500
    },
    {
      "epoch": 0.8416666666666667,
      "grad_norm": 1.141459584236145,
      "learning_rate": 0.0001888,
      "loss": 0.1346,
      "step": 505
    },
    {
      "epoch": 0.85,
      "grad_norm": 6.229131698608398,
      "learning_rate": 0.00018868888888888888,
      "loss": 0.1769,
      "step": 510
    },
    {
      "epoch": 0.8583333333333333,
      "grad_norm": 0.08931858837604523,
      "learning_rate": 0.00018857777777777778,
      "loss": 0.075,
      "step": 515
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 0.030764566734433174,
      "learning_rate": 0.00018846666666666668,
      "loss": 0.1132,
      "step": 520
    },
    {
      "epoch": 0.875,
      "grad_norm": 8.53580379486084,
      "learning_rate": 0.00018835555555555557,
      "loss": 0.0891,
      "step": 525
    },
    {
      "epoch": 0.8833333333333333,
      "grad_norm": 0.2599143981933594,
      "learning_rate": 0.00018824444444444445,
      "loss": 0.1124,
      "step": 530
    },
    {
      "epoch": 0.8916666666666667,
      "grad_norm": 0.05710681155323982,
      "learning_rate": 0.00018813333333333334,
      "loss": 0.0842,
      "step": 535
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.433652400970459,
      "learning_rate": 0.00018802222222222224,
      "loss": 0.052,
      "step": 540
    },
    {
      "epoch": 0.9083333333333333,
      "grad_norm": 0.03913868963718414,
      "learning_rate": 0.00018791111111111114,
      "loss": 0.0234,
      "step": 545
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 0.0716201663017273,
      "learning_rate": 0.0001878,
      "loss": 0.0262,
      "step": 550
    },
    {
      "epoch": 0.925,
      "grad_norm": 7.040970325469971,
      "learning_rate": 0.00018768888888888888,
      "loss": 0.3397,
      "step": 555
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.06572358310222626,
      "learning_rate": 0.00018757777777777778,
      "loss": 0.0888,
      "step": 560
    },
    {
      "epoch": 0.9416666666666667,
      "grad_norm": 12.639195442199707,
      "learning_rate": 0.00018746666666666668,
      "loss": 0.0796,
      "step": 565
    },
    {
      "epoch": 0.95,
      "grad_norm": 11.376768112182617,
      "learning_rate": 0.00018735555555555558,
      "loss": 0.2303,
      "step": 570
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 1.498395323753357,
      "learning_rate": 0.00018724444444444445,
      "loss": 0.3163,
      "step": 575
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 2.414518117904663,
      "learning_rate": 0.00018713333333333335,
      "loss": 0.0223,
      "step": 580
    },
    {
      "epoch": 0.975,
      "grad_norm": 0.9561628103256226,
      "learning_rate": 0.00018702222222222224,
      "loss": 0.1106,
      "step": 585
    },
    {
      "epoch": 0.9833333333333333,
      "grad_norm": 0.2717445194721222,
      "learning_rate": 0.00018691111111111112,
      "loss": 0.1161,
      "step": 590
    },
    {
      "epoch": 0.9916666666666667,
      "grad_norm": 0.03128008171916008,
      "learning_rate": 0.00018680000000000001,
      "loss": 0.013,
      "step": 595
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.04913123697042465,
      "learning_rate": 0.00018668888888888889,
      "loss": 0.1327,
      "step": 600
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.8683333333333333,
      "eval_f1": 0.8687574191428741,
      "eval_loss": 0.4481864273548126,
      "eval_precision": 0.8787821222634132,
      "eval_recall": 0.8683333333333333,
      "eval_runtime": 17.6564,
      "eval_samples_per_second": 135.928,
      "eval_steps_per_second": 16.991,
      "step": 600
    },
    {
      "epoch": 1.0083333333333333,
      "grad_norm": 0.03765168786048889,
      "learning_rate": 0.00018657777777777778,
      "loss": 0.08,
      "step": 605
    },
    {
      "epoch": 1.0166666666666666,
      "grad_norm": 0.03858928382396698,
      "learning_rate": 0.00018646666666666668,
      "loss": 0.2185,
      "step": 610
    },
    {
      "epoch": 1.025,
      "grad_norm": 0.21606023609638214,
      "learning_rate": 0.00018635555555555558,
      "loss": 0.096,
      "step": 615
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 0.7107253670692444,
      "learning_rate": 0.00018624444444444445,
      "loss": 0.0291,
      "step": 620
    },
    {
      "epoch": 1.0416666666666667,
      "grad_norm": 1.072740912437439,
      "learning_rate": 0.00018613333333333335,
      "loss": 0.023,
      "step": 625
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.07553945481777191,
      "learning_rate": 0.00018602222222222222,
      "loss": 0.0095,
      "step": 630
    },
    {
      "epoch": 1.0583333333333333,
      "grad_norm": 0.028653541579842567,
      "learning_rate": 0.00018591111111111112,
      "loss": 0.0576,
      "step": 635
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.18109659850597382,
      "learning_rate": 0.00018580000000000002,
      "loss": 0.1337,
      "step": 640
    },
    {
      "epoch": 1.075,
      "grad_norm": 7.2836174964904785,
      "learning_rate": 0.0001856888888888889,
      "loss": 0.2497,
      "step": 645
    },
    {
      "epoch": 1.0833333333333333,
      "grad_norm": 0.6412332653999329,
      "learning_rate": 0.00018557777777777779,
      "loss": 0.142,
      "step": 650
    },
    {
      "epoch": 1.0916666666666666,
      "grad_norm": 0.05347473546862602,
      "learning_rate": 0.00018546666666666668,
      "loss": 0.1232,
      "step": 655
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.09265585243701935,
      "learning_rate": 0.00018535555555555558,
      "loss": 0.0412,
      "step": 660
    },
    {
      "epoch": 1.1083333333333334,
      "grad_norm": 0.06664226949214935,
      "learning_rate": 0.00018524444444444445,
      "loss": 0.0333,
      "step": 665
    },
    {
      "epoch": 1.1166666666666667,
      "grad_norm": 0.06742794066667557,
      "learning_rate": 0.00018513333333333332,
      "loss": 0.1074,
      "step": 670
    },
    {
      "epoch": 1.125,
      "grad_norm": 3.7746846675872803,
      "learning_rate": 0.00018502222222222222,
      "loss": 0.1256,
      "step": 675
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.047236088663339615,
      "learning_rate": 0.00018491111111111112,
      "loss": 0.0247,
      "step": 680
    },
    {
      "epoch": 1.1416666666666666,
      "grad_norm": 0.5545466542243958,
      "learning_rate": 0.00018480000000000002,
      "loss": 0.0397,
      "step": 685
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.02704450860619545,
      "learning_rate": 0.0001846888888888889,
      "loss": 0.1443,
      "step": 690
    },
    {
      "epoch": 1.1583333333333332,
      "grad_norm": 5.456444263458252,
      "learning_rate": 0.0001845777777777778,
      "loss": 0.1907,
      "step": 695
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 3.137620687484741,
      "learning_rate": 0.0001844666666666667,
      "loss": 0.1097,
      "step": 700
    },
    {
      "epoch": 1.1666666666666667,
      "eval_accuracy": 0.7983333333333333,
      "eval_f1": 0.7897957811135802,
      "eval_loss": 0.8909823894500732,
      "eval_precision": 0.8425445670874936,
      "eval_recall": 0.7983333333333333,
      "eval_runtime": 17.2081,
      "eval_samples_per_second": 139.469,
      "eval_steps_per_second": 17.434,
      "step": 700
    },
    {
      "epoch": 1.175,
      "grad_norm": 2.947194814682007,
      "learning_rate": 0.00018435555555555556,
      "loss": 0.0813,
      "step": 705
    },
    {
      "epoch": 1.1833333333333333,
      "grad_norm": 1.5548855066299438,
      "learning_rate": 0.00018424444444444446,
      "loss": 0.1679,
      "step": 710
    },
    {
      "epoch": 1.1916666666666667,
      "grad_norm": 15.038339614868164,
      "learning_rate": 0.00018413333333333333,
      "loss": 0.1287,
      "step": 715
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.398819923400879,
      "learning_rate": 0.00018402222222222223,
      "loss": 0.0764,
      "step": 720
    },
    {
      "epoch": 1.2083333333333333,
      "grad_norm": 7.855409145355225,
      "learning_rate": 0.00018391111111111112,
      "loss": 0.3068,
      "step": 725
    },
    {
      "epoch": 1.2166666666666668,
      "grad_norm": 2.390097141265869,
      "learning_rate": 0.00018380000000000002,
      "loss": 0.1531,
      "step": 730
    },
    {
      "epoch": 1.225,
      "grad_norm": 6.481125831604004,
      "learning_rate": 0.0001836888888888889,
      "loss": 0.1017,
      "step": 735
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 0.17325857281684875,
      "learning_rate": 0.0001835777777777778,
      "loss": 0.029,
      "step": 740
    },
    {
      "epoch": 1.2416666666666667,
      "grad_norm": 0.09312787652015686,
      "learning_rate": 0.00018346666666666666,
      "loss": 0.0836,
      "step": 745
    },
    {
      "epoch": 1.25,
      "grad_norm": 9.388659477233887,
      "learning_rate": 0.00018335555555555556,
      "loss": 0.144,
      "step": 750
    },
    {
      "epoch": 1.2583333333333333,
      "grad_norm": 3.9371578693389893,
      "learning_rate": 0.00018324444444444446,
      "loss": 0.1647,
      "step": 755
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 9.179794311523438,
      "learning_rate": 0.00018313333333333333,
      "loss": 0.1303,
      "step": 760
    },
    {
      "epoch": 1.275,
      "grad_norm": 0.09511745721101761,
      "learning_rate": 0.00018302222222222223,
      "loss": 0.0407,
      "step": 765
    },
    {
      "epoch": 1.2833333333333332,
      "grad_norm": 3.644827365875244,
      "learning_rate": 0.00018291111111111113,
      "loss": 0.0577,
      "step": 770
    },
    {
      "epoch": 1.2916666666666667,
      "grad_norm": 0.13519428670406342,
      "learning_rate": 0.00018280000000000003,
      "loss": 0.0296,
      "step": 775
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.2566520869731903,
      "learning_rate": 0.0001826888888888889,
      "loss": 0.0741,
      "step": 780
    },
    {
      "epoch": 1.3083333333333333,
      "grad_norm": 0.1281975656747818,
      "learning_rate": 0.00018257777777777777,
      "loss": 0.0594,
      "step": 785
    },
    {
      "epoch": 1.3166666666666667,
      "grad_norm": 0.06842482089996338,
      "learning_rate": 0.00018246666666666667,
      "loss": 0.1323,
      "step": 790
    },
    {
      "epoch": 1.325,
      "grad_norm": 2.009061574935913,
      "learning_rate": 0.00018235555555555556,
      "loss": 0.1678,
      "step": 795
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 1.7157819271087646,
      "learning_rate": 0.00018224444444444446,
      "loss": 0.0725,
      "step": 800
    },
    {
      "epoch": 1.3333333333333333,
      "eval_accuracy": 0.80375,
      "eval_f1": 0.801523060356814,
      "eval_loss": 0.6815734505653381,
      "eval_precision": 0.8374703499827731,
      "eval_recall": 0.80375,
      "eval_runtime": 17.6043,
      "eval_samples_per_second": 136.33,
      "eval_steps_per_second": 17.041,
      "step": 800
    },
    {
      "epoch": 1.3416666666666668,
      "grad_norm": 0.08213325589895248,
      "learning_rate": 0.00018213333333333333,
      "loss": 0.0073,
      "step": 805
    },
    {
      "epoch": 1.35,
      "grad_norm": 5.079579830169678,
      "learning_rate": 0.00018202222222222223,
      "loss": 0.1007,
      "step": 810
    },
    {
      "epoch": 1.3583333333333334,
      "grad_norm": 0.07957105338573456,
      "learning_rate": 0.00018191111111111113,
      "loss": 0.0382,
      "step": 815
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 0.11934405565261841,
      "learning_rate": 0.00018180000000000003,
      "loss": 0.07,
      "step": 820
    },
    {
      "epoch": 1.375,
      "grad_norm": 0.02087678760290146,
      "learning_rate": 0.0001816888888888889,
      "loss": 0.117,
      "step": 825
    },
    {
      "epoch": 1.3833333333333333,
      "grad_norm": 0.02777051366865635,
      "learning_rate": 0.00018157777777777777,
      "loss": 0.0737,
      "step": 830
    },
    {
      "epoch": 1.3916666666666666,
      "grad_norm": 0.021936114877462387,
      "learning_rate": 0.00018146666666666667,
      "loss": 0.0071,
      "step": 835
    },
    {
      "epoch": 1.4,
      "grad_norm": 12.850749969482422,
      "learning_rate": 0.00018135555555555557,
      "loss": 0.142,
      "step": 840
    },
    {
      "epoch": 1.4083333333333332,
      "grad_norm": 0.0617874339222908,
      "learning_rate": 0.00018124444444444446,
      "loss": 0.0067,
      "step": 845
    },
    {
      "epoch": 1.4166666666666667,
      "grad_norm": 0.025914710015058517,
      "learning_rate": 0.00018113333333333334,
      "loss": 0.132,
      "step": 850
    },
    {
      "epoch": 1.425,
      "grad_norm": 0.029414799064397812,
      "learning_rate": 0.00018102222222222223,
      "loss": 0.0058,
      "step": 855
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 3.555971384048462,
      "learning_rate": 0.00018091111111111113,
      "loss": 0.0462,
      "step": 860
    },
    {
      "epoch": 1.4416666666666667,
      "grad_norm": 0.034018199890851974,
      "learning_rate": 0.0001808,
      "loss": 0.0466,
      "step": 865
    },
    {
      "epoch": 1.45,
      "grad_norm": 2.613848924636841,
      "learning_rate": 0.0001806888888888889,
      "loss": 0.0894,
      "step": 870
    },
    {
      "epoch": 1.4583333333333333,
      "grad_norm": 0.7961679697036743,
      "learning_rate": 0.00018057777777777777,
      "loss": 0.1318,
      "step": 875
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.025080785155296326,
      "learning_rate": 0.00018046666666666667,
      "loss": 0.1379,
      "step": 880
    },
    {
      "epoch": 1.475,
      "grad_norm": 0.027445167303085327,
      "learning_rate": 0.00018035555555555557,
      "loss": 0.105,
      "step": 885
    },
    {
      "epoch": 1.4833333333333334,
      "grad_norm": 0.022734668105840683,
      "learning_rate": 0.00018024444444444447,
      "loss": 0.1225,
      "step": 890
    },
    {
      "epoch": 1.4916666666666667,
      "grad_norm": 9.632702827453613,
      "learning_rate": 0.00018013333333333334,
      "loss": 0.1103,
      "step": 895
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.04573146253824234,
      "learning_rate": 0.00018002222222222224,
      "loss": 0.0152,
      "step": 900
    },
    {
      "epoch": 1.5,
      "eval_accuracy": 0.8175,
      "eval_f1": 0.8169362346083151,
      "eval_loss": 0.8366199731826782,
      "eval_precision": 0.8465971514889181,
      "eval_recall": 0.8175,
      "eval_runtime": 17.2503,
      "eval_samples_per_second": 139.128,
      "eval_steps_per_second": 17.391,
      "step": 900
    },
    {
      "epoch": 1.5083333333333333,
      "grad_norm": 6.602771282196045,
      "learning_rate": 0.0001799111111111111,
      "loss": 0.0468,
      "step": 905
    },
    {
      "epoch": 1.5166666666666666,
      "grad_norm": 0.01466680970042944,
      "learning_rate": 0.0001798,
      "loss": 0.0307,
      "step": 910
    },
    {
      "epoch": 1.525,
      "grad_norm": 0.12297764420509338,
      "learning_rate": 0.0001796888888888889,
      "loss": 0.0061,
      "step": 915
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.03282426297664642,
      "learning_rate": 0.00017957777777777778,
      "loss": 0.0441,
      "step": 920
    },
    {
      "epoch": 1.5416666666666665,
      "grad_norm": 6.4928436279296875,
      "learning_rate": 0.00017946666666666667,
      "loss": 0.2488,
      "step": 925
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.02625608630478382,
      "learning_rate": 0.00017935555555555557,
      "loss": 0.0855,
      "step": 930
    },
    {
      "epoch": 1.5583333333333333,
      "grad_norm": 6.760549545288086,
      "learning_rate": 0.00017924444444444447,
      "loss": 0.1417,
      "step": 935
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 3.9812073707580566,
      "learning_rate": 0.00017913333333333334,
      "loss": 0.2004,
      "step": 940
    },
    {
      "epoch": 1.575,
      "grad_norm": 1.551741361618042,
      "learning_rate": 0.0001790222222222222,
      "loss": 0.0811,
      "step": 945
    },
    {
      "epoch": 1.5833333333333335,
      "grad_norm": 6.605048179626465,
      "learning_rate": 0.0001789111111111111,
      "loss": 0.0581,
      "step": 950
    },
    {
      "epoch": 1.5916666666666668,
      "grad_norm": 0.7076789140701294,
      "learning_rate": 0.0001788,
      "loss": 0.0819,
      "step": 955
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.028274603188037872,
      "learning_rate": 0.0001786888888888889,
      "loss": 0.0777,
      "step": 960
    },
    {
      "epoch": 1.6083333333333334,
      "grad_norm": 2.455617666244507,
      "learning_rate": 0.00017857777777777778,
      "loss": 0.0966,
      "step": 965
    },
    {
      "epoch": 1.6166666666666667,
      "grad_norm": 0.02224380522966385,
      "learning_rate": 0.00017846666666666668,
      "loss": 0.0115,
      "step": 970
    },
    {
      "epoch": 1.625,
      "grad_norm": 0.13021917641162872,
      "learning_rate": 0.00017835555555555558,
      "loss": 0.0217,
      "step": 975
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 2.0325050354003906,
      "learning_rate": 0.00017824444444444445,
      "loss": 0.0423,
      "step": 980
    },
    {
      "epoch": 1.6416666666666666,
      "grad_norm": 0.5278506875038147,
      "learning_rate": 0.00017813333333333334,
      "loss": 0.1014,
      "step": 985
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.8745790719985962,
      "learning_rate": 0.00017802222222222222,
      "loss": 0.0147,
      "step": 990
    },
    {
      "epoch": 1.6583333333333332,
      "grad_norm": 0.2445397973060608,
      "learning_rate": 0.00017791111111111111,
      "loss": 0.0552,
      "step": 995
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.4065566062927246,
      "learning_rate": 0.0001778,
      "loss": 0.0057,
      "step": 1000
    },
    {
      "epoch": 1.6666666666666665,
      "eval_accuracy": 0.88125,
      "eval_f1": 0.8809979747199409,
      "eval_loss": 0.5297861695289612,
      "eval_precision": 0.8924236186607715,
      "eval_recall": 0.88125,
      "eval_runtime": 17.5271,
      "eval_samples_per_second": 136.931,
      "eval_steps_per_second": 17.116,
      "step": 1000
    },
    {
      "epoch": 1.675,
      "grad_norm": 0.07019585371017456,
      "learning_rate": 0.0001776888888888889,
      "loss": 0.0043,
      "step": 1005
    },
    {
      "epoch": 1.6833333333333333,
      "grad_norm": 0.6984423398971558,
      "learning_rate": 0.00017757777777777778,
      "loss": 0.034,
      "step": 1010
    },
    {
      "epoch": 1.6916666666666667,
      "grad_norm": 5.548788547515869,
      "learning_rate": 0.00017746666666666668,
      "loss": 0.0168,
      "step": 1015
    },
    {
      "epoch": 1.7,
      "grad_norm": 16.442541122436523,
      "learning_rate": 0.00017735555555555555,
      "loss": 0.1909,
      "step": 1020
    },
    {
      "epoch": 1.7083333333333335,
      "grad_norm": 0.017785781994462013,
      "learning_rate": 0.00017724444444444445,
      "loss": 0.003,
      "step": 1025
    },
    {
      "epoch": 1.7166666666666668,
      "grad_norm": 0.08616127073764801,
      "learning_rate": 0.00017713333333333335,
      "loss": 0.0042,
      "step": 1030
    },
    {
      "epoch": 1.725,
      "grad_norm": 0.08967293798923492,
      "learning_rate": 0.00017702222222222222,
      "loss": 0.005,
      "step": 1035
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.2752644717693329,
      "learning_rate": 0.00017691111111111112,
      "loss": 0.0033,
      "step": 1040
    },
    {
      "epoch": 1.7416666666666667,
      "grad_norm": 0.009617485105991364,
      "learning_rate": 0.00017680000000000001,
      "loss": 0.1321,
      "step": 1045
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.7104824185371399,
      "learning_rate": 0.0001766888888888889,
      "loss": 0.1278,
      "step": 1050
    },
    {
      "epoch": 1.7583333333333333,
      "grad_norm": 0.01274389773607254,
      "learning_rate": 0.00017657777777777778,
      "loss": 0.0614,
      "step": 1055
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 0.015616457909345627,
      "learning_rate": 0.00017646666666666668,
      "loss": 0.0041,
      "step": 1060
    },
    {
      "epoch": 1.775,
      "grad_norm": 4.984201431274414,
      "learning_rate": 0.00017635555555555555,
      "loss": 0.0206,
      "step": 1065
    },
    {
      "epoch": 1.7833333333333332,
      "grad_norm": 4.2337446212768555,
      "learning_rate": 0.00017624444444444445,
      "loss": 0.0594,
      "step": 1070
    },
    {
      "epoch": 1.7916666666666665,
      "grad_norm": 0.023833639919757843,
      "learning_rate": 0.00017613333333333335,
      "loss": 0.1098,
      "step": 1075
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2118522822856903,
      "learning_rate": 0.00017602222222222222,
      "loss": 0.0074,
      "step": 1080
    },
    {
      "epoch": 1.8083333333333333,
      "grad_norm": 0.03874189034104347,
      "learning_rate": 0.00017591111111111112,
      "loss": 0.0066,
      "step": 1085
    },
    {
      "epoch": 1.8166666666666667,
      "grad_norm": 14.609126091003418,
      "learning_rate": 0.00017580000000000002,
      "loss": 0.0899,
      "step": 1090
    },
    {
      "epoch": 1.825,
      "grad_norm": 2.290257453918457,
      "learning_rate": 0.00017568888888888892,
      "loss": 0.0337,
      "step": 1095
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.02271149680018425,
      "learning_rate": 0.0001755777777777778,
      "loss": 0.0804,
      "step": 1100
    },
    {
      "epoch": 1.8333333333333335,
      "eval_accuracy": 0.7425,
      "eval_f1": 0.7228483556984977,
      "eval_loss": 1.1548962593078613,
      "eval_precision": 0.8162211465323808,
      "eval_recall": 0.7425,
      "eval_runtime": 17.2608,
      "eval_samples_per_second": 139.043,
      "eval_steps_per_second": 17.38,
      "step": 1100
    },
    {
      "epoch": 1.8416666666666668,
      "grad_norm": 5.144294738769531,
      "learning_rate": 0.00017546666666666666,
      "loss": 0.1973,
      "step": 1105
    },
    {
      "epoch": 1.85,
      "grad_norm": 7.186880111694336,
      "learning_rate": 0.00017535555555555556,
      "loss": 0.0492,
      "step": 1110
    },
    {
      "epoch": 1.8583333333333334,
      "grad_norm": 0.046076491475105286,
      "learning_rate": 0.00017524444444444445,
      "loss": 0.0457,
      "step": 1115
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.6731722354888916,
      "learning_rate": 0.00017513333333333335,
      "loss": 0.0081,
      "step": 1120
    },
    {
      "epoch": 1.875,
      "grad_norm": 5.9906439781188965,
      "learning_rate": 0.00017502222222222222,
      "loss": 0.0539,
      "step": 1125
    },
    {
      "epoch": 1.8833333333333333,
      "grad_norm": 0.03651962801814079,
      "learning_rate": 0.00017491111111111112,
      "loss": 0.0835,
      "step": 1130
    },
    {
      "epoch": 1.8916666666666666,
      "grad_norm": 2.5684845447540283,
      "learning_rate": 0.00017480000000000002,
      "loss": 0.0077,
      "step": 1135
    },
    {
      "epoch": 1.9,
      "grad_norm": 7.191393852233887,
      "learning_rate": 0.0001746888888888889,
      "loss": 0.0363,
      "step": 1140
    },
    {
      "epoch": 1.9083333333333332,
      "grad_norm": 0.009585252031683922,
      "learning_rate": 0.0001745777777777778,
      "loss": 0.0034,
      "step": 1145
    },
    {
      "epoch": 1.9166666666666665,
      "grad_norm": 0.09833250194787979,
      "learning_rate": 0.00017446666666666666,
      "loss": 0.0645,
      "step": 1150
    },
    {
      "epoch": 1.925,
      "grad_norm": 4.119343280792236,
      "learning_rate": 0.00017435555555555556,
      "loss": 0.104,
      "step": 1155
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.014504649676382542,
      "learning_rate": 0.00017424444444444446,
      "loss": 0.0437,
      "step": 1160
    },
    {
      "epoch": 1.9416666666666667,
      "grad_norm": 3.8112473487854004,
      "learning_rate": 0.00017413333333333336,
      "loss": 0.0624,
      "step": 1165
    },
    {
      "epoch": 1.95,
      "grad_norm": 4.600423336029053,
      "learning_rate": 0.00017402222222222223,
      "loss": 0.0157,
      "step": 1170
    },
    {
      "epoch": 1.9583333333333335,
      "grad_norm": 0.5576470494270325,
      "learning_rate": 0.00017391111111111113,
      "loss": 0.0707,
      "step": 1175
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 0.06581258028745651,
      "learning_rate": 0.0001738,
      "loss": 0.0383,
      "step": 1180
    },
    {
      "epoch": 1.975,
      "grad_norm": 0.024063002318143845,
      "learning_rate": 0.0001736888888888889,
      "loss": 0.0892,
      "step": 1185
    },
    {
      "epoch": 1.9833333333333334,
      "grad_norm": 0.11356136202812195,
      "learning_rate": 0.0001735777777777778,
      "loss": 0.1196,
      "step": 1190
    },
    {
      "epoch": 1.9916666666666667,
      "grad_norm": 8.21043586730957,
      "learning_rate": 0.00017346666666666666,
      "loss": 0.3884,
      "step": 1195
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.0470291376113892,
      "learning_rate": 0.00017335555555555556,
      "loss": 0.0655,
      "step": 1200
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.795,
      "eval_f1": 0.790720427646332,
      "eval_loss": 0.9445087909698486,
      "eval_precision": 0.8350101535057042,
      "eval_recall": 0.795,
      "eval_runtime": 17.5796,
      "eval_samples_per_second": 136.522,
      "eval_steps_per_second": 17.065,
      "step": 1200
    },
    {
      "epoch": 2.0083333333333333,
      "grad_norm": 3.314819574356079,
      "learning_rate": 0.00017324444444444446,
      "loss": 0.0704,
      "step": 1205
    },
    {
      "epoch": 2.0166666666666666,
      "grad_norm": 0.01590251363813877,
      "learning_rate": 0.00017313333333333336,
      "loss": 0.1632,
      "step": 1210
    },
    {
      "epoch": 2.025,
      "grad_norm": 1.4403929710388184,
      "learning_rate": 0.00017302222222222223,
      "loss": 0.082,
      "step": 1215
    },
    {
      "epoch": 2.033333333333333,
      "grad_norm": 0.02522379346191883,
      "learning_rate": 0.0001729111111111111,
      "loss": 0.0791,
      "step": 1220
    },
    {
      "epoch": 2.0416666666666665,
      "grad_norm": 0.018324781209230423,
      "learning_rate": 0.0001728,
      "loss": 0.0048,
      "step": 1225
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.458107054233551,
      "learning_rate": 0.0001726888888888889,
      "loss": 0.0783,
      "step": 1230
    },
    {
      "epoch": 2.058333333333333,
      "grad_norm": 0.01706443540751934,
      "learning_rate": 0.0001725777777777778,
      "loss": 0.0064,
      "step": 1235
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.010883928276598454,
      "learning_rate": 0.00017246666666666667,
      "loss": 0.0026,
      "step": 1240
    },
    {
      "epoch": 2.075,
      "grad_norm": 2.2109909057617188,
      "learning_rate": 0.00017235555555555556,
      "loss": 0.0063,
      "step": 1245
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.1612847000360489,
      "learning_rate": 0.00017224444444444446,
      "loss": 0.0032,
      "step": 1250
    },
    {
      "epoch": 2.091666666666667,
      "grad_norm": 0.3420381247997284,
      "learning_rate": 0.00017213333333333333,
      "loss": 0.0039,
      "step": 1255
    },
    {
      "epoch": 2.1,
      "grad_norm": 8.661349296569824,
      "learning_rate": 0.00017202222222222223,
      "loss": 0.0526,
      "step": 1260
    },
    {
      "epoch": 2.1083333333333334,
      "grad_norm": 0.014970864169299603,
      "learning_rate": 0.0001719111111111111,
      "loss": 0.0843,
      "step": 1265
    },
    {
      "epoch": 2.1166666666666667,
      "grad_norm": 0.01655573770403862,
      "learning_rate": 0.0001718,
      "loss": 0.0745,
      "step": 1270
    },
    {
      "epoch": 2.125,
      "grad_norm": 0.013738071545958519,
      "learning_rate": 0.0001716888888888889,
      "loss": 0.0625,
      "step": 1275
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.011484778486192226,
      "learning_rate": 0.0001715777777777778,
      "loss": 0.0274,
      "step": 1280
    },
    {
      "epoch": 2.1416666666666666,
      "grad_norm": 0.08766481280326843,
      "learning_rate": 0.00017146666666666667,
      "loss": 0.0033,
      "step": 1285
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.014524525962769985,
      "learning_rate": 0.00017135555555555557,
      "loss": 0.003,
      "step": 1290
    },
    {
      "epoch": 2.158333333333333,
      "grad_norm": 0.009150991216301918,
      "learning_rate": 0.00017124444444444444,
      "loss": 0.0757,
      "step": 1295
    },
    {
      "epoch": 2.1666666666666665,
      "grad_norm": 5.8102898597717285,
      "learning_rate": 0.00017113333333333334,
      "loss": 0.1261,
      "step": 1300
    },
    {
      "epoch": 2.1666666666666665,
      "eval_accuracy": 0.8120833333333334,
      "eval_f1": 0.8066686632190647,
      "eval_loss": 0.8881622552871704,
      "eval_precision": 0.8448819567693518,
      "eval_recall": 0.8120833333333334,
      "eval_runtime": 17.2541,
      "eval_samples_per_second": 139.098,
      "eval_steps_per_second": 17.387,
      "step": 1300
    },
    {
      "epoch": 2.175,
      "grad_norm": 0.011899738572537899,
      "learning_rate": 0.00017102222222222224,
      "loss": 0.0022,
      "step": 1305
    },
    {
      "epoch": 2.183333333333333,
      "grad_norm": 1.5649707317352295,
      "learning_rate": 0.0001709111111111111,
      "loss": 0.0972,
      "step": 1310
    },
    {
      "epoch": 2.191666666666667,
      "grad_norm": 0.018453268334269524,
      "learning_rate": 0.0001708,
      "loss": 0.0305,
      "step": 1315
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.01707005873322487,
      "learning_rate": 0.0001706888888888889,
      "loss": 0.0022,
      "step": 1320
    },
    {
      "epoch": 2.2083333333333335,
      "grad_norm": 0.007094241678714752,
      "learning_rate": 0.0001705777777777778,
      "loss": 0.0043,
      "step": 1325
    },
    {
      "epoch": 2.216666666666667,
      "grad_norm": 0.036376114934682846,
      "learning_rate": 0.00017046666666666667,
      "loss": 0.0027,
      "step": 1330
    },
    {
      "epoch": 2.225,
      "grad_norm": 0.012223577126860619,
      "learning_rate": 0.00017035555555555557,
      "loss": 0.0022,
      "step": 1335
    },
    {
      "epoch": 2.2333333333333334,
      "grad_norm": 0.006670965813100338,
      "learning_rate": 0.00017024444444444444,
      "loss": 0.002,
      "step": 1340
    },
    {
      "epoch": 2.2416666666666667,
      "grad_norm": 0.020161954686045647,
      "learning_rate": 0.00017013333333333334,
      "loss": 0.0028,
      "step": 1345
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.00882883369922638,
      "learning_rate": 0.00017002222222222224,
      "loss": 0.0019,
      "step": 1350
    },
    {
      "epoch": 2.2583333333333333,
      "grad_norm": 0.00869451742619276,
      "learning_rate": 0.0001699111111111111,
      "loss": 0.0032,
      "step": 1355
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.0285855233669281,
      "learning_rate": 0.0001698,
      "loss": 0.0022,
      "step": 1360
    },
    {
      "epoch": 2.275,
      "grad_norm": 0.007087525445967913,
      "learning_rate": 0.0001696888888888889,
      "loss": 0.0646,
      "step": 1365
    },
    {
      "epoch": 2.283333333333333,
      "grad_norm": 0.00941796600818634,
      "learning_rate": 0.0001695777777777778,
      "loss": 0.0131,
      "step": 1370
    },
    {
      "epoch": 2.2916666666666665,
      "grad_norm": 0.01735394261777401,
      "learning_rate": 0.00016946666666666667,
      "loss": 0.0023,
      "step": 1375
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.005590538959950209,
      "learning_rate": 0.00016935555555555555,
      "loss": 0.1,
      "step": 1380
    },
    {
      "epoch": 2.3083333333333336,
      "grad_norm": 3.8015236854553223,
      "learning_rate": 0.00016924444444444444,
      "loss": 0.0895,
      "step": 1385
    },
    {
      "epoch": 2.3166666666666664,
      "grad_norm": 3.2458441257476807,
      "learning_rate": 0.00016913333333333334,
      "loss": 0.0671,
      "step": 1390
    },
    {
      "epoch": 2.325,
      "grad_norm": 0.35884588956832886,
      "learning_rate": 0.00016902222222222224,
      "loss": 0.0048,
      "step": 1395
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.02359212562441826,
      "learning_rate": 0.0001689111111111111,
      "loss": 0.0418,
      "step": 1400
    },
    {
      "epoch": 2.3333333333333335,
      "eval_accuracy": 0.86375,
      "eval_f1": 0.8636240729223478,
      "eval_loss": 0.6411367058753967,
      "eval_precision": 0.8682488063777705,
      "eval_recall": 0.86375,
      "eval_runtime": 17.386,
      "eval_samples_per_second": 138.042,
      "eval_steps_per_second": 17.255,
      "step": 1400
    },
    {
      "epoch": 2.341666666666667,
      "grad_norm": 0.012670883908867836,
      "learning_rate": 0.0001688,
      "loss": 0.0507,
      "step": 1405
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.02050863392651081,
      "learning_rate": 0.0001686888888888889,
      "loss": 0.0043,
      "step": 1410
    },
    {
      "epoch": 2.3583333333333334,
      "grad_norm": 0.008687810972332954,
      "learning_rate": 0.00016857777777777778,
      "loss": 0.0034,
      "step": 1415
    },
    {
      "epoch": 2.3666666666666667,
      "grad_norm": 8.880425453186035,
      "learning_rate": 0.00016846666666666668,
      "loss": 0.0159,
      "step": 1420
    },
    {
      "epoch": 2.375,
      "grad_norm": 2.9322140216827393,
      "learning_rate": 0.00016835555555555555,
      "loss": 0.0929,
      "step": 1425
    },
    {
      "epoch": 2.3833333333333333,
      "grad_norm": 0.008429259993135929,
      "learning_rate": 0.00016824444444444445,
      "loss": 0.0017,
      "step": 1430
    },
    {
      "epoch": 2.3916666666666666,
      "grad_norm": 0.7303611040115356,
      "learning_rate": 0.00016813333333333335,
      "loss": 0.0031,
      "step": 1435
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.007336003240197897,
      "learning_rate": 0.00016802222222222224,
      "loss": 0.0736,
      "step": 1440
    },
    {
      "epoch": 2.408333333333333,
      "grad_norm": 0.010502235032618046,
      "learning_rate": 0.00016791111111111114,
      "loss": 0.0019,
      "step": 1445
    },
    {
      "epoch": 2.4166666666666665,
      "grad_norm": 0.0065989503636956215,
      "learning_rate": 0.0001678,
      "loss": 0.0269,
      "step": 1450
    },
    {
      "epoch": 2.425,
      "grad_norm": 3.072159767150879,
      "learning_rate": 0.00016768888888888888,
      "loss": 0.0068,
      "step": 1455
    },
    {
      "epoch": 2.4333333333333336,
      "grad_norm": 0.008269249461591244,
      "learning_rate": 0.00016757777777777778,
      "loss": 0.0029,
      "step": 1460
    },
    {
      "epoch": 2.4416666666666664,
      "grad_norm": 0.009864929132163525,
      "learning_rate": 0.00016746666666666668,
      "loss": 0.1134,
      "step": 1465
    },
    {
      "epoch": 2.45,
      "grad_norm": 5.399435997009277,
      "learning_rate": 0.00016735555555555555,
      "loss": 0.0642,
      "step": 1470
    },
    {
      "epoch": 2.4583333333333335,
      "grad_norm": 0.09911159425973892,
      "learning_rate": 0.00016724444444444445,
      "loss": 0.0535,
      "step": 1475
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 0.009763318113982677,
      "learning_rate": 0.00016713333333333335,
      "loss": 0.0444,
      "step": 1480
    },
    {
      "epoch": 2.475,
      "grad_norm": 0.05794193223118782,
      "learning_rate": 0.00016702222222222225,
      "loss": 0.08,
      "step": 1485
    },
    {
      "epoch": 2.4833333333333334,
      "grad_norm": 2.915459156036377,
      "learning_rate": 0.00016691111111111112,
      "loss": 0.0161,
      "step": 1490
    },
    {
      "epoch": 2.4916666666666667,
      "grad_norm": 0.0298860315233469,
      "learning_rate": 0.0001668,
      "loss": 0.0173,
      "step": 1495
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.009326543658971786,
      "learning_rate": 0.0001666888888888889,
      "loss": 0.0809,
      "step": 1500
    },
    {
      "epoch": 2.5,
      "eval_accuracy": 0.8708333333333333,
      "eval_f1": 0.8682514682726563,
      "eval_loss": 0.5780412554740906,
      "eval_precision": 0.881124228890976,
      "eval_recall": 0.8708333333333333,
      "eval_runtime": 17.2271,
      "eval_samples_per_second": 139.315,
      "eval_steps_per_second": 17.414,
      "step": 1500
    },
    {
      "epoch": 2.5083333333333333,
      "grad_norm": 0.015503071248531342,
      "learning_rate": 0.00016657777777777779,
      "loss": 0.0946,
      "step": 1505
    },
    {
      "epoch": 2.5166666666666666,
      "grad_norm": 0.1662835329771042,
      "learning_rate": 0.00016646666666666668,
      "loss": 0.0121,
      "step": 1510
    },
    {
      "epoch": 2.525,
      "grad_norm": 0.027190443128347397,
      "learning_rate": 0.00016635555555555555,
      "loss": 0.0051,
      "step": 1515
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.0908505991101265,
      "learning_rate": 0.00016624444444444445,
      "loss": 0.0028,
      "step": 1520
    },
    {
      "epoch": 2.5416666666666665,
      "grad_norm": 0.033887721598148346,
      "learning_rate": 0.00016613333333333335,
      "loss": 0.0379,
      "step": 1525
    },
    {
      "epoch": 2.55,
      "grad_norm": 12.121322631835938,
      "learning_rate": 0.00016602222222222222,
      "loss": 0.0476,
      "step": 1530
    },
    {
      "epoch": 2.5583333333333336,
      "grad_norm": 0.008585413917899132,
      "learning_rate": 0.00016591111111111112,
      "loss": 0.0101,
      "step": 1535
    },
    {
      "epoch": 2.5666666666666664,
      "grad_norm": 0.30090174078941345,
      "learning_rate": 0.0001658,
      "loss": 0.0599,
      "step": 1540
    },
    {
      "epoch": 2.575,
      "grad_norm": 0.010436576791107655,
      "learning_rate": 0.0001656888888888889,
      "loss": 0.0071,
      "step": 1545
    },
    {
      "epoch": 2.5833333333333335,
      "grad_norm": 0.18919509649276733,
      "learning_rate": 0.0001655777777777778,
      "loss": 0.0295,
      "step": 1550
    },
    {
      "epoch": 2.591666666666667,
      "grad_norm": 10.122054100036621,
      "learning_rate": 0.00016546666666666669,
      "loss": 0.0448,
      "step": 1555
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.08900125324726105,
      "learning_rate": 0.00016535555555555556,
      "loss": 0.0038,
      "step": 1560
    },
    {
      "epoch": 2.6083333333333334,
      "grad_norm": 0.010898564010858536,
      "learning_rate": 0.00016524444444444446,
      "loss": 0.1336,
      "step": 1565
    },
    {
      "epoch": 2.6166666666666667,
      "grad_norm": 0.036906030029058456,
      "learning_rate": 0.00016513333333333333,
      "loss": 0.0033,
      "step": 1570
    },
    {
      "epoch": 2.625,
      "grad_norm": 0.00845995545387268,
      "learning_rate": 0.00016502222222222222,
      "loss": 0.0043,
      "step": 1575
    },
    {
      "epoch": 2.6333333333333333,
      "grad_norm": 2.4540610313415527,
      "learning_rate": 0.00016491111111111112,
      "loss": 0.2784,
      "step": 1580
    },
    {
      "epoch": 2.6416666666666666,
      "grad_norm": 0.009678791277110577,
      "learning_rate": 0.0001648,
      "loss": 0.0017,
      "step": 1585
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.07401396334171295,
      "learning_rate": 0.0001646888888888889,
      "loss": 0.0477,
      "step": 1590
    },
    {
      "epoch": 2.658333333333333,
      "grad_norm": 0.022737720981240273,
      "learning_rate": 0.0001645777777777778,
      "loss": 0.0094,
      "step": 1595
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.16675379872322083,
      "learning_rate": 0.0001644666666666667,
      "loss": 0.1062,
      "step": 1600
    },
    {
      "epoch": 2.6666666666666665,
      "eval_accuracy": 0.7875,
      "eval_f1": 0.762293115043776,
      "eval_loss": 1.1594880819320679,
      "eval_precision": 0.8248830956360603,
      "eval_recall": 0.7875,
      "eval_runtime": 17.3955,
      "eval_samples_per_second": 137.967,
      "eval_steps_per_second": 17.246,
      "step": 1600
    },
    {
      "epoch": 2.675,
      "grad_norm": 0.011642363853752613,
      "learning_rate": 0.0001643555555555556,
      "loss": 0.1109,
      "step": 1605
    },
    {
      "epoch": 2.6833333333333336,
      "grad_norm": 0.8253456950187683,
      "learning_rate": 0.00016424444444444446,
      "loss": 0.0041,
      "step": 1610
    },
    {
      "epoch": 2.6916666666666664,
      "grad_norm": 0.0610569529235363,
      "learning_rate": 0.00016413333333333333,
      "loss": 0.0098,
      "step": 1615
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.01381770335137844,
      "learning_rate": 0.00016402222222222223,
      "loss": 0.0034,
      "step": 1620
    },
    {
      "epoch": 2.7083333333333335,
      "grad_norm": 0.019168343394994736,
      "learning_rate": 0.00016391111111111113,
      "loss": 0.0259,
      "step": 1625
    },
    {
      "epoch": 2.716666666666667,
      "grad_norm": 0.00557492021471262,
      "learning_rate": 0.0001638,
      "loss": 0.0019,
      "step": 1630
    },
    {
      "epoch": 2.725,
      "grad_norm": 0.011986837722361088,
      "learning_rate": 0.0001636888888888889,
      "loss": 0.0022,
      "step": 1635
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.01027438510209322,
      "learning_rate": 0.0001635777777777778,
      "loss": 0.0176,
      "step": 1640
    },
    {
      "epoch": 2.7416666666666667,
      "grad_norm": 0.005790164228528738,
      "learning_rate": 0.0001634666666666667,
      "loss": 0.0017,
      "step": 1645
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.009503304027020931,
      "learning_rate": 0.00016335555555555556,
      "loss": 0.0661,
      "step": 1650
    },
    {
      "epoch": 2.7583333333333333,
      "grad_norm": 9.7177152633667,
      "learning_rate": 0.00016324444444444443,
      "loss": 0.0076,
      "step": 1655
    },
    {
      "epoch": 2.7666666666666666,
      "grad_norm": 2.11442494392395,
      "learning_rate": 0.00016313333333333333,
      "loss": 0.0048,
      "step": 1660
    },
    {
      "epoch": 2.775,
      "grad_norm": 0.00857405923306942,
      "learning_rate": 0.00016302222222222223,
      "loss": 0.0158,
      "step": 1665
    },
    {
      "epoch": 2.783333333333333,
      "grad_norm": 0.00747597124427557,
      "learning_rate": 0.00016291111111111113,
      "loss": 0.004,
      "step": 1670
    },
    {
      "epoch": 2.7916666666666665,
      "grad_norm": 0.16346777975559235,
      "learning_rate": 0.0001628,
      "loss": 0.0095,
      "step": 1675
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.005353240761905909,
      "learning_rate": 0.0001626888888888889,
      "loss": 0.0015,
      "step": 1680
    },
    {
      "epoch": 2.8083333333333336,
      "grad_norm": 0.014167744666337967,
      "learning_rate": 0.0001625777777777778,
      "loss": 0.0264,
      "step": 1685
    },
    {
      "epoch": 2.8166666666666664,
      "grad_norm": 0.008902885019779205,
      "learning_rate": 0.00016246666666666667,
      "loss": 0.0732,
      "step": 1690
    },
    {
      "epoch": 2.825,
      "grad_norm": 0.017570950090885162,
      "learning_rate": 0.00016235555555555557,
      "loss": 0.0954,
      "step": 1695
    },
    {
      "epoch": 2.8333333333333335,
      "grad_norm": 0.3721277117729187,
      "learning_rate": 0.00016224444444444444,
      "loss": 0.0021,
      "step": 1700
    },
    {
      "epoch": 2.8333333333333335,
      "eval_accuracy": 0.7525,
      "eval_f1": 0.7378953850628042,
      "eval_loss": 1.4651647806167603,
      "eval_precision": 0.8049594984508938,
      "eval_recall": 0.7525,
      "eval_runtime": 17.4087,
      "eval_samples_per_second": 137.862,
      "eval_steps_per_second": 17.233,
      "step": 1700
    },
    {
      "epoch": 2.841666666666667,
      "grad_norm": 0.08471933007240295,
      "learning_rate": 0.00016213333333333334,
      "loss": 0.057,
      "step": 1705
    },
    {
      "epoch": 2.85,
      "grad_norm": 5.591139316558838,
      "learning_rate": 0.00016202222222222223,
      "loss": 0.0157,
      "step": 1710
    },
    {
      "epoch": 2.8583333333333334,
      "grad_norm": 7.029623508453369,
      "learning_rate": 0.00016191111111111113,
      "loss": 0.0221,
      "step": 1715
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.004947323352098465,
      "learning_rate": 0.00016180000000000003,
      "loss": 0.0015,
      "step": 1720
    },
    {
      "epoch": 2.875,
      "grad_norm": 0.004881935194134712,
      "learning_rate": 0.0001616888888888889,
      "loss": 0.081,
      "step": 1725
    },
    {
      "epoch": 2.8833333333333333,
      "grad_norm": 0.00622685719281435,
      "learning_rate": 0.00016157777777777777,
      "loss": 0.005,
      "step": 1730
    },
    {
      "epoch": 2.8916666666666666,
      "grad_norm": 9.183723449707031,
      "learning_rate": 0.00016146666666666667,
      "loss": 0.0833,
      "step": 1735
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.007840245962142944,
      "learning_rate": 0.00016135555555555557,
      "loss": 0.0581,
      "step": 1740
    },
    {
      "epoch": 2.908333333333333,
      "grad_norm": 3.2768611907958984,
      "learning_rate": 0.00016124444444444444,
      "loss": 0.0047,
      "step": 1745
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 10.631937026977539,
      "learning_rate": 0.00016113333333333334,
      "loss": 0.106,
      "step": 1750
    },
    {
      "epoch": 2.925,
      "grad_norm": 0.21901696920394897,
      "learning_rate": 0.00016102222222222224,
      "loss": 0.0035,
      "step": 1755
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.013795444741845131,
      "learning_rate": 0.00016091111111111113,
      "loss": 0.0014,
      "step": 1760
    },
    {
      "epoch": 2.9416666666666664,
      "grad_norm": 0.007075151428580284,
      "learning_rate": 0.0001608,
      "loss": 0.096,
      "step": 1765
    },
    {
      "epoch": 2.95,
      "grad_norm": 8.797901153564453,
      "learning_rate": 0.00016068888888888888,
      "loss": 0.2405,
      "step": 1770
    },
    {
      "epoch": 2.9583333333333335,
      "grad_norm": 0.013398180715739727,
      "learning_rate": 0.00016057777777777777,
      "loss": 0.2021,
      "step": 1775
    },
    {
      "epoch": 2.966666666666667,
      "grad_norm": 0.017609668895602226,
      "learning_rate": 0.00016046666666666667,
      "loss": 0.0016,
      "step": 1780
    },
    {
      "epoch": 2.975,
      "grad_norm": 0.030231518670916557,
      "learning_rate": 0.00016035555555555557,
      "loss": 0.0205,
      "step": 1785
    },
    {
      "epoch": 2.9833333333333334,
      "grad_norm": 0.006965042091906071,
      "learning_rate": 0.00016024444444444444,
      "loss": 0.0131,
      "step": 1790
    },
    {
      "epoch": 2.9916666666666667,
      "grad_norm": 0.01270020380616188,
      "learning_rate": 0.00016013333333333334,
      "loss": 0.018,
      "step": 1795
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.005832229275256395,
      "learning_rate": 0.00016002222222222224,
      "loss": 0.0031,
      "step": 1800
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.7904166666666667,
      "eval_f1": 0.7646923999776803,
      "eval_loss": 1.1440844535827637,
      "eval_precision": 0.8277475522896642,
      "eval_recall": 0.7904166666666667,
      "eval_runtime": 17.4282,
      "eval_samples_per_second": 137.708,
      "eval_steps_per_second": 17.213,
      "step": 1800
    },
    {
      "epoch": 3.0083333333333333,
      "grad_norm": 3.8136823177337646,
      "learning_rate": 0.0001599111111111111,
      "loss": 0.0686,
      "step": 1805
    },
    {
      "epoch": 3.0166666666666666,
      "grad_norm": 0.006084319669753313,
      "learning_rate": 0.0001598,
      "loss": 0.0013,
      "step": 1810
    },
    {
      "epoch": 3.025,
      "grad_norm": 0.014314080588519573,
      "learning_rate": 0.00015968888888888888,
      "loss": 0.0711,
      "step": 1815
    },
    {
      "epoch": 3.033333333333333,
      "grad_norm": 0.008085310459136963,
      "learning_rate": 0.00015957777777777778,
      "loss": 0.0018,
      "step": 1820
    },
    {
      "epoch": 3.0416666666666665,
      "grad_norm": 0.006709631532430649,
      "learning_rate": 0.00015946666666666668,
      "loss": 0.0022,
      "step": 1825
    },
    {
      "epoch": 3.05,
      "grad_norm": 5.550113201141357,
      "learning_rate": 0.00015935555555555557,
      "loss": 0.0354,
      "step": 1830
    },
    {
      "epoch": 3.058333333333333,
      "grad_norm": 0.00460304319858551,
      "learning_rate": 0.00015924444444444447,
      "loss": 0.0204,
      "step": 1835
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 0.006403545383363962,
      "learning_rate": 0.00015913333333333334,
      "loss": 0.0027,
      "step": 1840
    },
    {
      "epoch": 3.075,
      "grad_norm": 0.005506476853042841,
      "learning_rate": 0.00015902222222222221,
      "loss": 0.0793,
      "step": 1845
    },
    {
      "epoch": 3.0833333333333335,
      "grad_norm": 0.011339109390974045,
      "learning_rate": 0.0001589111111111111,
      "loss": 0.003,
      "step": 1850
    },
    {
      "epoch": 3.091666666666667,
      "grad_norm": 0.19765347242355347,
      "learning_rate": 0.0001588,
      "loss": 0.0027,
      "step": 1855
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.037931181490421295,
      "learning_rate": 0.00015868888888888888,
      "loss": 0.0018,
      "step": 1860
    },
    {
      "epoch": 3.1083333333333334,
      "grad_norm": 0.005825894419103861,
      "learning_rate": 0.00015857777777777778,
      "loss": 0.0048,
      "step": 1865
    },
    {
      "epoch": 3.1166666666666667,
      "grad_norm": 7.076573371887207,
      "learning_rate": 0.00015846666666666668,
      "loss": 0.2507,
      "step": 1870
    },
    {
      "epoch": 3.125,
      "grad_norm": 0.032987114042043686,
      "learning_rate": 0.00015835555555555558,
      "loss": 0.0556,
      "step": 1875
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 5.945115566253662,
      "learning_rate": 0.00015824444444444448,
      "loss": 0.1282,
      "step": 1880
    },
    {
      "epoch": 3.1416666666666666,
      "grad_norm": 0.025185424834489822,
      "learning_rate": 0.00015813333333333335,
      "loss": 0.0017,
      "step": 1885
    },
    {
      "epoch": 3.15,
      "grad_norm": 3.2072715759277344,
      "learning_rate": 0.00015802222222222222,
      "loss": 0.0752,
      "step": 1890
    },
    {
      "epoch": 3.158333333333333,
      "grad_norm": 0.03885618969798088,
      "learning_rate": 0.00015791111111111112,
      "loss": 0.0462,
      "step": 1895
    },
    {
      "epoch": 3.1666666666666665,
      "grad_norm": 0.015840597450733185,
      "learning_rate": 0.00015780000000000001,
      "loss": 0.0026,
      "step": 1900
    },
    {
      "epoch": 3.1666666666666665,
      "eval_accuracy": 0.8479166666666667,
      "eval_f1": 0.8471444533597329,
      "eval_loss": 0.6132380962371826,
      "eval_precision": 0.8536925820626755,
      "eval_recall": 0.8479166666666667,
      "eval_runtime": 17.4989,
      "eval_samples_per_second": 137.151,
      "eval_steps_per_second": 17.144,
      "step": 1900
    },
    {
      "epoch": 3.175,
      "grad_norm": 0.012518719770014286,
      "learning_rate": 0.00015768888888888888,
      "loss": 0.0829,
      "step": 1905
    },
    {
      "epoch": 3.183333333333333,
      "grad_norm": 0.016391286626458168,
      "learning_rate": 0.00015757777777777778,
      "loss": 0.0075,
      "step": 1910
    },
    {
      "epoch": 3.191666666666667,
      "grad_norm": 0.015317020006477833,
      "learning_rate": 0.00015746666666666668,
      "loss": 0.003,
      "step": 1915
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2601831257343292,
      "learning_rate": 0.00015735555555555558,
      "loss": 0.0875,
      "step": 1920
    },
    {
      "epoch": 3.2083333333333335,
      "grad_norm": 0.022021636366844177,
      "learning_rate": 0.00015724444444444445,
      "loss": 0.0344,
      "step": 1925
    },
    {
      "epoch": 3.216666666666667,
      "grad_norm": 0.010631919838488102,
      "learning_rate": 0.00015713333333333332,
      "loss": 0.0024,
      "step": 1930
    },
    {
      "epoch": 3.225,
      "grad_norm": 0.03513744845986366,
      "learning_rate": 0.00015702222222222222,
      "loss": 0.0096,
      "step": 1935
    },
    {
      "epoch": 3.2333333333333334,
      "grad_norm": 0.025857973843812943,
      "learning_rate": 0.00015691111111111112,
      "loss": 0.01,
      "step": 1940
    },
    {
      "epoch": 3.2416666666666667,
      "grad_norm": 0.033431947231292725,
      "learning_rate": 0.00015680000000000002,
      "loss": 0.0587,
      "step": 1945
    },
    {
      "epoch": 3.25,
      "grad_norm": 9.224873542785645,
      "learning_rate": 0.00015668888888888891,
      "loss": 0.0584,
      "step": 1950
    },
    {
      "epoch": 3.2583333333333333,
      "grad_norm": 0.48128852248191833,
      "learning_rate": 0.00015657777777777779,
      "loss": 0.0027,
      "step": 1955
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 0.004791689105331898,
      "learning_rate": 0.00015646666666666668,
      "loss": 0.0426,
      "step": 1960
    },
    {
      "epoch": 3.275,
      "grad_norm": 0.17691510915756226,
      "learning_rate": 0.00015635555555555556,
      "loss": 0.0168,
      "step": 1965
    },
    {
      "epoch": 3.283333333333333,
      "grad_norm": 0.031016597524285316,
      "learning_rate": 0.00015624444444444445,
      "loss": 0.0014,
      "step": 1970
    },
    {
      "epoch": 3.2916666666666665,
      "grad_norm": 0.0059831407852470875,
      "learning_rate": 0.00015613333333333332,
      "loss": 0.0031,
      "step": 1975
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.005690166726708412,
      "learning_rate": 0.00015602222222222222,
      "loss": 0.0011,
      "step": 1980
    },
    {
      "epoch": 3.3083333333333336,
      "grad_norm": 0.0037128266412764788,
      "learning_rate": 0.00015591111111111112,
      "loss": 0.0011,
      "step": 1985
    },
    {
      "epoch": 3.3166666666666664,
      "grad_norm": 0.01752794347703457,
      "learning_rate": 0.00015580000000000002,
      "loss": 0.0011,
      "step": 1990
    },
    {
      "epoch": 3.325,
      "grad_norm": 0.0036961915902793407,
      "learning_rate": 0.00015568888888888892,
      "loss": 0.001,
      "step": 1995
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.006226038560271263,
      "learning_rate": 0.0001555777777777778,
      "loss": 0.0011,
      "step": 2000
    },
    {
      "epoch": 3.3333333333333335,
      "eval_accuracy": 0.8925,
      "eval_f1": 0.8913001696063418,
      "eval_loss": 0.5269291400909424,
      "eval_precision": 0.894818768209672,
      "eval_recall": 0.8925,
      "eval_runtime": 17.2966,
      "eval_samples_per_second": 138.756,
      "eval_steps_per_second": 17.344,
      "step": 2000
    },
    {
      "epoch": 3.341666666666667,
      "grad_norm": 0.004363252315670252,
      "learning_rate": 0.00015546666666666666,
      "loss": 0.0151,
      "step": 2005
    },
    {
      "epoch": 3.35,
      "grad_norm": 9.955965042114258,
      "learning_rate": 0.00015535555555555556,
      "loss": 0.0452,
      "step": 2010
    },
    {
      "epoch": 3.3583333333333334,
      "grad_norm": 10.164335250854492,
      "learning_rate": 0.00015524444444444446,
      "loss": 0.0506,
      "step": 2015
    },
    {
      "epoch": 3.3666666666666667,
      "grad_norm": 0.004031546879559755,
      "learning_rate": 0.00015513333333333333,
      "loss": 0.005,
      "step": 2020
    },
    {
      "epoch": 3.375,
      "grad_norm": 0.005022258497774601,
      "learning_rate": 0.00015502222222222223,
      "loss": 0.001,
      "step": 2025
    },
    {
      "epoch": 3.3833333333333333,
      "grad_norm": 0.14976993203163147,
      "learning_rate": 0.00015491111111111112,
      "loss": 0.0012,
      "step": 2030
    },
    {
      "epoch": 3.3916666666666666,
      "grad_norm": 16.228790283203125,
      "learning_rate": 0.00015480000000000002,
      "loss": 0.1139,
      "step": 2035
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.014710101298987865,
      "learning_rate": 0.0001546888888888889,
      "loss": 0.0081,
      "step": 2040
    },
    {
      "epoch": 3.408333333333333,
      "grad_norm": 0.012116325087845325,
      "learning_rate": 0.00015457777777777776,
      "loss": 0.1327,
      "step": 2045
    },
    {
      "epoch": 3.4166666666666665,
      "grad_norm": 0.01766209490597248,
      "learning_rate": 0.00015446666666666666,
      "loss": 0.0654,
      "step": 2050
    },
    {
      "epoch": 3.425,
      "grad_norm": 0.0437730997800827,
      "learning_rate": 0.00015435555555555556,
      "loss": 0.0441,
      "step": 2055
    },
    {
      "epoch": 3.4333333333333336,
      "grad_norm": 0.12010122835636139,
      "learning_rate": 0.00015424444444444446,
      "loss": 0.0909,
      "step": 2060
    },
    {
      "epoch": 3.4416666666666664,
      "grad_norm": 0.044571276754140854,
      "learning_rate": 0.00015413333333333336,
      "loss": 0.1645,
      "step": 2065
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.6777125000953674,
      "learning_rate": 0.00015402222222222223,
      "loss": 0.0073,
      "step": 2070
    },
    {
      "epoch": 3.4583333333333335,
      "grad_norm": 0.005938471294939518,
      "learning_rate": 0.00015391111111111113,
      "loss": 0.003,
      "step": 2075
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.005934237502515316,
      "learning_rate": 0.0001538,
      "loss": 0.0017,
      "step": 2080
    },
    {
      "epoch": 3.475,
      "grad_norm": 10.592692375183105,
      "learning_rate": 0.0001536888888888889,
      "loss": 0.0138,
      "step": 2085
    },
    {
      "epoch": 3.4833333333333334,
      "grad_norm": 0.010859190486371517,
      "learning_rate": 0.00015357777777777777,
      "loss": 0.0718,
      "step": 2090
    },
    {
      "epoch": 3.4916666666666667,
      "grad_norm": 0.00601377384737134,
      "learning_rate": 0.00015346666666666667,
      "loss": 0.0012,
      "step": 2095
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.012158820405602455,
      "learning_rate": 0.00015335555555555556,
      "loss": 0.0014,
      "step": 2100
    },
    {
      "epoch": 3.5,
      "eval_accuracy": 0.7808333333333334,
      "eval_f1": 0.7723327629013902,
      "eval_loss": 0.8908087015151978,
      "eval_precision": 0.8293608432642766,
      "eval_recall": 0.7808333333333334,
      "eval_runtime": 17.4929,
      "eval_samples_per_second": 137.198,
      "eval_steps_per_second": 17.15,
      "step": 2100
    },
    {
      "epoch": 3.5083333333333333,
      "grad_norm": 0.008728913962841034,
      "learning_rate": 0.00015324444444444446,
      "loss": 0.065,
      "step": 2105
    },
    {
      "epoch": 3.5166666666666666,
      "grad_norm": 0.014821000397205353,
      "learning_rate": 0.00015313333333333336,
      "loss": 0.0133,
      "step": 2110
    },
    {
      "epoch": 3.525,
      "grad_norm": 0.014710766263306141,
      "learning_rate": 0.00015302222222222223,
      "loss": 0.003,
      "step": 2115
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.011612008325755596,
      "learning_rate": 0.00015291111111111113,
      "loss": 0.0025,
      "step": 2120
    },
    {
      "epoch": 3.5416666666666665,
      "grad_norm": 0.008906609378755093,
      "learning_rate": 0.0001528,
      "loss": 0.0026,
      "step": 2125
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.00849719438701868,
      "learning_rate": 0.0001526888888888889,
      "loss": 0.0271,
      "step": 2130
    },
    {
      "epoch": 3.5583333333333336,
      "grad_norm": 0.011750671081244946,
      "learning_rate": 0.00015257777777777777,
      "loss": 0.0917,
      "step": 2135
    },
    {
      "epoch": 3.5666666666666664,
      "grad_norm": 0.03323324769735336,
      "learning_rate": 0.00015246666666666667,
      "loss": 0.0025,
      "step": 2140
    },
    {
      "epoch": 3.575,
      "grad_norm": 4.098257064819336,
      "learning_rate": 0.00015235555555555557,
      "loss": 0.0824,
      "step": 2145
    },
    {
      "epoch": 3.5833333333333335,
      "grad_norm": 0.009669539518654346,
      "learning_rate": 0.00015224444444444446,
      "loss": 0.0013,
      "step": 2150
    },
    {
      "epoch": 3.591666666666667,
      "grad_norm": 0.3805016875267029,
      "learning_rate": 0.00015213333333333336,
      "loss": 0.0018,
      "step": 2155
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.004773003049194813,
      "learning_rate": 0.00015202222222222223,
      "loss": 0.0017,
      "step": 2160
    },
    {
      "epoch": 3.6083333333333334,
      "grad_norm": 0.0056433300487697124,
      "learning_rate": 0.0001519111111111111,
      "loss": 0.0113,
      "step": 2165
    },
    {
      "epoch": 3.6166666666666667,
      "grad_norm": 0.005897799972444773,
      "learning_rate": 0.0001518,
      "loss": 0.0012,
      "step": 2170
    },
    {
      "epoch": 3.625,
      "grad_norm": 0.09687240421772003,
      "learning_rate": 0.0001516888888888889,
      "loss": 0.0203,
      "step": 2175
    },
    {
      "epoch": 3.6333333333333333,
      "grad_norm": 0.003985037561506033,
      "learning_rate": 0.00015157777777777777,
      "loss": 0.0872,
      "step": 2180
    },
    {
      "epoch": 3.6416666666666666,
      "grad_norm": 5.774904251098633,
      "learning_rate": 0.00015146666666666667,
      "loss": 0.0193,
      "step": 2185
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.007041999604552984,
      "learning_rate": 0.00015135555555555557,
      "loss": 0.001,
      "step": 2190
    },
    {
      "epoch": 3.658333333333333,
      "grad_norm": 0.0051742312498390675,
      "learning_rate": 0.00015124444444444447,
      "loss": 0.0665,
      "step": 2195
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.044382672756910324,
      "learning_rate": 0.00015113333333333334,
      "loss": 0.0013,
      "step": 2200
    },
    {
      "epoch": 3.6666666666666665,
      "eval_accuracy": 0.8075,
      "eval_f1": 0.8101286452594589,
      "eval_loss": 0.8869180083274841,
      "eval_precision": 0.8465562606649951,
      "eval_recall": 0.8075,
      "eval_runtime": 17.3483,
      "eval_samples_per_second": 138.342,
      "eval_steps_per_second": 17.293,
      "step": 2200
    },
    {
      "epoch": 3.675,
      "grad_norm": 0.07093220949172974,
      "learning_rate": 0.0001510222222222222,
      "loss": 0.002,
      "step": 2205
    },
    {
      "epoch": 3.6833333333333336,
      "grad_norm": 0.005364661570638418,
      "learning_rate": 0.0001509111111111111,
      "loss": 0.06,
      "step": 2210
    },
    {
      "epoch": 3.6916666666666664,
      "grad_norm": 0.00877455621957779,
      "learning_rate": 0.0001508,
      "loss": 0.0139,
      "step": 2215
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.4445798993110657,
      "learning_rate": 0.0001506888888888889,
      "loss": 0.0032,
      "step": 2220
    },
    {
      "epoch": 3.7083333333333335,
      "grad_norm": 0.013998258858919144,
      "learning_rate": 0.0001505777777777778,
      "loss": 0.019,
      "step": 2225
    },
    {
      "epoch": 3.716666666666667,
      "grad_norm": 15.777429580688477,
      "learning_rate": 0.00015046666666666667,
      "loss": 0.0488,
      "step": 2230
    },
    {
      "epoch": 3.725,
      "grad_norm": 0.004968112334609032,
      "learning_rate": 0.00015035555555555557,
      "loss": 0.0134,
      "step": 2235
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.012963583692908287,
      "learning_rate": 0.00015024444444444444,
      "loss": 0.0012,
      "step": 2240
    },
    {
      "epoch": 3.7416666666666667,
      "grad_norm": 0.0037018766161054373,
      "learning_rate": 0.00015013333333333334,
      "loss": 0.0021,
      "step": 2245
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.004554762039333582,
      "learning_rate": 0.0001500222222222222,
      "loss": 0.0014,
      "step": 2250
    },
    {
      "epoch": 3.7583333333333333,
      "grad_norm": 0.004129278473556042,
      "learning_rate": 0.0001499111111111111,
      "loss": 0.0012,
      "step": 2255
    },
    {
      "epoch": 3.7666666666666666,
      "grad_norm": 0.008189404383301735,
      "learning_rate": 0.0001498,
      "loss": 0.001,
      "step": 2260
    },
    {
      "epoch": 3.775,
      "grad_norm": 0.005915345158427954,
      "learning_rate": 0.0001496888888888889,
      "loss": 0.0036,
      "step": 2265
    },
    {
      "epoch": 3.783333333333333,
      "grad_norm": 0.0036639240570366383,
      "learning_rate": 0.0001495777777777778,
      "loss": 0.0009,
      "step": 2270
    },
    {
      "epoch": 3.7916666666666665,
      "grad_norm": 0.10370665043592453,
      "learning_rate": 0.00014946666666666668,
      "loss": 0.0011,
      "step": 2275
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.00474017858505249,
      "learning_rate": 0.00014935555555555555,
      "loss": 0.0128,
      "step": 2280
    },
    {
      "epoch": 3.8083333333333336,
      "grad_norm": 0.0032621833961457014,
      "learning_rate": 0.00014924444444444445,
      "loss": 0.001,
      "step": 2285
    },
    {
      "epoch": 3.8166666666666664,
      "grad_norm": 0.0027181007899343967,
      "learning_rate": 0.00014913333333333334,
      "loss": 0.0007,
      "step": 2290
    },
    {
      "epoch": 3.825,
      "grad_norm": 0.0034717011731117964,
      "learning_rate": 0.00014902222222222222,
      "loss": 0.0008,
      "step": 2295
    },
    {
      "epoch": 3.8333333333333335,
      "grad_norm": 0.003433758160099387,
      "learning_rate": 0.00014891111111111111,
      "loss": 0.0007,
      "step": 2300
    },
    {
      "epoch": 3.8333333333333335,
      "eval_accuracy": 0.8666666666666667,
      "eval_f1": 0.866209812394775,
      "eval_loss": 0.6947910785675049,
      "eval_precision": 0.881664122862721,
      "eval_recall": 0.8666666666666667,
      "eval_runtime": 17.179,
      "eval_samples_per_second": 139.706,
      "eval_steps_per_second": 17.463,
      "step": 2300
    },
    {
      "epoch": 3.841666666666667,
      "grad_norm": 0.002774650463834405,
      "learning_rate": 0.0001488,
      "loss": 0.0013,
      "step": 2305
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.0033704515080899,
      "learning_rate": 0.0001486888888888889,
      "loss": 0.0007,
      "step": 2310
    },
    {
      "epoch": 3.8583333333333334,
      "grad_norm": 0.005870129447430372,
      "learning_rate": 0.00014857777777777778,
      "loss": 0.0007,
      "step": 2315
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.00449910294264555,
      "learning_rate": 0.00014846666666666665,
      "loss": 0.0007,
      "step": 2320
    },
    {
      "epoch": 3.875,
      "grad_norm": 0.02569647505879402,
      "learning_rate": 0.00014835555555555555,
      "loss": 0.017,
      "step": 2325
    },
    {
      "epoch": 3.8833333333333333,
      "grad_norm": 0.003048931946977973,
      "learning_rate": 0.00014824444444444445,
      "loss": 0.0467,
      "step": 2330
    },
    {
      "epoch": 3.8916666666666666,
      "grad_norm": 0.002982963575050235,
      "learning_rate": 0.00014813333333333335,
      "loss": 0.0007,
      "step": 2335
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.003481502877548337,
      "learning_rate": 0.00014802222222222225,
      "loss": 0.0008,
      "step": 2340
    },
    {
      "epoch": 3.908333333333333,
      "grad_norm": 0.0031197406351566315,
      "learning_rate": 0.00014791111111111112,
      "loss": 0.0075,
      "step": 2345
    },
    {
      "epoch": 3.9166666666666665,
      "grad_norm": 10.07979965209961,
      "learning_rate": 0.00014780000000000001,
      "loss": 0.0468,
      "step": 2350
    },
    {
      "epoch": 3.925,
      "grad_norm": 6.29968786239624,
      "learning_rate": 0.00014768888888888889,
      "loss": 0.0511,
      "step": 2355
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 0.005928056314587593,
      "learning_rate": 0.00014757777777777778,
      "loss": 0.0073,
      "step": 2360
    },
    {
      "epoch": 3.9416666666666664,
      "grad_norm": 0.0038784488569945097,
      "learning_rate": 0.00014746666666666666,
      "loss": 0.0016,
      "step": 2365
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.002142443088814616,
      "learning_rate": 0.00014735555555555555,
      "loss": 0.0011,
      "step": 2370
    },
    {
      "epoch": 3.9583333333333335,
      "grad_norm": 0.0026907792780548334,
      "learning_rate": 0.00014724444444444445,
      "loss": 0.0013,
      "step": 2375
    },
    {
      "epoch": 3.966666666666667,
      "grad_norm": 0.16546788811683655,
      "learning_rate": 0.00014713333333333335,
      "loss": 0.0009,
      "step": 2380
    },
    {
      "epoch": 3.975,
      "grad_norm": 0.003164347494021058,
      "learning_rate": 0.00014702222222222225,
      "loss": 0.0006,
      "step": 2385
    },
    {
      "epoch": 3.9833333333333334,
      "grad_norm": 0.0027834554202854633,
      "learning_rate": 0.00014691111111111112,
      "loss": 0.0007,
      "step": 2390
    },
    {
      "epoch": 3.9916666666666667,
      "grad_norm": 0.00353314564563334,
      "learning_rate": 0.00014680000000000002,
      "loss": 0.0007,
      "step": 2395
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.0022645422723144293,
      "learning_rate": 0.0001466888888888889,
      "loss": 0.0824,
      "step": 2400
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.8929166666666667,
      "eval_f1": 0.8933854236253793,
      "eval_loss": 0.4990713596343994,
      "eval_precision": 0.8962038206116761,
      "eval_recall": 0.8929166666666667,
      "eval_runtime": 17.321,
      "eval_samples_per_second": 138.56,
      "eval_steps_per_second": 17.32,
      "step": 2400
    },
    {
      "epoch": 4.008333333333334,
      "grad_norm": 0.0036297340411692858,
      "learning_rate": 0.0001465777777777778,
      "loss": 0.0007,
      "step": 2405
    },
    {
      "epoch": 4.016666666666667,
      "grad_norm": 0.0062110694125294685,
      "learning_rate": 0.00014646666666666666,
      "loss": 0.0006,
      "step": 2410
    },
    {
      "epoch": 4.025,
      "grad_norm": 0.12140091508626938,
      "learning_rate": 0.00014635555555555556,
      "loss": 0.0017,
      "step": 2415
    },
    {
      "epoch": 4.033333333333333,
      "grad_norm": 8.911307334899902,
      "learning_rate": 0.00014624444444444445,
      "loss": 0.0525,
      "step": 2420
    },
    {
      "epoch": 4.041666666666667,
      "grad_norm": 0.002765023848041892,
      "learning_rate": 0.00014613333333333335,
      "loss": 0.0068,
      "step": 2425
    },
    {
      "epoch": 4.05,
      "grad_norm": 0.002938666846603155,
      "learning_rate": 0.00014602222222222225,
      "loss": 0.0007,
      "step": 2430
    },
    {
      "epoch": 4.058333333333334,
      "grad_norm": 0.007680968381464481,
      "learning_rate": 0.00014591111111111112,
      "loss": 0.0008,
      "step": 2435
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 2.4688022136688232,
      "learning_rate": 0.0001458,
      "loss": 0.0874,
      "step": 2440
    },
    {
      "epoch": 4.075,
      "grad_norm": 0.9715155363082886,
      "learning_rate": 0.0001456888888888889,
      "loss": 0.0045,
      "step": 2445
    },
    {
      "epoch": 4.083333333333333,
      "grad_norm": 0.07920628786087036,
      "learning_rate": 0.0001455777777777778,
      "loss": 0.0018,
      "step": 2450
    },
    {
      "epoch": 4.091666666666667,
      "grad_norm": 0.011928623542189598,
      "learning_rate": 0.0001454666666666667,
      "loss": 0.0636,
      "step": 2455
    },
    {
      "epoch": 4.1,
      "grad_norm": 0.03377780690789223,
      "learning_rate": 0.00014535555555555556,
      "loss": 0.1822,
      "step": 2460
    },
    {
      "epoch": 4.108333333333333,
      "grad_norm": 0.0034970776177942753,
      "learning_rate": 0.00014524444444444446,
      "loss": 0.0012,
      "step": 2465
    },
    {
      "epoch": 4.116666666666666,
      "grad_norm": 4.1345720291137695,
      "learning_rate": 0.00014513333333333336,
      "loss": 0.0186,
      "step": 2470
    },
    {
      "epoch": 4.125,
      "grad_norm": 0.032758038491010666,
      "learning_rate": 0.00014502222222222223,
      "loss": 0.0017,
      "step": 2475
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.01546397153288126,
      "learning_rate": 0.0001449111111111111,
      "loss": 0.0026,
      "step": 2480
    },
    {
      "epoch": 4.141666666666667,
      "grad_norm": 0.0028166105039417744,
      "learning_rate": 0.0001448,
      "loss": 0.0015,
      "step": 2485
    },
    {
      "epoch": 4.15,
      "grad_norm": 0.0375150665640831,
      "learning_rate": 0.0001446888888888889,
      "loss": 0.0011,
      "step": 2490
    },
    {
      "epoch": 4.158333333333333,
      "grad_norm": 0.0049573336727917194,
      "learning_rate": 0.0001445777777777778,
      "loss": 0.0145,
      "step": 2495
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.002907081739977002,
      "learning_rate": 0.0001444666666666667,
      "loss": 0.0021,
      "step": 2500
    },
    {
      "epoch": 4.166666666666667,
      "eval_accuracy": 0.90375,
      "eval_f1": 0.9024903718122713,
      "eval_loss": 0.5147380828857422,
      "eval_precision": 0.9115601297056681,
      "eval_recall": 0.90375,
      "eval_runtime": 17.2858,
      "eval_samples_per_second": 138.843,
      "eval_steps_per_second": 17.355,
      "step": 2500
    },
    {
      "epoch": 4.175,
      "grad_norm": 0.0035825788509100676,
      "learning_rate": 0.00014435555555555556,
      "loss": 0.0008,
      "step": 2505
    },
    {
      "epoch": 4.183333333333334,
      "grad_norm": 0.003034421941265464,
      "learning_rate": 0.00014424444444444446,
      "loss": 0.0555,
      "step": 2510
    },
    {
      "epoch": 4.191666666666666,
      "grad_norm": 0.0025204371195286512,
      "learning_rate": 0.00014413333333333333,
      "loss": 0.0267,
      "step": 2515
    },
    {
      "epoch": 4.2,
      "grad_norm": 0.009459509514272213,
      "learning_rate": 0.00014402222222222223,
      "loss": 0.0008,
      "step": 2520
    },
    {
      "epoch": 4.208333333333333,
      "grad_norm": 0.006892939563840628,
      "learning_rate": 0.0001439111111111111,
      "loss": 0.0009,
      "step": 2525
    },
    {
      "epoch": 4.216666666666667,
      "grad_norm": 0.006341472268104553,
      "learning_rate": 0.0001438,
      "loss": 0.0007,
      "step": 2530
    },
    {
      "epoch": 4.225,
      "grad_norm": 0.043112508952617645,
      "learning_rate": 0.0001436888888888889,
      "loss": 0.0007,
      "step": 2535
    },
    {
      "epoch": 4.233333333333333,
      "grad_norm": 0.0021893144585192204,
      "learning_rate": 0.0001435777777777778,
      "loss": 0.0006,
      "step": 2540
    },
    {
      "epoch": 4.241666666666666,
      "grad_norm": 0.0031352476216852665,
      "learning_rate": 0.0001434666666666667,
      "loss": 0.0007,
      "step": 2545
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.1636456549167633,
      "learning_rate": 0.00014335555555555556,
      "loss": 0.0008,
      "step": 2550
    },
    {
      "epoch": 4.258333333333334,
      "grad_norm": 0.0028762212023139,
      "learning_rate": 0.00014324444444444444,
      "loss": 0.0006,
      "step": 2555
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.004973573610186577,
      "learning_rate": 0.00014313333333333333,
      "loss": 0.0006,
      "step": 2560
    },
    {
      "epoch": 4.275,
      "grad_norm": 0.002836584812030196,
      "learning_rate": 0.00014302222222222223,
      "loss": 0.0006,
      "step": 2565
    },
    {
      "epoch": 4.283333333333333,
      "grad_norm": 0.0034624789841473103,
      "learning_rate": 0.00014291111111111113,
      "loss": 0.0006,
      "step": 2570
    },
    {
      "epoch": 4.291666666666667,
      "grad_norm": 0.00192590884398669,
      "learning_rate": 0.0001428,
      "loss": 0.0006,
      "step": 2575
    },
    {
      "epoch": 4.3,
      "grad_norm": 0.0027950166258960962,
      "learning_rate": 0.0001426888888888889,
      "loss": 0.0006,
      "step": 2580
    },
    {
      "epoch": 4.308333333333334,
      "grad_norm": 0.0025151772424578667,
      "learning_rate": 0.0001425777777777778,
      "loss": 0.0005,
      "step": 2585
    },
    {
      "epoch": 4.316666666666666,
      "grad_norm": 0.0021823071874678135,
      "learning_rate": 0.00014246666666666667,
      "loss": 0.0006,
      "step": 2590
    },
    {
      "epoch": 4.325,
      "grad_norm": 0.0031404937617480755,
      "learning_rate": 0.00014235555555555554,
      "loss": 0.0007,
      "step": 2595
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.0077391634695231915,
      "learning_rate": 0.00014224444444444444,
      "loss": 0.0006,
      "step": 2600
    },
    {
      "epoch": 4.333333333333333,
      "eval_accuracy": 0.8966666666666666,
      "eval_f1": 0.8969860932864521,
      "eval_loss": 0.574761152267456,
      "eval_precision": 0.9043196666549776,
      "eval_recall": 0.8966666666666666,
      "eval_runtime": 17.2977,
      "eval_samples_per_second": 138.747,
      "eval_steps_per_second": 17.343,
      "step": 2600
    },
    {
      "epoch": 4.341666666666667,
      "grad_norm": 0.001999662024900317,
      "learning_rate": 0.00014213333333333334,
      "loss": 0.0005,
      "step": 2605
    },
    {
      "epoch": 4.35,
      "grad_norm": 0.0025739732664078474,
      "learning_rate": 0.00014202222222222224,
      "loss": 0.0005,
      "step": 2610
    },
    {
      "epoch": 4.358333333333333,
      "grad_norm": 0.0028773676604032516,
      "learning_rate": 0.00014191111111111113,
      "loss": 0.0005,
      "step": 2615
    },
    {
      "epoch": 4.366666666666666,
      "grad_norm": 0.0026494301855564117,
      "learning_rate": 0.0001418,
      "loss": 0.0005,
      "step": 2620
    },
    {
      "epoch": 4.375,
      "grad_norm": 0.002746234880760312,
      "learning_rate": 0.0001416888888888889,
      "loss": 0.0005,
      "step": 2625
    },
    {
      "epoch": 4.383333333333334,
      "grad_norm": 0.0014886925928294659,
      "learning_rate": 0.00014157777777777777,
      "loss": 0.0005,
      "step": 2630
    },
    {
      "epoch": 4.391666666666667,
      "grad_norm": 0.002594510093331337,
      "learning_rate": 0.00014146666666666667,
      "loss": 0.0005,
      "step": 2635
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.004075936507433653,
      "learning_rate": 0.00014135555555555554,
      "loss": 0.0005,
      "step": 2640
    },
    {
      "epoch": 4.408333333333333,
      "grad_norm": 0.002209228230640292,
      "learning_rate": 0.00014124444444444444,
      "loss": 0.0005,
      "step": 2645
    },
    {
      "epoch": 4.416666666666667,
      "grad_norm": 0.0026824125088751316,
      "learning_rate": 0.00014113333333333334,
      "loss": 0.0005,
      "step": 2650
    },
    {
      "epoch": 4.425,
      "grad_norm": 0.002674804301932454,
      "learning_rate": 0.00014102222222222224,
      "loss": 0.0005,
      "step": 2655
    },
    {
      "epoch": 4.433333333333334,
      "grad_norm": 0.002218471607193351,
      "learning_rate": 0.00014091111111111114,
      "loss": 0.0005,
      "step": 2660
    },
    {
      "epoch": 4.441666666666666,
      "grad_norm": 0.0032282571773976088,
      "learning_rate": 0.0001408,
      "loss": 0.0005,
      "step": 2665
    },
    {
      "epoch": 4.45,
      "grad_norm": 0.0019050503615289927,
      "learning_rate": 0.0001406888888888889,
      "loss": 0.0005,
      "step": 2670
    },
    {
      "epoch": 4.458333333333333,
      "grad_norm": 0.0035364993382245302,
      "learning_rate": 0.00014057777777777778,
      "loss": 0.0005,
      "step": 2675
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 0.002214940031990409,
      "learning_rate": 0.00014046666666666667,
      "loss": 0.0005,
      "step": 2680
    },
    {
      "epoch": 4.475,
      "grad_norm": 0.0023591979406774044,
      "learning_rate": 0.00014035555555555555,
      "loss": 0.0005,
      "step": 2685
    },
    {
      "epoch": 4.483333333333333,
      "grad_norm": 0.0018477700650691986,
      "learning_rate": 0.00014024444444444444,
      "loss": 0.0004,
      "step": 2690
    },
    {
      "epoch": 4.491666666666666,
      "grad_norm": 0.0022096072789281607,
      "learning_rate": 0.00014013333333333334,
      "loss": 0.0005,
      "step": 2695
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.0019543273374438286,
      "learning_rate": 0.00014002222222222224,
      "loss": 0.0005,
      "step": 2700
    },
    {
      "epoch": 4.5,
      "eval_accuracy": 0.89625,
      "eval_f1": 0.8965535033929893,
      "eval_loss": 0.57966548204422,
      "eval_precision": 0.9034963368453439,
      "eval_recall": 0.89625,
      "eval_runtime": 17.6016,
      "eval_samples_per_second": 136.351,
      "eval_steps_per_second": 17.044,
      "step": 2700
    },
    {
      "epoch": 4.508333333333333,
      "grad_norm": 0.0018290464067831635,
      "learning_rate": 0.00013991111111111114,
      "loss": 0.0004,
      "step": 2705
    },
    {
      "epoch": 4.516666666666667,
      "grad_norm": 0.002482857322320342,
      "learning_rate": 0.0001398,
      "loss": 0.0006,
      "step": 2710
    },
    {
      "epoch": 4.525,
      "grad_norm": 0.002118943026289344,
      "learning_rate": 0.00013968888888888888,
      "loss": 0.0005,
      "step": 2715
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.0016177311772480607,
      "learning_rate": 0.00013957777777777778,
      "loss": 0.0005,
      "step": 2720
    },
    {
      "epoch": 4.541666666666667,
      "grad_norm": 0.007732017897069454,
      "learning_rate": 0.00013946666666666668,
      "loss": 0.0005,
      "step": 2725
    },
    {
      "epoch": 4.55,
      "grad_norm": 0.002738809445872903,
      "learning_rate": 0.00013935555555555558,
      "loss": 0.0004,
      "step": 2730
    },
    {
      "epoch": 4.558333333333334,
      "grad_norm": 0.0016253958456218243,
      "learning_rate": 0.00013924444444444445,
      "loss": 0.0004,
      "step": 2735
    },
    {
      "epoch": 4.566666666666666,
      "grad_norm": 0.0017825576942414045,
      "learning_rate": 0.00013913333333333335,
      "loss": 0.0006,
      "step": 2740
    },
    {
      "epoch": 4.575,
      "grad_norm": 0.0021646174136549234,
      "learning_rate": 0.00013902222222222224,
      "loss": 0.0004,
      "step": 2745
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.0049246735870838165,
      "learning_rate": 0.00013891111111111111,
      "loss": 0.0004,
      "step": 2750
    },
    {
      "epoch": 4.591666666666667,
      "grad_norm": 0.006074646487832069,
      "learning_rate": 0.00013879999999999999,
      "loss": 0.0004,
      "step": 2755
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.0020214677788317204,
      "learning_rate": 0.00013868888888888888,
      "loss": 0.0004,
      "step": 2760
    },
    {
      "epoch": 4.608333333333333,
      "grad_norm": 0.002407652558758855,
      "learning_rate": 0.00013857777777777778,
      "loss": 0.0005,
      "step": 2765
    },
    {
      "epoch": 4.616666666666667,
      "grad_norm": 0.0015125458594411612,
      "learning_rate": 0.00013846666666666668,
      "loss": 0.0004,
      "step": 2770
    },
    {
      "epoch": 4.625,
      "grad_norm": 0.0014864656841382384,
      "learning_rate": 0.00013835555555555558,
      "loss": 0.0004,
      "step": 2775
    },
    {
      "epoch": 4.633333333333333,
      "grad_norm": 0.0026980172842741013,
      "learning_rate": 0.00013824444444444445,
      "loss": 0.0108,
      "step": 2780
    },
    {
      "epoch": 4.641666666666667,
      "grad_norm": 0.0019119129283353686,
      "learning_rate": 0.00013813333333333335,
      "loss": 0.0004,
      "step": 2785
    },
    {
      "epoch": 4.65,
      "grad_norm": 0.014654245227575302,
      "learning_rate": 0.00013802222222222222,
      "loss": 0.003,
      "step": 2790
    },
    {
      "epoch": 4.658333333333333,
      "grad_norm": 0.0024814193602651358,
      "learning_rate": 0.00013791111111111112,
      "loss": 0.0021,
      "step": 2795
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.0021744852419942617,
      "learning_rate": 0.0001378,
      "loss": 0.0006,
      "step": 2800
    },
    {
      "epoch": 4.666666666666667,
      "eval_accuracy": 0.855,
      "eval_f1": 0.8533501929978111,
      "eval_loss": 0.8572934865951538,
      "eval_precision": 0.8741463507004659,
      "eval_recall": 0.855,
      "eval_runtime": 17.4871,
      "eval_samples_per_second": 137.244,
      "eval_steps_per_second": 17.155,
      "step": 2800
    },
    {
      "epoch": 4.675,
      "grad_norm": 13.282856941223145,
      "learning_rate": 0.0001376888888888889,
      "loss": 0.0357,
      "step": 2805
    },
    {
      "epoch": 4.683333333333334,
      "grad_norm": 0.01084210630506277,
      "learning_rate": 0.00013757777777777778,
      "loss": 0.0004,
      "step": 2810
    },
    {
      "epoch": 4.691666666666666,
      "grad_norm": 0.001905974349938333,
      "learning_rate": 0.00013746666666666668,
      "loss": 0.0683,
      "step": 2815
    },
    {
      "epoch": 4.7,
      "grad_norm": 8.076287269592285,
      "learning_rate": 0.00013735555555555558,
      "loss": 0.0945,
      "step": 2820
    },
    {
      "epoch": 4.708333333333333,
      "grad_norm": 0.0019449335522949696,
      "learning_rate": 0.00013724444444444445,
      "loss": 0.0004,
      "step": 2825
    },
    {
      "epoch": 4.716666666666667,
      "grad_norm": 0.0017690727254375815,
      "learning_rate": 0.00013713333333333332,
      "loss": 0.0586,
      "step": 2830
    },
    {
      "epoch": 4.725,
      "grad_norm": 0.002880123211070895,
      "learning_rate": 0.00013702222222222222,
      "loss": 0.0842,
      "step": 2835
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 3.1862356662750244,
      "learning_rate": 0.00013691111111111112,
      "loss": 0.072,
      "step": 2840
    },
    {
      "epoch": 4.741666666666667,
      "grad_norm": 0.002137222560122609,
      "learning_rate": 0.00013680000000000002,
      "loss": 0.0184,
      "step": 2845
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.2246892899274826,
      "learning_rate": 0.0001366888888888889,
      "loss": 0.0035,
      "step": 2850
    },
    {
      "epoch": 4.758333333333333,
      "grad_norm": 0.5492168068885803,
      "learning_rate": 0.0001365777777777778,
      "loss": 0.0045,
      "step": 2855
    },
    {
      "epoch": 4.766666666666667,
      "grad_norm": 0.02914353273808956,
      "learning_rate": 0.00013646666666666669,
      "loss": 0.0006,
      "step": 2860
    },
    {
      "epoch": 4.775,
      "grad_norm": 0.0123362448066473,
      "learning_rate": 0.00013637777777777778,
      "loss": 0.2843,
      "step": 2865
    },
    {
      "epoch": 4.783333333333333,
      "grad_norm": 0.03645666316151619,
      "learning_rate": 0.00013626666666666668,
      "loss": 0.0546,
      "step": 2870
    },
    {
      "epoch": 4.791666666666667,
      "grad_norm": 0.008310888893902302,
      "learning_rate": 0.00013615555555555558,
      "loss": 0.0005,
      "step": 2875
    },
    {
      "epoch": 4.8,
      "grad_norm": 5.8642897605896,
      "learning_rate": 0.00013604444444444445,
      "loss": 0.1226,
      "step": 2880
    },
    {
      "epoch": 4.808333333333334,
      "grad_norm": 0.12064321339130402,
      "learning_rate": 0.00013593333333333332,
      "loss": 0.0011,
      "step": 2885
    },
    {
      "epoch": 4.816666666666666,
      "grad_norm": 0.0037508071400225163,
      "learning_rate": 0.00013582222222222222,
      "loss": 0.0009,
      "step": 2890
    },
    {
      "epoch": 4.825,
      "grad_norm": 0.01345887128263712,
      "learning_rate": 0.00013571111111111112,
      "loss": 0.003,
      "step": 2895
    },
    {
      "epoch": 4.833333333333333,
      "grad_norm": 0.0017106750747188926,
      "learning_rate": 0.00013560000000000002,
      "loss": 0.0006,
      "step": 2900
    },
    {
      "epoch": 4.833333333333333,
      "eval_accuracy": 0.8445833333333334,
      "eval_f1": 0.8415123009928794,
      "eval_loss": 0.754795253276825,
      "eval_precision": 0.8617479065823032,
      "eval_recall": 0.8445833333333334,
      "eval_runtime": 17.336,
      "eval_samples_per_second": 138.44,
      "eval_steps_per_second": 17.305,
      "step": 2900
    },
    {
      "epoch": 4.841666666666667,
      "grad_norm": 0.1579921543598175,
      "learning_rate": 0.0001354888888888889,
      "loss": 0.0207,
      "step": 2905
    },
    {
      "epoch": 4.85,
      "grad_norm": 0.016644319519400597,
      "learning_rate": 0.00013537777777777779,
      "loss": 0.0005,
      "step": 2910
    },
    {
      "epoch": 4.858333333333333,
      "grad_norm": 0.0025971170980483294,
      "learning_rate": 0.00013526666666666668,
      "loss": 0.0179,
      "step": 2915
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 0.05949670076370239,
      "learning_rate": 0.00013515555555555556,
      "loss": 0.0024,
      "step": 2920
    },
    {
      "epoch": 4.875,
      "grad_norm": 9.444520950317383,
      "learning_rate": 0.00013504444444444445,
      "loss": 0.0226,
      "step": 2925
    },
    {
      "epoch": 4.883333333333333,
      "grad_norm": 0.016945267096161842,
      "learning_rate": 0.00013493333333333332,
      "loss": 0.0008,
      "step": 2930
    },
    {
      "epoch": 4.891666666666667,
      "grad_norm": 6.472504615783691,
      "learning_rate": 0.00013482222222222222,
      "loss": 0.0275,
      "step": 2935
    },
    {
      "epoch": 4.9,
      "grad_norm": 0.0030138578731566668,
      "learning_rate": 0.00013471111111111112,
      "loss": 0.0005,
      "step": 2940
    },
    {
      "epoch": 4.908333333333333,
      "grad_norm": 0.002244808478280902,
      "learning_rate": 0.00013460000000000002,
      "loss": 0.0012,
      "step": 2945
    },
    {
      "epoch": 4.916666666666667,
      "grad_norm": 0.0019097230397164822,
      "learning_rate": 0.0001344888888888889,
      "loss": 0.0004,
      "step": 2950
    },
    {
      "epoch": 4.925,
      "grad_norm": 0.0052161612547934055,
      "learning_rate": 0.0001343777777777778,
      "loss": 0.0364,
      "step": 2955
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.008785402402281761,
      "learning_rate": 0.0001342666666666667,
      "loss": 0.0057,
      "step": 2960
    },
    {
      "epoch": 4.941666666666666,
      "grad_norm": 0.012299603782594204,
      "learning_rate": 0.00013415555555555556,
      "loss": 0.1138,
      "step": 2965
    },
    {
      "epoch": 4.95,
      "grad_norm": 7.19777774810791,
      "learning_rate": 0.00013404444444444446,
      "loss": 0.0422,
      "step": 2970
    },
    {
      "epoch": 4.958333333333333,
      "grad_norm": 0.01734132133424282,
      "learning_rate": 0.00013393333333333333,
      "loss": 0.0779,
      "step": 2975
    },
    {
      "epoch": 4.966666666666667,
      "grad_norm": 0.005972637329250574,
      "learning_rate": 0.00013382222222222223,
      "loss": 0.0027,
      "step": 2980
    },
    {
      "epoch": 4.975,
      "grad_norm": 0.17703604698181152,
      "learning_rate": 0.00013371111111111112,
      "loss": 0.1883,
      "step": 2985
    },
    {
      "epoch": 4.983333333333333,
      "grad_norm": 0.016162624582648277,
      "learning_rate": 0.00013360000000000002,
      "loss": 0.0343,
      "step": 2990
    },
    {
      "epoch": 4.991666666666667,
      "grad_norm": 0.015555117279291153,
      "learning_rate": 0.0001334888888888889,
      "loss": 0.0656,
      "step": 2995
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.009704116731882095,
      "learning_rate": 0.0001333777777777778,
      "loss": 0.0019,
      "step": 3000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.8733333333333333,
      "eval_f1": 0.8714449039371338,
      "eval_loss": 0.6472746729850769,
      "eval_precision": 0.8849846190388795,
      "eval_recall": 0.8733333333333333,
      "eval_runtime": 17.6104,
      "eval_samples_per_second": 136.283,
      "eval_steps_per_second": 17.035,
      "step": 3000
    },
    {
      "epoch": 5.008333333333334,
      "grad_norm": 0.006771671120077372,
      "learning_rate": 0.00013326666666666666,
      "loss": 0.0014,
      "step": 3005
    },
    {
      "epoch": 5.016666666666667,
      "grad_norm": 0.004050440154969692,
      "learning_rate": 0.00013315555555555556,
      "loss": 0.0033,
      "step": 3010
    },
    {
      "epoch": 5.025,
      "grad_norm": 0.00872737169265747,
      "learning_rate": 0.00013304444444444446,
      "loss": 0.0016,
      "step": 3015
    },
    {
      "epoch": 5.033333333333333,
      "grad_norm": 0.005520438309758902,
      "learning_rate": 0.00013293333333333333,
      "loss": 0.0046,
      "step": 3020
    },
    {
      "epoch": 5.041666666666667,
      "grad_norm": 0.2264736443758011,
      "learning_rate": 0.00013282222222222223,
      "loss": 0.0071,
      "step": 3025
    },
    {
      "epoch": 5.05,
      "grad_norm": 0.004222396295517683,
      "learning_rate": 0.00013271111111111113,
      "loss": 0.1514,
      "step": 3030
    },
    {
      "epoch": 5.058333333333334,
      "grad_norm": 0.008012593723833561,
      "learning_rate": 0.00013260000000000002,
      "loss": 0.0037,
      "step": 3035
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.0023156246170401573,
      "learning_rate": 0.0001324888888888889,
      "loss": 0.0411,
      "step": 3040
    },
    {
      "epoch": 5.075,
      "grad_norm": 0.0022691155318170786,
      "learning_rate": 0.00013237777777777777,
      "loss": 0.003,
      "step": 3045
    },
    {
      "epoch": 5.083333333333333,
      "grad_norm": 0.002279402920976281,
      "learning_rate": 0.00013226666666666667,
      "loss": 0.0005,
      "step": 3050
    },
    {
      "epoch": 5.091666666666667,
      "grad_norm": 0.10625676065683365,
      "learning_rate": 0.00013215555555555556,
      "loss": 0.0007,
      "step": 3055
    },
    {
      "epoch": 5.1,
      "grad_norm": 0.05557141825556755,
      "learning_rate": 0.00013204444444444446,
      "loss": 0.0064,
      "step": 3060
    },
    {
      "epoch": 5.108333333333333,
      "grad_norm": 0.004349886905401945,
      "learning_rate": 0.00013193333333333333,
      "loss": 0.0005,
      "step": 3065
    },
    {
      "epoch": 5.116666666666666,
      "grad_norm": 0.0037977471947669983,
      "learning_rate": 0.00013182222222222223,
      "loss": 0.0279,
      "step": 3070
    },
    {
      "epoch": 5.125,
      "grad_norm": 0.7578153014183044,
      "learning_rate": 0.00013171111111111113,
      "loss": 0.0015,
      "step": 3075
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 0.5718327760696411,
      "learning_rate": 0.0001316,
      "loss": 0.0014,
      "step": 3080
    },
    {
      "epoch": 5.141666666666667,
      "grad_norm": 0.4355151951313019,
      "learning_rate": 0.0001314888888888889,
      "loss": 0.0012,
      "step": 3085
    },
    {
      "epoch": 5.15,
      "grad_norm": 0.054235756397247314,
      "learning_rate": 0.00013137777777777777,
      "loss": 0.0009,
      "step": 3090
    },
    {
      "epoch": 5.158333333333333,
      "grad_norm": 6.557177543640137,
      "learning_rate": 0.00013126666666666667,
      "loss": 0.0101,
      "step": 3095
    },
    {
      "epoch": 5.166666666666667,
      "grad_norm": 0.0023339425679296255,
      "learning_rate": 0.00013115555555555557,
      "loss": 0.0469,
      "step": 3100
    },
    {
      "epoch": 5.166666666666667,
      "eval_accuracy": 0.8258333333333333,
      "eval_f1": 0.8273968079796609,
      "eval_loss": 0.8790284395217896,
      "eval_precision": 0.8367617127292097,
      "eval_recall": 0.8258333333333333,
      "eval_runtime": 17.5082,
      "eval_samples_per_second": 137.079,
      "eval_steps_per_second": 17.135,
      "step": 3100
    },
    {
      "epoch": 5.175,
      "grad_norm": 5.869709014892578,
      "learning_rate": 0.00013104444444444446,
      "loss": 0.008,
      "step": 3105
    },
    {
      "epoch": 5.183333333333334,
      "grad_norm": 0.0021200943738222122,
      "learning_rate": 0.00013093333333333334,
      "loss": 0.0007,
      "step": 3110
    },
    {
      "epoch": 5.191666666666666,
      "grad_norm": 0.0016469627153128386,
      "learning_rate": 0.00013082222222222223,
      "loss": 0.0009,
      "step": 3115
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.0017884867265820503,
      "learning_rate": 0.0001307111111111111,
      "loss": 0.0817,
      "step": 3120
    },
    {
      "epoch": 5.208333333333333,
      "grad_norm": 1.8239507675170898,
      "learning_rate": 0.0001306,
      "loss": 0.0042,
      "step": 3125
    },
    {
      "epoch": 5.216666666666667,
      "grad_norm": 8.104567527770996,
      "learning_rate": 0.0001304888888888889,
      "loss": 0.056,
      "step": 3130
    },
    {
      "epoch": 5.225,
      "grad_norm": 0.0025653052143752575,
      "learning_rate": 0.00013037777777777777,
      "loss": 0.0005,
      "step": 3135
    },
    {
      "epoch": 5.233333333333333,
      "grad_norm": 10.982678413391113,
      "learning_rate": 0.00013026666666666667,
      "loss": 0.0975,
      "step": 3140
    },
    {
      "epoch": 5.241666666666666,
      "grad_norm": 0.0019072515424340963,
      "learning_rate": 0.00013015555555555557,
      "loss": 0.0967,
      "step": 3145
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.0025458415038883686,
      "learning_rate": 0.00013004444444444447,
      "loss": 0.0004,
      "step": 3150
    },
    {
      "epoch": 5.258333333333334,
      "grad_norm": 0.010464404709637165,
      "learning_rate": 0.00012993333333333334,
      "loss": 0.0034,
      "step": 3155
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 0.0017434442415833473,
      "learning_rate": 0.0001298222222222222,
      "loss": 0.0004,
      "step": 3160
    },
    {
      "epoch": 5.275,
      "grad_norm": 0.0025979294441640377,
      "learning_rate": 0.0001297111111111111,
      "loss": 0.0227,
      "step": 3165
    },
    {
      "epoch": 5.283333333333333,
      "grad_norm": 0.31124603748321533,
      "learning_rate": 0.0001296,
      "loss": 0.0376,
      "step": 3170
    },
    {
      "epoch": 5.291666666666667,
      "grad_norm": 0.0016426426591351628,
      "learning_rate": 0.0001294888888888889,
      "loss": 0.0005,
      "step": 3175
    },
    {
      "epoch": 5.3,
      "grad_norm": 2.483379364013672,
      "learning_rate": 0.00012937777777777778,
      "loss": 0.0376,
      "step": 3180
    },
    {
      "epoch": 5.308333333333334,
      "grad_norm": 0.001770497765392065,
      "learning_rate": 0.00012926666666666667,
      "loss": 0.0152,
      "step": 3185
    },
    {
      "epoch": 5.316666666666666,
      "grad_norm": 13.9141263961792,
      "learning_rate": 0.00012915555555555557,
      "loss": 0.034,
      "step": 3190
    },
    {
      "epoch": 5.325,
      "grad_norm": 6.280963897705078,
      "learning_rate": 0.00012904444444444447,
      "loss": 0.0704,
      "step": 3195
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.002301949542015791,
      "learning_rate": 0.00012893333333333334,
      "loss": 0.0271,
      "step": 3200
    },
    {
      "epoch": 5.333333333333333,
      "eval_accuracy": 0.7525,
      "eval_f1": 0.7429995847523636,
      "eval_loss": 1.653188943862915,
      "eval_precision": 0.832845523543317,
      "eval_recall": 0.7525,
      "eval_runtime": 17.5184,
      "eval_samples_per_second": 136.999,
      "eval_steps_per_second": 17.125,
      "step": 3200
    },
    {
      "epoch": 5.341666666666667,
      "grad_norm": 4.021807670593262,
      "learning_rate": 0.0001288222222222222,
      "loss": 0.1103,
      "step": 3205
    },
    {
      "epoch": 5.35,
      "grad_norm": 0.008310925215482712,
      "learning_rate": 0.0001287111111111111,
      "loss": 0.0053,
      "step": 3210
    },
    {
      "epoch": 5.358333333333333,
      "grad_norm": 0.0036079809069633484,
      "learning_rate": 0.0001286,
      "loss": 0.0199,
      "step": 3215
    },
    {
      "epoch": 5.366666666666666,
      "grad_norm": 0.015376843512058258,
      "learning_rate": 0.0001284888888888889,
      "loss": 0.2928,
      "step": 3220
    },
    {
      "epoch": 5.375,
      "grad_norm": 0.0024658869951963425,
      "learning_rate": 0.00012837777777777778,
      "loss": 0.0141,
      "step": 3225
    },
    {
      "epoch": 5.383333333333334,
      "grad_norm": 4.7635931968688965,
      "learning_rate": 0.00012826666666666668,
      "loss": 0.0417,
      "step": 3230
    },
    {
      "epoch": 5.391666666666667,
      "grad_norm": 0.009536437690258026,
      "learning_rate": 0.00012815555555555557,
      "loss": 0.0008,
      "step": 3235
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.027292419224977493,
      "learning_rate": 0.00012804444444444445,
      "loss": 0.0061,
      "step": 3240
    },
    {
      "epoch": 5.408333333333333,
      "grad_norm": 0.08291417360305786,
      "learning_rate": 0.00012793333333333334,
      "loss": 0.0045,
      "step": 3245
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.016424935311079025,
      "learning_rate": 0.00012782222222222222,
      "loss": 0.0732,
      "step": 3250
    },
    {
      "epoch": 5.425,
      "grad_norm": 0.0019142045639455318,
      "learning_rate": 0.0001277111111111111,
      "loss": 0.0034,
      "step": 3255
    },
    {
      "epoch": 5.433333333333334,
      "grad_norm": 0.002493426436558366,
      "learning_rate": 0.0001276,
      "loss": 0.0011,
      "step": 3260
    },
    {
      "epoch": 5.441666666666666,
      "grad_norm": 0.005012031178921461,
      "learning_rate": 0.0001274888888888889,
      "loss": 0.0052,
      "step": 3265
    },
    {
      "epoch": 5.45,
      "grad_norm": 0.0034317756071686745,
      "learning_rate": 0.00012737777777777778,
      "loss": 0.0015,
      "step": 3270
    },
    {
      "epoch": 5.458333333333333,
      "grad_norm": 0.018864091485738754,
      "learning_rate": 0.00012726666666666668,
      "loss": 0.0071,
      "step": 3275
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 1.496051549911499,
      "learning_rate": 0.00012715555555555555,
      "loss": 0.0028,
      "step": 3280
    },
    {
      "epoch": 5.475,
      "grad_norm": 0.003392173908650875,
      "learning_rate": 0.00012704444444444445,
      "loss": 0.09,
      "step": 3285
    },
    {
      "epoch": 5.483333333333333,
      "grad_norm": 0.05252930149435997,
      "learning_rate": 0.00012693333333333335,
      "loss": 0.0317,
      "step": 3290
    },
    {
      "epoch": 5.491666666666666,
      "grad_norm": 0.001968113938346505,
      "learning_rate": 0.00012682222222222222,
      "loss": 0.0011,
      "step": 3295
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.0026210846845060587,
      "learning_rate": 0.00012671111111111112,
      "loss": 0.0005,
      "step": 3300
    },
    {
      "epoch": 5.5,
      "eval_accuracy": 0.8654166666666666,
      "eval_f1": 0.8659538102277841,
      "eval_loss": 0.7738529443740845,
      "eval_precision": 0.8743094366667922,
      "eval_recall": 0.8654166666666666,
      "eval_runtime": 17.4422,
      "eval_samples_per_second": 137.597,
      "eval_steps_per_second": 17.2,
      "step": 3300
    },
    {
      "epoch": 5.508333333333333,
      "grad_norm": 0.016507508233189583,
      "learning_rate": 0.00012660000000000001,
      "loss": 0.0006,
      "step": 3305
    },
    {
      "epoch": 5.516666666666667,
      "grad_norm": 0.004741272889077663,
      "learning_rate": 0.0001264888888888889,
      "loss": 0.0006,
      "step": 3310
    },
    {
      "epoch": 5.525,
      "grad_norm": 0.0017460114322602749,
      "learning_rate": 0.00012637777777777778,
      "loss": 0.0205,
      "step": 3315
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.0021416540257632732,
      "learning_rate": 0.00012626666666666665,
      "loss": 0.0005,
      "step": 3320
    },
    {
      "epoch": 5.541666666666667,
      "grad_norm": 0.0013594377087429166,
      "learning_rate": 0.00012615555555555555,
      "loss": 0.0008,
      "step": 3325
    },
    {
      "epoch": 5.55,
      "grad_norm": 0.0028063126374036074,
      "learning_rate": 0.00012604444444444445,
      "loss": 0.0004,
      "step": 3330
    },
    {
      "epoch": 5.558333333333334,
      "grad_norm": 0.017541859298944473,
      "learning_rate": 0.00012593333333333335,
      "loss": 0.0005,
      "step": 3335
    },
    {
      "epoch": 5.566666666666666,
      "grad_norm": 2.1470248699188232,
      "learning_rate": 0.00012582222222222222,
      "loss": 0.0034,
      "step": 3340
    },
    {
      "epoch": 5.575,
      "grad_norm": 0.01083587296307087,
      "learning_rate": 0.00012571111111111112,
      "loss": 0.0046,
      "step": 3345
    },
    {
      "epoch": 5.583333333333333,
      "grad_norm": 0.0014914445346221328,
      "learning_rate": 0.00012560000000000002,
      "loss": 0.0003,
      "step": 3350
    },
    {
      "epoch": 5.591666666666667,
      "grad_norm": 0.0049253227189183235,
      "learning_rate": 0.0001254888888888889,
      "loss": 0.1875,
      "step": 3355
    },
    {
      "epoch": 5.6,
      "grad_norm": 2.527118682861328,
      "learning_rate": 0.0001253777777777778,
      "loss": 0.0841,
      "step": 3360
    },
    {
      "epoch": 5.608333333333333,
      "grad_norm": 0.004939824342727661,
      "learning_rate": 0.00012526666666666666,
      "loss": 0.006,
      "step": 3365
    },
    {
      "epoch": 5.616666666666667,
      "grad_norm": 0.0017670552479103208,
      "learning_rate": 0.00012515555555555556,
      "loss": 0.0308,
      "step": 3370
    },
    {
      "epoch": 5.625,
      "grad_norm": 4.833652973175049,
      "learning_rate": 0.00012504444444444445,
      "loss": 0.0839,
      "step": 3375
    },
    {
      "epoch": 5.633333333333333,
      "grad_norm": 0.04689953476190567,
      "learning_rate": 0.00012493333333333335,
      "loss": 0.0007,
      "step": 3380
    },
    {
      "epoch": 5.641666666666667,
      "grad_norm": 0.00734031992033124,
      "learning_rate": 0.00012482222222222222,
      "loss": 0.1068,
      "step": 3385
    },
    {
      "epoch": 5.65,
      "grad_norm": 0.001924704178236425,
      "learning_rate": 0.00012471111111111112,
      "loss": 0.1036,
      "step": 3390
    },
    {
      "epoch": 5.658333333333333,
      "grad_norm": 0.012536194175481796,
      "learning_rate": 0.0001246,
      "loss": 0.0009,
      "step": 3395
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 2.5715599060058594,
      "learning_rate": 0.0001244888888888889,
      "loss": 0.1697,
      "step": 3400
    },
    {
      "epoch": 5.666666666666667,
      "eval_accuracy": 0.8591666666666666,
      "eval_f1": 0.8612448129962599,
      "eval_loss": 0.7311152219772339,
      "eval_precision": 0.881649414300762,
      "eval_recall": 0.8591666666666666,
      "eval_runtime": 17.3739,
      "eval_samples_per_second": 138.138,
      "eval_steps_per_second": 17.267,
      "step": 3400
    },
    {
      "epoch": 5.675,
      "grad_norm": 0.0033850325271487236,
      "learning_rate": 0.0001243777777777778,
      "loss": 0.0013,
      "step": 3405
    },
    {
      "epoch": 5.683333333333334,
      "grad_norm": 0.01964281126856804,
      "learning_rate": 0.00012426666666666666,
      "loss": 0.0009,
      "step": 3410
    },
    {
      "epoch": 5.691666666666666,
      "grad_norm": 0.00858697947114706,
      "learning_rate": 0.00012415555555555556,
      "loss": 0.0013,
      "step": 3415
    },
    {
      "epoch": 5.7,
      "grad_norm": 0.09200410544872284,
      "learning_rate": 0.00012404444444444446,
      "loss": 0.0019,
      "step": 3420
    },
    {
      "epoch": 5.708333333333333,
      "grad_norm": 9.945969581604004,
      "learning_rate": 0.00012393333333333336,
      "loss": 0.026,
      "step": 3425
    },
    {
      "epoch": 5.716666666666667,
      "grad_norm": 0.0023023963440209627,
      "learning_rate": 0.00012382222222222223,
      "loss": 0.0051,
      "step": 3430
    },
    {
      "epoch": 5.725,
      "grad_norm": 0.0024963514879345894,
      "learning_rate": 0.0001237111111111111,
      "loss": 0.0008,
      "step": 3435
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.005243390332907438,
      "learning_rate": 0.0001236,
      "loss": 0.0007,
      "step": 3440
    },
    {
      "epoch": 5.741666666666667,
      "grad_norm": 0.0018213752191513777,
      "learning_rate": 0.0001234888888888889,
      "loss": 0.0005,
      "step": 3445
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.0018132679397240281,
      "learning_rate": 0.0001233777777777778,
      "loss": 0.0016,
      "step": 3450
    },
    {
      "epoch": 5.758333333333333,
      "grad_norm": 0.0019126601982861757,
      "learning_rate": 0.00012326666666666666,
      "loss": 0.0005,
      "step": 3455
    },
    {
      "epoch": 5.766666666666667,
      "grad_norm": 0.0018284831894561648,
      "learning_rate": 0.00012315555555555556,
      "loss": 0.0488,
      "step": 3460
    },
    {
      "epoch": 5.775,
      "grad_norm": 0.08707120269536972,
      "learning_rate": 0.00012304444444444446,
      "loss": 0.0024,
      "step": 3465
    },
    {
      "epoch": 5.783333333333333,
      "grad_norm": 4.136368274688721,
      "learning_rate": 0.00012293333333333336,
      "loss": 0.2645,
      "step": 3470
    },
    {
      "epoch": 5.791666666666667,
      "grad_norm": 0.00247742235660553,
      "learning_rate": 0.00012282222222222223,
      "loss": 0.0005,
      "step": 3475
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.005723950453102589,
      "learning_rate": 0.0001227111111111111,
      "loss": 0.002,
      "step": 3480
    },
    {
      "epoch": 5.808333333333334,
      "grad_norm": 0.0037300041876733303,
      "learning_rate": 0.0001226,
      "loss": 0.0573,
      "step": 3485
    },
    {
      "epoch": 5.816666666666666,
      "grad_norm": 5.5725932121276855,
      "learning_rate": 0.0001224888888888889,
      "loss": 0.1119,
      "step": 3490
    },
    {
      "epoch": 5.825,
      "grad_norm": 0.004148167558014393,
      "learning_rate": 0.0001223777777777778,
      "loss": 0.0813,
      "step": 3495
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 2.003502368927002,
      "learning_rate": 0.00012226666666666667,
      "loss": 0.0162,
      "step": 3500
    },
    {
      "epoch": 5.833333333333333,
      "eval_accuracy": 0.8620833333333333,
      "eval_f1": 0.8619608015163224,
      "eval_loss": 0.7819076776504517,
      "eval_precision": 0.8677614142343483,
      "eval_recall": 0.8620833333333333,
      "eval_runtime": 17.7596,
      "eval_samples_per_second": 135.138,
      "eval_steps_per_second": 16.892,
      "step": 3500
    },
    {
      "epoch": 5.841666666666667,
      "grad_norm": 0.016711190342903137,
      "learning_rate": 0.00012215555555555556,
      "loss": 0.0008,
      "step": 3505
    },
    {
      "epoch": 5.85,
      "grad_norm": 0.006599150598049164,
      "learning_rate": 0.00012204444444444445,
      "loss": 0.0006,
      "step": 3510
    },
    {
      "epoch": 5.858333333333333,
      "grad_norm": 0.5244635939598083,
      "learning_rate": 0.00012193333333333335,
      "loss": 0.0023,
      "step": 3515
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 14.97999382019043,
      "learning_rate": 0.00012182222222222223,
      "loss": 0.0743,
      "step": 3520
    },
    {
      "epoch": 5.875,
      "grad_norm": 3.5422418117523193,
      "learning_rate": 0.0001217111111111111,
      "loss": 0.0084,
      "step": 3525
    },
    {
      "epoch": 5.883333333333333,
      "grad_norm": 0.01440401840955019,
      "learning_rate": 0.0001216,
      "loss": 0.001,
      "step": 3530
    },
    {
      "epoch": 5.891666666666667,
      "grad_norm": 0.005602931138128042,
      "learning_rate": 0.0001214888888888889,
      "loss": 0.0004,
      "step": 3535
    },
    {
      "epoch": 5.9,
      "grad_norm": 0.0046403901651501656,
      "learning_rate": 0.00012137777777777778,
      "loss": 0.0005,
      "step": 3540
    },
    {
      "epoch": 5.908333333333333,
      "grad_norm": 0.033788248896598816,
      "learning_rate": 0.00012126666666666666,
      "loss": 0.0004,
      "step": 3545
    },
    {
      "epoch": 5.916666666666667,
      "grad_norm": 0.006399640813469887,
      "learning_rate": 0.00012115555555555555,
      "loss": 0.0008,
      "step": 3550
    },
    {
      "epoch": 5.925,
      "grad_norm": 0.0014762695645913482,
      "learning_rate": 0.00012104444444444445,
      "loss": 0.0004,
      "step": 3555
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 0.0026642833836376667,
      "learning_rate": 0.00012093333333333334,
      "loss": 0.0004,
      "step": 3560
    },
    {
      "epoch": 5.941666666666666,
      "grad_norm": 0.8572157621383667,
      "learning_rate": 0.00012082222222222223,
      "loss": 0.0012,
      "step": 3565
    },
    {
      "epoch": 5.95,
      "grad_norm": 0.0021940753795206547,
      "learning_rate": 0.0001207111111111111,
      "loss": 0.0004,
      "step": 3570
    },
    {
      "epoch": 5.958333333333333,
      "grad_norm": 0.12391265481710434,
      "learning_rate": 0.0001206,
      "loss": 0.0007,
      "step": 3575
    },
    {
      "epoch": 5.966666666666667,
      "grad_norm": 0.0016076650936156511,
      "learning_rate": 0.0001204888888888889,
      "loss": 0.0003,
      "step": 3580
    },
    {
      "epoch": 5.975,
      "grad_norm": 7.2395195960998535,
      "learning_rate": 0.00012037777777777779,
      "loss": 0.0085,
      "step": 3585
    },
    {
      "epoch": 5.983333333333333,
      "grad_norm": 2.1840946674346924,
      "learning_rate": 0.00012026666666666669,
      "loss": 0.0032,
      "step": 3590
    },
    {
      "epoch": 5.991666666666667,
      "grad_norm": 0.0017138103721663356,
      "learning_rate": 0.00012015555555555556,
      "loss": 0.0004,
      "step": 3595
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.027913009747862816,
      "learning_rate": 0.00012004444444444445,
      "loss": 0.0039,
      "step": 3600
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.8091666666666667,
      "eval_f1": 0.8072960662352765,
      "eval_loss": 1.146187424659729,
      "eval_precision": 0.8281642270964236,
      "eval_recall": 0.8091666666666667,
      "eval_runtime": 17.5327,
      "eval_samples_per_second": 136.887,
      "eval_steps_per_second": 17.111,
      "step": 3600
    },
    {
      "epoch": 6.008333333333334,
      "grad_norm": 0.0018226332031190395,
      "learning_rate": 0.00011993333333333334,
      "loss": 0.0784,
      "step": 3605
    },
    {
      "epoch": 6.016666666666667,
      "grad_norm": 10.234015464782715,
      "learning_rate": 0.00011982222222222224,
      "loss": 0.0136,
      "step": 3610
    },
    {
      "epoch": 6.025,
      "grad_norm": 0.006233169697225094,
      "learning_rate": 0.00011971111111111111,
      "loss": 0.2172,
      "step": 3615
    },
    {
      "epoch": 6.033333333333333,
      "grad_norm": 4.473740100860596,
      "learning_rate": 0.00011960000000000001,
      "loss": 0.087,
      "step": 3620
    },
    {
      "epoch": 6.041666666666667,
      "grad_norm": 10.860123634338379,
      "learning_rate": 0.00011948888888888889,
      "loss": 0.1058,
      "step": 3625
    },
    {
      "epoch": 6.05,
      "grad_norm": 0.03933406248688698,
      "learning_rate": 0.00011937777777777779,
      "loss": 0.001,
      "step": 3630
    },
    {
      "epoch": 6.058333333333334,
      "grad_norm": 0.46466225385665894,
      "learning_rate": 0.00011926666666666669,
      "loss": 0.0064,
      "step": 3635
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 0.013947012834250927,
      "learning_rate": 0.00011915555555555556,
      "loss": 0.0021,
      "step": 3640
    },
    {
      "epoch": 6.075,
      "grad_norm": 0.0960894376039505,
      "learning_rate": 0.00011904444444444444,
      "loss": 0.0009,
      "step": 3645
    },
    {
      "epoch": 6.083333333333333,
      "grad_norm": 0.03674086555838585,
      "learning_rate": 0.00011893333333333334,
      "loss": 0.1925,
      "step": 3650
    },
    {
      "epoch": 6.091666666666667,
      "grad_norm": 0.003979895729571581,
      "learning_rate": 0.00011882222222222224,
      "loss": 0.0622,
      "step": 3655
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.010080799460411072,
      "learning_rate": 0.00011871111111111111,
      "loss": 0.0025,
      "step": 3660
    },
    {
      "epoch": 6.108333333333333,
      "grad_norm": 0.004944703541696072,
      "learning_rate": 0.0001186,
      "loss": 0.0007,
      "step": 3665
    },
    {
      "epoch": 6.116666666666666,
      "grad_norm": 0.005288025364279747,
      "learning_rate": 0.0001184888888888889,
      "loss": 0.0063,
      "step": 3670
    },
    {
      "epoch": 6.125,
      "grad_norm": 0.0068622916005551815,
      "learning_rate": 0.00011837777777777779,
      "loss": 0.0012,
      "step": 3675
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.00209217332303524,
      "learning_rate": 0.00011826666666666668,
      "loss": 0.0331,
      "step": 3680
    },
    {
      "epoch": 6.141666666666667,
      "grad_norm": 0.0020653598476201296,
      "learning_rate": 0.00011815555555555555,
      "loss": 0.0006,
      "step": 3685
    },
    {
      "epoch": 6.15,
      "grad_norm": 0.009891466237604618,
      "learning_rate": 0.00011804444444444445,
      "loss": 0.0011,
      "step": 3690
    },
    {
      "epoch": 6.158333333333333,
      "grad_norm": 0.0016231955960392952,
      "learning_rate": 0.00011793333333333334,
      "loss": 0.0005,
      "step": 3695
    },
    {
      "epoch": 6.166666666666667,
      "grad_norm": 0.02263728715479374,
      "learning_rate": 0.00011782222222222223,
      "loss": 0.0005,
      "step": 3700
    },
    {
      "epoch": 6.166666666666667,
      "eval_accuracy": 0.8691666666666666,
      "eval_f1": 0.8698696012521336,
      "eval_loss": 0.6624749898910522,
      "eval_precision": 0.8749849540335246,
      "eval_recall": 0.8691666666666666,
      "eval_runtime": 17.3676,
      "eval_samples_per_second": 138.188,
      "eval_steps_per_second": 17.274,
      "step": 3700
    },
    {
      "epoch": 6.175,
      "grad_norm": 0.09278427064418793,
      "learning_rate": 0.00011771111111111113,
      "loss": 0.0158,
      "step": 3705
    },
    {
      "epoch": 6.183333333333334,
      "grad_norm": 0.01745695061981678,
      "learning_rate": 0.0001176,
      "loss": 0.0004,
      "step": 3710
    },
    {
      "epoch": 6.191666666666666,
      "grad_norm": 0.002423694357275963,
      "learning_rate": 0.0001174888888888889,
      "loss": 0.0004,
      "step": 3715
    },
    {
      "epoch": 6.2,
      "grad_norm": 3.192680835723877,
      "learning_rate": 0.00011737777777777778,
      "loss": 0.091,
      "step": 3720
    },
    {
      "epoch": 6.208333333333333,
      "grad_norm": 0.0012583857169374824,
      "learning_rate": 0.00011726666666666668,
      "loss": 0.0004,
      "step": 3725
    },
    {
      "epoch": 6.216666666666667,
      "grad_norm": 0.004605144262313843,
      "learning_rate": 0.00011715555555555555,
      "loss": 0.0006,
      "step": 3730
    },
    {
      "epoch": 6.225,
      "grad_norm": 0.004153178073465824,
      "learning_rate": 0.00011704444444444445,
      "loss": 0.0007,
      "step": 3735
    },
    {
      "epoch": 6.233333333333333,
      "grad_norm": 0.003141071181744337,
      "learning_rate": 0.00011693333333333333,
      "loss": 0.0149,
      "step": 3740
    },
    {
      "epoch": 6.241666666666666,
      "grad_norm": 0.002257751300930977,
      "learning_rate": 0.00011682222222222223,
      "loss": 0.0032,
      "step": 3745
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.0023276987485587597,
      "learning_rate": 0.00011671111111111113,
      "loss": 0.0004,
      "step": 3750
    },
    {
      "epoch": 6.258333333333334,
      "grad_norm": 0.00227068061940372,
      "learning_rate": 0.0001166,
      "loss": 0.1097,
      "step": 3755
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.0025389015208929777,
      "learning_rate": 0.00011648888888888889,
      "loss": 0.0005,
      "step": 3760
    },
    {
      "epoch": 6.275,
      "grad_norm": 0.005209972150623798,
      "learning_rate": 0.00011637777777777778,
      "loss": 0.0005,
      "step": 3765
    },
    {
      "epoch": 6.283333333333333,
      "grad_norm": 0.0015825736336410046,
      "learning_rate": 0.00011626666666666668,
      "loss": 0.0005,
      "step": 3770
    },
    {
      "epoch": 6.291666666666667,
      "grad_norm": 0.007465963251888752,
      "learning_rate": 0.00011615555555555555,
      "loss": 0.0006,
      "step": 3775
    },
    {
      "epoch": 6.3,
      "grad_norm": 0.0018191882409155369,
      "learning_rate": 0.00011604444444444444,
      "loss": 0.0239,
      "step": 3780
    },
    {
      "epoch": 6.308333333333334,
      "grad_norm": 0.003955521620810032,
      "learning_rate": 0.00011593333333333334,
      "loss": 0.0059,
      "step": 3785
    },
    {
      "epoch": 6.316666666666666,
      "grad_norm": 0.002473237691447139,
      "learning_rate": 0.00011582222222222224,
      "loss": 0.0004,
      "step": 3790
    },
    {
      "epoch": 6.325,
      "grad_norm": 0.0014713724376633763,
      "learning_rate": 0.00011571111111111112,
      "loss": 0.0006,
      "step": 3795
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.006665609776973724,
      "learning_rate": 0.00011559999999999999,
      "loss": 0.0022,
      "step": 3800
    },
    {
      "epoch": 6.333333333333333,
      "eval_accuracy": 0.8079166666666666,
      "eval_f1": 0.7987599610225563,
      "eval_loss": 1.139549970626831,
      "eval_precision": 0.8245302483921386,
      "eval_recall": 0.8079166666666666,
      "eval_runtime": 17.6034,
      "eval_samples_per_second": 136.337,
      "eval_steps_per_second": 17.042,
      "step": 3800
    },
    {
      "epoch": 6.341666666666667,
      "grad_norm": 0.009388838894665241,
      "learning_rate": 0.00011548888888888889,
      "loss": 0.0008,
      "step": 3805
    },
    {
      "epoch": 6.35,
      "grad_norm": 0.002305538160726428,
      "learning_rate": 0.00011537777777777779,
      "loss": 0.0005,
      "step": 3810
    },
    {
      "epoch": 6.358333333333333,
      "grad_norm": 0.00833871215581894,
      "learning_rate": 0.00011526666666666667,
      "loss": 0.0004,
      "step": 3815
    },
    {
      "epoch": 6.366666666666666,
      "grad_norm": 0.011447874829173088,
      "learning_rate": 0.00011515555555555557,
      "loss": 0.0005,
      "step": 3820
    },
    {
      "epoch": 6.375,
      "grad_norm": 0.0014618962304666638,
      "learning_rate": 0.00011504444444444444,
      "loss": 0.1099,
      "step": 3825
    },
    {
      "epoch": 6.383333333333334,
      "grad_norm": 0.0032552119810134172,
      "learning_rate": 0.00011493333333333334,
      "loss": 0.0004,
      "step": 3830
    },
    {
      "epoch": 6.391666666666667,
      "grad_norm": 0.005783018656075001,
      "learning_rate": 0.00011482222222222222,
      "loss": 0.0008,
      "step": 3835
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.005743992514908314,
      "learning_rate": 0.00011471111111111112,
      "loss": 0.0009,
      "step": 3840
    },
    {
      "epoch": 6.408333333333333,
      "grad_norm": 0.021729109808802605,
      "learning_rate": 0.0001146,
      "loss": 0.0011,
      "step": 3845
    },
    {
      "epoch": 6.416666666666667,
      "grad_norm": 0.002006419003009796,
      "learning_rate": 0.00011448888888888889,
      "loss": 0.0006,
      "step": 3850
    },
    {
      "epoch": 6.425,
      "grad_norm": 0.0036357841454446316,
      "learning_rate": 0.00011437777777777779,
      "loss": 0.0034,
      "step": 3855
    },
    {
      "epoch": 6.433333333333334,
      "grad_norm": 0.0021691988222301006,
      "learning_rate": 0.00011426666666666667,
      "loss": 0.0004,
      "step": 3860
    },
    {
      "epoch": 6.441666666666666,
      "grad_norm": 0.0017608635826036334,
      "learning_rate": 0.00011415555555555557,
      "loss": 0.0004,
      "step": 3865
    },
    {
      "epoch": 6.45,
      "grad_norm": 0.002390383742749691,
      "learning_rate": 0.00011404444444444444,
      "loss": 0.0004,
      "step": 3870
    },
    {
      "epoch": 6.458333333333333,
      "grad_norm": 0.0019823280163109303,
      "learning_rate": 0.00011393333333333334,
      "loss": 0.0004,
      "step": 3875
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 11.862939834594727,
      "learning_rate": 0.00011382222222222223,
      "loss": 0.0304,
      "step": 3880
    },
    {
      "epoch": 6.475,
      "grad_norm": 0.0014179680729284883,
      "learning_rate": 0.00011371111111111113,
      "loss": 0.0004,
      "step": 3885
    },
    {
      "epoch": 6.483333333333333,
      "grad_norm": 0.0018378023523837328,
      "learning_rate": 0.0001136,
      "loss": 0.0004,
      "step": 3890
    },
    {
      "epoch": 6.491666666666666,
      "grad_norm": 0.0018985550850629807,
      "learning_rate": 0.0001134888888888889,
      "loss": 0.0147,
      "step": 3895
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.001450804527848959,
      "learning_rate": 0.00011337777777777778,
      "loss": 0.0039,
      "step": 3900
    },
    {
      "epoch": 6.5,
      "eval_accuracy": 0.9104166666666667,
      "eval_f1": 0.91106309192378,
      "eval_loss": 0.525779664516449,
      "eval_precision": 0.9145154711100851,
      "eval_recall": 0.9104166666666667,
      "eval_runtime": 17.5503,
      "eval_samples_per_second": 136.75,
      "eval_steps_per_second": 17.094,
      "step": 3900
    },
    {
      "epoch": 6.508333333333333,
      "grad_norm": 0.0016366135096177459,
      "learning_rate": 0.00011326666666666668,
      "loss": 0.0004,
      "step": 3905
    },
    {
      "epoch": 6.516666666666667,
      "grad_norm": 0.004070822615176439,
      "learning_rate": 0.00011315555555555558,
      "loss": 0.0006,
      "step": 3910
    },
    {
      "epoch": 6.525,
      "grad_norm": 0.001772483577951789,
      "learning_rate": 0.00011304444444444445,
      "loss": 0.0004,
      "step": 3915
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.0014627586351707578,
      "learning_rate": 0.00011293333333333333,
      "loss": 0.1321,
      "step": 3920
    },
    {
      "epoch": 6.541666666666667,
      "grad_norm": 0.0024537851568311453,
      "learning_rate": 0.00011282222222222223,
      "loss": 0.0011,
      "step": 3925
    },
    {
      "epoch": 6.55,
      "grad_norm": 0.009322610683739185,
      "learning_rate": 0.00011271111111111113,
      "loss": 0.0006,
      "step": 3930
    },
    {
      "epoch": 6.558333333333334,
      "grad_norm": 0.0026072347536683083,
      "learning_rate": 0.0001126,
      "loss": 0.0953,
      "step": 3935
    },
    {
      "epoch": 6.566666666666666,
      "grad_norm": 0.003517591394484043,
      "learning_rate": 0.00011248888888888888,
      "loss": 0.0221,
      "step": 3940
    },
    {
      "epoch": 6.575,
      "grad_norm": 0.0015140353934839368,
      "learning_rate": 0.00011237777777777778,
      "loss": 0.0005,
      "step": 3945
    },
    {
      "epoch": 6.583333333333333,
      "grad_norm": 0.0018862237920984626,
      "learning_rate": 0.00011226666666666668,
      "loss": 0.0012,
      "step": 3950
    },
    {
      "epoch": 6.591666666666667,
      "grad_norm": 0.0011866040294989944,
      "learning_rate": 0.00011215555555555557,
      "loss": 0.0004,
      "step": 3955
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.001932353712618351,
      "learning_rate": 0.00011204444444444444,
      "loss": 0.0004,
      "step": 3960
    },
    {
      "epoch": 6.608333333333333,
      "grad_norm": 0.0016503403894603252,
      "learning_rate": 0.00011193333333333333,
      "loss": 0.0004,
      "step": 3965
    },
    {
      "epoch": 6.616666666666667,
      "grad_norm": 0.002733859233558178,
      "learning_rate": 0.00011182222222222223,
      "loss": 0.0004,
      "step": 3970
    },
    {
      "epoch": 6.625,
      "grad_norm": 0.002129597822204232,
      "learning_rate": 0.00011171111111111112,
      "loss": 0.0006,
      "step": 3975
    },
    {
      "epoch": 6.633333333333333,
      "grad_norm": 0.006102912127971649,
      "learning_rate": 0.00011160000000000002,
      "loss": 0.0004,
      "step": 3980
    },
    {
      "epoch": 6.641666666666667,
      "grad_norm": 0.001513359253294766,
      "learning_rate": 0.00011148888888888889,
      "loss": 0.0011,
      "step": 3985
    },
    {
      "epoch": 6.65,
      "grad_norm": 0.001455087447538972,
      "learning_rate": 0.00011137777777777779,
      "loss": 0.0003,
      "step": 3990
    },
    {
      "epoch": 6.658333333333333,
      "grad_norm": 0.0019958005286753178,
      "learning_rate": 0.00011126666666666667,
      "loss": 0.0004,
      "step": 3995
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.0010942142689600587,
      "learning_rate": 0.00011115555555555557,
      "loss": 0.0003,
      "step": 4000
    },
    {
      "epoch": 6.666666666666667,
      "eval_accuracy": 0.84375,
      "eval_f1": 0.8444768771309843,
      "eval_loss": 0.8169878721237183,
      "eval_precision": 0.8597955584953828,
      "eval_recall": 0.84375,
      "eval_runtime": 17.3756,
      "eval_samples_per_second": 138.125,
      "eval_steps_per_second": 17.266,
      "step": 4000
    },
    {
      "epoch": 6.675,
      "grad_norm": 0.0010023521026596427,
      "learning_rate": 0.00011104444444444444,
      "loss": 0.0003,
      "step": 4005
    },
    {
      "epoch": 6.683333333333334,
      "grad_norm": 0.0013806934002786875,
      "learning_rate": 0.00011093333333333334,
      "loss": 0.0003,
      "step": 4010
    },
    {
      "epoch": 6.691666666666666,
      "grad_norm": 0.006004186812788248,
      "learning_rate": 0.00011082222222222222,
      "loss": 0.0003,
      "step": 4015
    },
    {
      "epoch": 6.7,
      "grad_norm": 0.0027895814273506403,
      "learning_rate": 0.00011071111111111112,
      "loss": 0.0004,
      "step": 4020
    },
    {
      "epoch": 6.708333333333333,
      "grad_norm": 0.0012991259573027492,
      "learning_rate": 0.00011060000000000002,
      "loss": 0.0004,
      "step": 4025
    },
    {
      "epoch": 6.716666666666667,
      "grad_norm": 0.0030002992134541273,
      "learning_rate": 0.00011048888888888889,
      "loss": 0.0003,
      "step": 4030
    },
    {
      "epoch": 6.725,
      "grad_norm": 0.0012090529780834913,
      "learning_rate": 0.00011037777777777777,
      "loss": 0.0003,
      "step": 4035
    },
    {
      "epoch": 6.733333333333333,
      "grad_norm": 0.0011846446432173252,
      "learning_rate": 0.00011026666666666667,
      "loss": 0.0003,
      "step": 4040
    },
    {
      "epoch": 6.741666666666667,
      "grad_norm": 0.0011226673377677798,
      "learning_rate": 0.00011015555555555557,
      "loss": 0.0003,
      "step": 4045
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.0011065498692914844,
      "learning_rate": 0.00011004444444444444,
      "loss": 0.0003,
      "step": 4050
    },
    {
      "epoch": 6.758333333333333,
      "grad_norm": 0.0019352666568011045,
      "learning_rate": 0.00010993333333333333,
      "loss": 0.0003,
      "step": 4055
    },
    {
      "epoch": 6.766666666666667,
      "grad_norm": 0.0013184950221329927,
      "learning_rate": 0.00010982222222222222,
      "loss": 0.0003,
      "step": 4060
    },
    {
      "epoch": 6.775,
      "grad_norm": 0.0013369193766266108,
      "learning_rate": 0.00010971111111111112,
      "loss": 0.0006,
      "step": 4065
    },
    {
      "epoch": 6.783333333333333,
      "grad_norm": 0.0015546127688139677,
      "learning_rate": 0.00010960000000000001,
      "loss": 0.0003,
      "step": 4070
    },
    {
      "epoch": 6.791666666666667,
      "grad_norm": 0.0030853445641696453,
      "learning_rate": 0.00010948888888888888,
      "loss": 0.0003,
      "step": 4075
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.00117677787784487,
      "learning_rate": 0.00010937777777777778,
      "loss": 0.0002,
      "step": 4080
    },
    {
      "epoch": 6.808333333333334,
      "grad_norm": 0.002436625072732568,
      "learning_rate": 0.00010926666666666668,
      "loss": 0.0003,
      "step": 4085
    },
    {
      "epoch": 6.816666666666666,
      "grad_norm": 0.0010399182792752981,
      "learning_rate": 0.00010915555555555556,
      "loss": 0.0003,
      "step": 4090
    },
    {
      "epoch": 6.825,
      "grad_norm": 0.0015837199753150344,
      "learning_rate": 0.00010904444444444446,
      "loss": 0.0003,
      "step": 4095
    },
    {
      "epoch": 6.833333333333333,
      "grad_norm": 0.0012669735588133335,
      "learning_rate": 0.00010893333333333333,
      "loss": 0.0005,
      "step": 4100
    },
    {
      "epoch": 6.833333333333333,
      "eval_accuracy": 0.88625,
      "eval_f1": 0.8847380090006955,
      "eval_loss": 0.658223569393158,
      "eval_precision": 0.8906414541461728,
      "eval_recall": 0.88625,
      "eval_runtime": 17.4254,
      "eval_samples_per_second": 137.73,
      "eval_steps_per_second": 17.216,
      "step": 4100
    },
    {
      "epoch": 6.841666666666667,
      "grad_norm": 0.0011135847307741642,
      "learning_rate": 0.00010882222222222223,
      "loss": 0.0003,
      "step": 4105
    },
    {
      "epoch": 6.85,
      "grad_norm": 0.0011995320674031973,
      "learning_rate": 0.00010871111111111113,
      "loss": 0.0003,
      "step": 4110
    },
    {
      "epoch": 6.858333333333333,
      "grad_norm": 0.0011971264611929655,
      "learning_rate": 0.00010860000000000001,
      "loss": 0.0003,
      "step": 4115
    },
    {
      "epoch": 6.866666666666667,
      "grad_norm": 0.0014878001529723406,
      "learning_rate": 0.00010848888888888888,
      "loss": 0.0003,
      "step": 4120
    },
    {
      "epoch": 6.875,
      "grad_norm": 0.0009385676821693778,
      "learning_rate": 0.00010837777777777778,
      "loss": 0.0658,
      "step": 4125
    },
    {
      "epoch": 6.883333333333333,
      "grad_norm": 0.0009714563493616879,
      "learning_rate": 0.00010826666666666668,
      "loss": 0.0002,
      "step": 4130
    },
    {
      "epoch": 6.891666666666667,
      "grad_norm": 0.0011026228312402964,
      "learning_rate": 0.00010815555555555556,
      "loss": 0.0002,
      "step": 4135
    },
    {
      "epoch": 6.9,
      "grad_norm": 0.0013258132385089993,
      "learning_rate": 0.00010804444444444446,
      "loss": 0.0061,
      "step": 4140
    },
    {
      "epoch": 6.908333333333333,
      "grad_norm": 0.0008102774154394865,
      "learning_rate": 0.00010793333333333333,
      "loss": 0.0002,
      "step": 4145
    },
    {
      "epoch": 6.916666666666667,
      "grad_norm": 0.0011155134998261929,
      "learning_rate": 0.00010782222222222223,
      "loss": 0.0004,
      "step": 4150
    },
    {
      "epoch": 6.925,
      "grad_norm": 0.002622139174491167,
      "learning_rate": 0.00010771111111111112,
      "loss": 0.0736,
      "step": 4155
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.0055553726851940155,
      "learning_rate": 0.00010760000000000001,
      "loss": 0.0003,
      "step": 4160
    },
    {
      "epoch": 6.941666666666666,
      "grad_norm": 0.0026195587124675512,
      "learning_rate": 0.00010748888888888888,
      "loss": 0.0003,
      "step": 4165
    },
    {
      "epoch": 6.95,
      "grad_norm": 0.0011704739881679416,
      "learning_rate": 0.00010737777777777778,
      "loss": 0.0003,
      "step": 4170
    },
    {
      "epoch": 6.958333333333333,
      "grad_norm": 0.001136242295615375,
      "learning_rate": 0.00010726666666666667,
      "loss": 0.0002,
      "step": 4175
    },
    {
      "epoch": 6.966666666666667,
      "grad_norm": 0.0017040788661688566,
      "learning_rate": 0.00010715555555555557,
      "loss": 0.0003,
      "step": 4180
    },
    {
      "epoch": 6.975,
      "grad_norm": 0.001215121941640973,
      "learning_rate": 0.00010704444444444446,
      "loss": 0.0003,
      "step": 4185
    },
    {
      "epoch": 6.983333333333333,
      "grad_norm": 0.0019607204012572765,
      "learning_rate": 0.00010693333333333333,
      "loss": 0.0003,
      "step": 4190
    },
    {
      "epoch": 6.991666666666667,
      "grad_norm": 0.1829652488231659,
      "learning_rate": 0.00010682222222222222,
      "loss": 0.0008,
      "step": 4195
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.0009327211882919073,
      "learning_rate": 0.00010671111111111112,
      "loss": 0.0003,
      "step": 4200
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.8570833333333333,
      "eval_f1": 0.8585056497412912,
      "eval_loss": 0.8092911243438721,
      "eval_precision": 0.8707216830391129,
      "eval_recall": 0.8570833333333333,
      "eval_runtime": 17.5532,
      "eval_samples_per_second": 136.728,
      "eval_steps_per_second": 17.091,
      "step": 4200
    },
    {
      "epoch": 7.008333333333334,
      "grad_norm": 0.0012956688879057765,
      "learning_rate": 0.00010660000000000002,
      "loss": 0.0003,
      "step": 4205
    },
    {
      "epoch": 7.016666666666667,
      "grad_norm": 0.0011331706773489714,
      "learning_rate": 0.0001064888888888889,
      "loss": 0.0002,
      "step": 4210
    },
    {
      "epoch": 7.025,
      "grad_norm": 0.0011174253886565566,
      "learning_rate": 0.00010637777777777777,
      "loss": 0.0002,
      "step": 4215
    },
    {
      "epoch": 7.033333333333333,
      "grad_norm": 0.0012338000815361738,
      "learning_rate": 0.00010626666666666667,
      "loss": 0.0002,
      "step": 4220
    },
    {
      "epoch": 7.041666666666667,
      "grad_norm": 0.001068793353624642,
      "learning_rate": 0.00010615555555555557,
      "loss": 0.0002,
      "step": 4225
    },
    {
      "epoch": 7.05,
      "grad_norm": 0.0018514986149966717,
      "learning_rate": 0.00010604444444444445,
      "loss": 0.0003,
      "step": 4230
    },
    {
      "epoch": 7.058333333333334,
      "grad_norm": 0.010463840328156948,
      "learning_rate": 0.00010593333333333332,
      "loss": 0.0003,
      "step": 4235
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 0.001022408832795918,
      "learning_rate": 0.00010582222222222222,
      "loss": 0.0002,
      "step": 4240
    },
    {
      "epoch": 7.075,
      "grad_norm": 0.000972237903624773,
      "learning_rate": 0.00010571111111111112,
      "loss": 0.0002,
      "step": 4245
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.0010552583262324333,
      "learning_rate": 0.0001056,
      "loss": 0.0002,
      "step": 4250
    },
    {
      "epoch": 7.091666666666667,
      "grad_norm": 0.0010157995857298374,
      "learning_rate": 0.0001054888888888889,
      "loss": 0.0002,
      "step": 4255
    },
    {
      "epoch": 7.1,
      "grad_norm": 0.000884940498508513,
      "learning_rate": 0.00010537777777777777,
      "loss": 0.0002,
      "step": 4260
    },
    {
      "epoch": 7.108333333333333,
      "grad_norm": 0.0010820577153936028,
      "learning_rate": 0.00010526666666666667,
      "loss": 0.0002,
      "step": 4265
    },
    {
      "epoch": 7.116666666666666,
      "grad_norm": 0.0008474978967569768,
      "learning_rate": 0.00010515555555555556,
      "loss": 0.0003,
      "step": 4270
    },
    {
      "epoch": 7.125,
      "grad_norm": 0.0027483052108436823,
      "learning_rate": 0.00010504444444444446,
      "loss": 0.0002,
      "step": 4275
    },
    {
      "epoch": 7.133333333333334,
      "grad_norm": 0.0009307106956839561,
      "learning_rate": 0.00010493333333333333,
      "loss": 0.0002,
      "step": 4280
    },
    {
      "epoch": 7.141666666666667,
      "grad_norm": 0.0008620057487860322,
      "learning_rate": 0.00010482222222222223,
      "loss": 0.0002,
      "step": 4285
    },
    {
      "epoch": 7.15,
      "grad_norm": 0.0010500448988750577,
      "learning_rate": 0.00010471111111111111,
      "loss": 0.0002,
      "step": 4290
    },
    {
      "epoch": 7.158333333333333,
      "grad_norm": 0.000959272962063551,
      "learning_rate": 0.00010460000000000001,
      "loss": 0.0002,
      "step": 4295
    },
    {
      "epoch": 7.166666666666667,
      "grad_norm": 0.0010415491415187716,
      "learning_rate": 0.0001044888888888889,
      "loss": 0.0002,
      "step": 4300
    },
    {
      "epoch": 7.166666666666667,
      "eval_accuracy": 0.8633333333333333,
      "eval_f1": 0.8644543255307442,
      "eval_loss": 0.7803252339363098,
      "eval_precision": 0.8743532278518981,
      "eval_recall": 0.8633333333333333,
      "eval_runtime": 18.0722,
      "eval_samples_per_second": 132.801,
      "eval_steps_per_second": 16.6,
      "step": 4300
    },
    {
      "epoch": 7.175,
      "grad_norm": 0.0008577720145694911,
      "learning_rate": 0.00010437777777777778,
      "loss": 0.0002,
      "step": 4305
    },
    {
      "epoch": 7.183333333333334,
      "grad_norm": 0.013606137596070766,
      "learning_rate": 0.00010426666666666666,
      "loss": 0.0003,
      "step": 4310
    },
    {
      "epoch": 7.191666666666666,
      "grad_norm": 0.0009203195804730058,
      "learning_rate": 0.00010415555555555556,
      "loss": 0.0002,
      "step": 4315
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.0011079601245000958,
      "learning_rate": 0.00010404444444444446,
      "loss": 0.0002,
      "step": 4320
    },
    {
      "epoch": 7.208333333333333,
      "grad_norm": 0.0009380297851748765,
      "learning_rate": 0.00010393333333333334,
      "loss": 0.0002,
      "step": 4325
    },
    {
      "epoch": 7.216666666666667,
      "grad_norm": 0.0010841410839930177,
      "learning_rate": 0.00010382222222222221,
      "loss": 0.0002,
      "step": 4330
    },
    {
      "epoch": 7.225,
      "grad_norm": 0.0010438356548547745,
      "learning_rate": 0.00010371111111111111,
      "loss": 0.0002,
      "step": 4335
    },
    {
      "epoch": 7.233333333333333,
      "grad_norm": 0.0008367711561731994,
      "learning_rate": 0.00010360000000000001,
      "loss": 0.0002,
      "step": 4340
    },
    {
      "epoch": 7.241666666666666,
      "grad_norm": 0.0007794944103807211,
      "learning_rate": 0.0001034888888888889,
      "loss": 0.0002,
      "step": 4345
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.0009751305333338678,
      "learning_rate": 0.00010337777777777777,
      "loss": 0.0002,
      "step": 4350
    },
    {
      "epoch": 7.258333333333334,
      "grad_norm": 0.0010957254562526941,
      "learning_rate": 0.00010326666666666667,
      "loss": 0.0002,
      "step": 4355
    },
    {
      "epoch": 7.266666666666667,
      "grad_norm": 0.003089427947998047,
      "learning_rate": 0.00010315555555555556,
      "loss": 0.0002,
      "step": 4360
    },
    {
      "epoch": 7.275,
      "grad_norm": 0.001021627220325172,
      "learning_rate": 0.00010304444444444445,
      "loss": 0.0002,
      "step": 4365
    },
    {
      "epoch": 7.283333333333333,
      "grad_norm": 0.001073195249773562,
      "learning_rate": 0.00010293333333333335,
      "loss": 0.0002,
      "step": 4370
    },
    {
      "epoch": 7.291666666666667,
      "grad_norm": 0.0009259238722734153,
      "learning_rate": 0.00010282222222222222,
      "loss": 0.0002,
      "step": 4375
    },
    {
      "epoch": 7.3,
      "grad_norm": 0.0009090399835258722,
      "learning_rate": 0.00010271111111111112,
      "loss": 0.0002,
      "step": 4380
    },
    {
      "epoch": 7.308333333333334,
      "grad_norm": 0.0008316893945448101,
      "learning_rate": 0.00010260000000000001,
      "loss": 0.0002,
      "step": 4385
    },
    {
      "epoch": 7.316666666666666,
      "grad_norm": 0.000758976733777672,
      "learning_rate": 0.0001024888888888889,
      "loss": 0.0003,
      "step": 4390
    },
    {
      "epoch": 7.325,
      "grad_norm": 0.0009317917283624411,
      "learning_rate": 0.00010237777777777777,
      "loss": 0.0002,
      "step": 4395
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.0009438498527742922,
      "learning_rate": 0.00010226666666666667,
      "loss": 0.0002,
      "step": 4400
    },
    {
      "epoch": 7.333333333333333,
      "eval_accuracy": 0.865,
      "eval_f1": 0.8659792581303789,
      "eval_loss": 0.7808694243431091,
      "eval_precision": 0.876744923566509,
      "eval_recall": 0.865,
      "eval_runtime": 17.8219,
      "eval_samples_per_second": 134.666,
      "eval_steps_per_second": 16.833,
      "step": 4400
    },
    {
      "epoch": 7.341666666666667,
      "grad_norm": 0.000905899447388947,
      "learning_rate": 0.00010215555555555557,
      "loss": 0.0002,
      "step": 4405
    },
    {
      "epoch": 7.35,
      "grad_norm": 0.000815151259303093,
      "learning_rate": 0.00010204444444444445,
      "loss": 0.0002,
      "step": 4410
    },
    {
      "epoch": 7.358333333333333,
      "grad_norm": 0.0008110615890473127,
      "learning_rate": 0.00010193333333333335,
      "loss": 0.0002,
      "step": 4415
    },
    {
      "epoch": 7.366666666666666,
      "grad_norm": 0.000789651065133512,
      "learning_rate": 0.00010182222222222222,
      "loss": 0.0002,
      "step": 4420
    },
    {
      "epoch": 7.375,
      "grad_norm": 0.0009684113902039826,
      "learning_rate": 0.00010171111111111112,
      "loss": 0.0002,
      "step": 4425
    },
    {
      "epoch": 7.383333333333334,
      "grad_norm": 0.0007030221167951822,
      "learning_rate": 0.0001016,
      "loss": 0.0002,
      "step": 4430
    },
    {
      "epoch": 7.391666666666667,
      "grad_norm": 0.0007988082943484187,
      "learning_rate": 0.0001014888888888889,
      "loss": 0.0002,
      "step": 4435
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.0008844531257636845,
      "learning_rate": 0.0001013777777777778,
      "loss": 0.0002,
      "step": 4440
    },
    {
      "epoch": 7.408333333333333,
      "grad_norm": 0.0008246729848906398,
      "learning_rate": 0.00010126666666666667,
      "loss": 0.0002,
      "step": 4445
    },
    {
      "epoch": 7.416666666666667,
      "grad_norm": 0.0008857977227307856,
      "learning_rate": 0.00010115555555555556,
      "loss": 0.0002,
      "step": 4450
    },
    {
      "epoch": 7.425,
      "grad_norm": 0.0009056830313056707,
      "learning_rate": 0.00010104444444444445,
      "loss": 0.0002,
      "step": 4455
    },
    {
      "epoch": 7.433333333333334,
      "grad_norm": 0.0007518191705457866,
      "learning_rate": 0.00010093333333333335,
      "loss": 0.0002,
      "step": 4460
    },
    {
      "epoch": 7.441666666666666,
      "grad_norm": 0.0008056527585722506,
      "learning_rate": 0.00010082222222222222,
      "loss": 0.0002,
      "step": 4465
    },
    {
      "epoch": 7.45,
      "grad_norm": 0.0007888692780397832,
      "learning_rate": 0.00010071111111111111,
      "loss": 0.0002,
      "step": 4470
    },
    {
      "epoch": 7.458333333333333,
      "grad_norm": 0.0007862657657824457,
      "learning_rate": 0.0001006,
      "loss": 0.0002,
      "step": 4475
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 0.0008222491596825421,
      "learning_rate": 0.0001004888888888889,
      "loss": 0.0002,
      "step": 4480
    },
    {
      "epoch": 7.475,
      "grad_norm": 0.0009397150715813041,
      "learning_rate": 0.00010037777777777779,
      "loss": 0.0002,
      "step": 4485
    },
    {
      "epoch": 7.483333333333333,
      "grad_norm": 0.00074296462116763,
      "learning_rate": 0.00010026666666666666,
      "loss": 0.0002,
      "step": 4490
    },
    {
      "epoch": 7.491666666666666,
      "grad_norm": 0.0006221240037120879,
      "learning_rate": 0.00010015555555555556,
      "loss": 0.0002,
      "step": 4495
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.000902770843822509,
      "learning_rate": 0.00010004444444444446,
      "loss": 0.0002,
      "step": 4500
    },
    {
      "epoch": 7.5,
      "eval_accuracy": 0.8670833333333333,
      "eval_f1": 0.8680032499610504,
      "eval_loss": 0.7817099094390869,
      "eval_precision": 0.8787720127522883,
      "eval_recall": 0.8670833333333333,
      "eval_runtime": 17.1651,
      "eval_samples_per_second": 139.819,
      "eval_steps_per_second": 17.477,
      "step": 4500
    },
    {
      "epoch": 7.508333333333333,
      "grad_norm": 0.0007404323550872505,
      "learning_rate": 9.993333333333334e-05,
      "loss": 0.0002,
      "step": 4505
    },
    {
      "epoch": 7.516666666666667,
      "grad_norm": 0.0009695246699266136,
      "learning_rate": 9.982222222222223e-05,
      "loss": 0.0002,
      "step": 4510
    },
    {
      "epoch": 7.525,
      "grad_norm": 0.0006070019444450736,
      "learning_rate": 9.971111111111111e-05,
      "loss": 0.0002,
      "step": 4515
    },
    {
      "epoch": 7.533333333333333,
      "grad_norm": 0.0007904997910372913,
      "learning_rate": 9.960000000000001e-05,
      "loss": 0.0002,
      "step": 4520
    },
    {
      "epoch": 7.541666666666667,
      "grad_norm": 0.0008150156354531646,
      "learning_rate": 9.94888888888889e-05,
      "loss": 0.0002,
      "step": 4525
    },
    {
      "epoch": 7.55,
      "grad_norm": 0.0009679574868641794,
      "learning_rate": 9.937777777777778e-05,
      "loss": 0.0002,
      "step": 4530
    },
    {
      "epoch": 7.558333333333334,
      "grad_norm": 0.0008076719823293388,
      "learning_rate": 9.926666666666668e-05,
      "loss": 0.0002,
      "step": 4535
    },
    {
      "epoch": 7.566666666666666,
      "grad_norm": 0.0008414738695137203,
      "learning_rate": 9.915555555555556e-05,
      "loss": 0.0002,
      "step": 4540
    },
    {
      "epoch": 7.575,
      "grad_norm": 0.0005885652499273419,
      "learning_rate": 9.904444444444445e-05,
      "loss": 0.0002,
      "step": 4545
    },
    {
      "epoch": 7.583333333333333,
      "grad_norm": 0.0008890416356734931,
      "learning_rate": 9.893333333333333e-05,
      "loss": 0.0002,
      "step": 4550
    },
    {
      "epoch": 7.591666666666667,
      "grad_norm": 0.000685791892465204,
      "learning_rate": 9.882222222222223e-05,
      "loss": 0.0002,
      "step": 4555
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.0008897838415578008,
      "learning_rate": 9.871111111111113e-05,
      "loss": 0.0002,
      "step": 4560
    },
    {
      "epoch": 7.608333333333333,
      "grad_norm": 0.0007411572150886059,
      "learning_rate": 9.86e-05,
      "loss": 0.0002,
      "step": 4565
    },
    {
      "epoch": 7.616666666666667,
      "grad_norm": 0.0007235973607748747,
      "learning_rate": 9.84888888888889e-05,
      "loss": 0.0002,
      "step": 4570
    },
    {
      "epoch": 7.625,
      "grad_norm": 0.0007152381003834307,
      "learning_rate": 9.837777777777778e-05,
      "loss": 0.0002,
      "step": 4575
    },
    {
      "epoch": 7.633333333333333,
      "grad_norm": 0.0006245697732083499,
      "learning_rate": 9.826666666666668e-05,
      "loss": 0.0002,
      "step": 4580
    },
    {
      "epoch": 7.641666666666667,
      "grad_norm": 0.0006313971243798733,
      "learning_rate": 9.815555555555555e-05,
      "loss": 0.0002,
      "step": 4585
    },
    {
      "epoch": 7.65,
      "grad_norm": 0.0009743543923832476,
      "learning_rate": 9.804444444444445e-05,
      "loss": 0.0002,
      "step": 4590
    },
    {
      "epoch": 7.658333333333333,
      "grad_norm": 0.0006483554607257247,
      "learning_rate": 9.793333333333333e-05,
      "loss": 0.0002,
      "step": 4595
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.0006592103163711727,
      "learning_rate": 9.782222222222223e-05,
      "loss": 0.0002,
      "step": 4600
    },
    {
      "epoch": 7.666666666666667,
      "eval_accuracy": 0.8683333333333333,
      "eval_f1": 0.8691829201807201,
      "eval_loss": 0.7803764939308167,
      "eval_precision": 0.8792161369833322,
      "eval_recall": 0.8683333333333333,
      "eval_runtime": 17.4649,
      "eval_samples_per_second": 137.418,
      "eval_steps_per_second": 17.177,
      "step": 4600
    },
    {
      "epoch": 7.675,
      "grad_norm": 0.0008406811975874007,
      "learning_rate": 9.771111111111112e-05,
      "loss": 0.0002,
      "step": 4605
    },
    {
      "epoch": 7.683333333333334,
      "grad_norm": 0.000690567132551223,
      "learning_rate": 9.76e-05,
      "loss": 0.0002,
      "step": 4610
    },
    {
      "epoch": 7.691666666666666,
      "grad_norm": 0.0007134646293707192,
      "learning_rate": 9.74888888888889e-05,
      "loss": 0.0002,
      "step": 4615
    },
    {
      "epoch": 7.7,
      "grad_norm": 0.000665698666125536,
      "learning_rate": 9.737777777777778e-05,
      "loss": 0.0002,
      "step": 4620
    },
    {
      "epoch": 7.708333333333333,
      "grad_norm": 0.0006957294535823166,
      "learning_rate": 9.726666666666667e-05,
      "loss": 0.0002,
      "step": 4625
    },
    {
      "epoch": 7.716666666666667,
      "grad_norm": 0.005373399704694748,
      "learning_rate": 9.715555555555555e-05,
      "loss": 0.0002,
      "step": 4630
    },
    {
      "epoch": 7.725,
      "grad_norm": 0.0007365166675299406,
      "learning_rate": 9.704444444444445e-05,
      "loss": 0.0002,
      "step": 4635
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 0.0008162031881511211,
      "learning_rate": 9.693333333333335e-05,
      "loss": 0.0002,
      "step": 4640
    },
    {
      "epoch": 7.741666666666667,
      "grad_norm": 0.0007792903343215585,
      "learning_rate": 9.682222222222222e-05,
      "loss": 0.0002,
      "step": 4645
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.0007405439391732216,
      "learning_rate": 9.671111111111112e-05,
      "loss": 0.0002,
      "step": 4650
    },
    {
      "epoch": 7.758333333333333,
      "grad_norm": 0.0006775461370125413,
      "learning_rate": 9.66e-05,
      "loss": 0.0002,
      "step": 4655
    },
    {
      "epoch": 7.766666666666667,
      "grad_norm": 0.0006790847983211279,
      "learning_rate": 9.64888888888889e-05,
      "loss": 0.0001,
      "step": 4660
    },
    {
      "epoch": 7.775,
      "grad_norm": 0.0006598159088753164,
      "learning_rate": 9.637777777777777e-05,
      "loss": 0.0002,
      "step": 4665
    },
    {
      "epoch": 7.783333333333333,
      "grad_norm": 0.0005463449051603675,
      "learning_rate": 9.626666666666667e-05,
      "loss": 0.0002,
      "step": 4670
    },
    {
      "epoch": 7.791666666666667,
      "grad_norm": 0.002076552715152502,
      "learning_rate": 9.615555555555557e-05,
      "loss": 0.0002,
      "step": 4675
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.000658730510622263,
      "learning_rate": 9.604444444444445e-05,
      "loss": 0.0002,
      "step": 4680
    },
    {
      "epoch": 7.808333333333334,
      "grad_norm": 0.0007925450918264687,
      "learning_rate": 9.593333333333334e-05,
      "loss": 0.0001,
      "step": 4685
    },
    {
      "epoch": 7.816666666666666,
      "grad_norm": 0.0006378130055963993,
      "learning_rate": 9.582222222222222e-05,
      "loss": 0.0002,
      "step": 4690
    },
    {
      "epoch": 7.825,
      "grad_norm": 0.0006482780445367098,
      "learning_rate": 9.571111111111112e-05,
      "loss": 0.0002,
      "step": 4695
    },
    {
      "epoch": 7.833333333333333,
      "grad_norm": 0.0006228581769391894,
      "learning_rate": 9.56e-05,
      "loss": 0.0001,
      "step": 4700
    },
    {
      "epoch": 7.833333333333333,
      "eval_accuracy": 0.87625,
      "eval_f1": 0.87661369812614,
      "eval_loss": 0.7559824585914612,
      "eval_precision": 0.8839719084293983,
      "eval_recall": 0.87625,
      "eval_runtime": 17.3559,
      "eval_samples_per_second": 138.281,
      "eval_steps_per_second": 17.285,
      "step": 4700
    },
    {
      "epoch": 7.841666666666667,
      "grad_norm": 0.0006292181205935776,
      "learning_rate": 9.548888888888889e-05,
      "loss": 0.0002,
      "step": 4705
    },
    {
      "epoch": 7.85,
      "grad_norm": 0.000831836718134582,
      "learning_rate": 9.537777777777778e-05,
      "loss": 0.0002,
      "step": 4710
    },
    {
      "epoch": 7.858333333333333,
      "grad_norm": 0.0007414164138026536,
      "learning_rate": 9.526666666666667e-05,
      "loss": 0.0002,
      "step": 4715
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 0.0005785172106698155,
      "learning_rate": 9.515555555555556e-05,
      "loss": 0.0001,
      "step": 4720
    },
    {
      "epoch": 7.875,
      "grad_norm": 0.0005922564305365086,
      "learning_rate": 9.504444444444444e-05,
      "loss": 0.0001,
      "step": 4725
    },
    {
      "epoch": 7.883333333333333,
      "grad_norm": 0.0006587348761968315,
      "learning_rate": 9.493333333333334e-05,
      "loss": 0.0001,
      "step": 4730
    },
    {
      "epoch": 7.891666666666667,
      "grad_norm": 0.0007423086790367961,
      "learning_rate": 9.482222222222223e-05,
      "loss": 0.0001,
      "step": 4735
    },
    {
      "epoch": 7.9,
      "grad_norm": 0.0006448408821597695,
      "learning_rate": 9.471111111111111e-05,
      "loss": 0.0002,
      "step": 4740
    },
    {
      "epoch": 7.908333333333333,
      "grad_norm": 0.0005991917569190264,
      "learning_rate": 9.46e-05,
      "loss": 0.0001,
      "step": 4745
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.0006820088601671159,
      "learning_rate": 9.44888888888889e-05,
      "loss": 0.0001,
      "step": 4750
    },
    {
      "epoch": 7.925,
      "grad_norm": 0.0006143408827483654,
      "learning_rate": 9.437777777777779e-05,
      "loss": 0.0001,
      "step": 4755
    },
    {
      "epoch": 7.933333333333334,
      "grad_norm": 0.0006703656981699169,
      "learning_rate": 9.426666666666666e-05,
      "loss": 0.0001,
      "step": 4760
    },
    {
      "epoch": 7.941666666666666,
      "grad_norm": 0.0005963409203104675,
      "learning_rate": 9.415555555555556e-05,
      "loss": 0.0001,
      "step": 4765
    },
    {
      "epoch": 7.95,
      "grad_norm": 0.0007325361366383731,
      "learning_rate": 9.404444444444445e-05,
      "loss": 0.0001,
      "step": 4770
    },
    {
      "epoch": 7.958333333333333,
      "grad_norm": 0.0011726944940164685,
      "learning_rate": 9.393333333333334e-05,
      "loss": 0.0001,
      "step": 4775
    },
    {
      "epoch": 7.966666666666667,
      "grad_norm": 0.0007116285851225257,
      "learning_rate": 9.382222222222223e-05,
      "loss": 0.0002,
      "step": 4780
    },
    {
      "epoch": 7.975,
      "grad_norm": 0.0005432302714325488,
      "learning_rate": 9.371111111111111e-05,
      "loss": 0.0001,
      "step": 4785
    },
    {
      "epoch": 7.983333333333333,
      "grad_norm": 0.0006496374844573438,
      "learning_rate": 9.360000000000001e-05,
      "loss": 0.0001,
      "step": 4790
    },
    {
      "epoch": 7.991666666666667,
      "grad_norm": 0.0007223389693535864,
      "learning_rate": 9.34888888888889e-05,
      "loss": 0.0001,
      "step": 4795
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.008380964398384094,
      "learning_rate": 9.337777777777778e-05,
      "loss": 0.0002,
      "step": 4800
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.8766666666666667,
      "eval_f1": 0.8770677789068835,
      "eval_loss": 0.7634317278862,
      "eval_precision": 0.8848377271356681,
      "eval_recall": 0.8766666666666667,
      "eval_runtime": 17.2615,
      "eval_samples_per_second": 139.038,
      "eval_steps_per_second": 17.38,
      "step": 4800
    },
    {
      "epoch": 8.008333333333333,
      "grad_norm": 0.0005893156048841774,
      "learning_rate": 9.326666666666667e-05,
      "loss": 0.0001,
      "step": 4805
    },
    {
      "epoch": 8.016666666666667,
      "grad_norm": 0.0005743122310377657,
      "learning_rate": 9.315555555555556e-05,
      "loss": 0.0001,
      "step": 4810
    },
    {
      "epoch": 8.025,
      "grad_norm": 0.00060702720656991,
      "learning_rate": 9.304444444444445e-05,
      "loss": 0.0001,
      "step": 4815
    },
    {
      "epoch": 8.033333333333333,
      "grad_norm": 0.0006087157526053488,
      "learning_rate": 9.293333333333333e-05,
      "loss": 0.0001,
      "step": 4820
    },
    {
      "epoch": 8.041666666666666,
      "grad_norm": 0.0005718866595998406,
      "learning_rate": 9.282222222222222e-05,
      "loss": 0.0001,
      "step": 4825
    },
    {
      "epoch": 8.05,
      "grad_norm": 0.0008910544565878808,
      "learning_rate": 9.271111111111112e-05,
      "loss": 0.0001,
      "step": 4830
    },
    {
      "epoch": 8.058333333333334,
      "grad_norm": 0.0007937710615806282,
      "learning_rate": 9.260000000000001e-05,
      "loss": 0.0001,
      "step": 4835
    },
    {
      "epoch": 8.066666666666666,
      "grad_norm": 0.0006305875722318888,
      "learning_rate": 9.248888888888889e-05,
      "loss": 0.0001,
      "step": 4840
    },
    {
      "epoch": 8.075,
      "grad_norm": 0.0006182097713463008,
      "learning_rate": 9.237777777777778e-05,
      "loss": 0.0001,
      "step": 4845
    },
    {
      "epoch": 8.083333333333334,
      "grad_norm": 0.0007346903439611197,
      "learning_rate": 9.226666666666667e-05,
      "loss": 0.0001,
      "step": 4850
    },
    {
      "epoch": 8.091666666666667,
      "grad_norm": 0.0007065036334097385,
      "learning_rate": 9.215555555555557e-05,
      "loss": 0.0001,
      "step": 4855
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.0006883718306198716,
      "learning_rate": 9.204444444444444e-05,
      "loss": 0.0001,
      "step": 4860
    },
    {
      "epoch": 8.108333333333333,
      "grad_norm": 0.0005322518409229815,
      "learning_rate": 9.193333333333334e-05,
      "loss": 0.0001,
      "step": 4865
    },
    {
      "epoch": 8.116666666666667,
      "grad_norm": 0.001040603150613606,
      "learning_rate": 9.182222222222223e-05,
      "loss": 0.0001,
      "step": 4870
    },
    {
      "epoch": 8.125,
      "grad_norm": 0.0006341964472085238,
      "learning_rate": 9.171111111111112e-05,
      "loss": 0.0001,
      "step": 4875
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 0.0004839120665565133,
      "learning_rate": 9.16e-05,
      "loss": 0.0001,
      "step": 4880
    },
    {
      "epoch": 8.141666666666667,
      "grad_norm": 0.0006444818573072553,
      "learning_rate": 9.148888888888889e-05,
      "loss": 0.0001,
      "step": 4885
    },
    {
      "epoch": 8.15,
      "grad_norm": 0.0005103222792968154,
      "learning_rate": 9.137777777777779e-05,
      "loss": 0.0001,
      "step": 4890
    },
    {
      "epoch": 8.158333333333333,
      "grad_norm": 0.0007412803824990988,
      "learning_rate": 9.126666666666667e-05,
      "loss": 0.0001,
      "step": 4895
    },
    {
      "epoch": 8.166666666666666,
      "grad_norm": 0.0006861432921141386,
      "learning_rate": 9.115555555555556e-05,
      "loss": 0.0001,
      "step": 4900
    },
    {
      "epoch": 8.166666666666666,
      "eval_accuracy": 0.8791666666666667,
      "eval_f1": 0.8794094546135568,
      "eval_loss": 0.760347843170166,
      "eval_precision": 0.8866066950479323,
      "eval_recall": 0.8791666666666667,
      "eval_runtime": 17.437,
      "eval_samples_per_second": 137.639,
      "eval_steps_per_second": 17.205,
      "step": 4900
    },
    {
      "epoch": 8.175,
      "grad_norm": 0.0005046571604907513,
      "learning_rate": 9.104444444444444e-05,
      "loss": 0.0001,
      "step": 4905
    },
    {
      "epoch": 8.183333333333334,
      "grad_norm": 0.0005847495631314814,
      "learning_rate": 9.093333333333334e-05,
      "loss": 0.0001,
      "step": 4910
    },
    {
      "epoch": 8.191666666666666,
      "grad_norm": 0.0004707657208200544,
      "learning_rate": 9.082222222222224e-05,
      "loss": 0.0001,
      "step": 4915
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.0006115766591392457,
      "learning_rate": 9.071111111111111e-05,
      "loss": 0.0001,
      "step": 4920
    },
    {
      "epoch": 8.208333333333334,
      "grad_norm": 0.0010577376233413815,
      "learning_rate": 9.06e-05,
      "loss": 0.0001,
      "step": 4925
    },
    {
      "epoch": 8.216666666666667,
      "grad_norm": 0.0006208794075064361,
      "learning_rate": 9.048888888888889e-05,
      "loss": 0.0001,
      "step": 4930
    },
    {
      "epoch": 8.225,
      "grad_norm": 0.0005472465418279171,
      "learning_rate": 9.037777777777779e-05,
      "loss": 0.0001,
      "step": 4935
    },
    {
      "epoch": 8.233333333333333,
      "grad_norm": 0.0006446940242312849,
      "learning_rate": 9.026666666666666e-05,
      "loss": 0.0001,
      "step": 4940
    },
    {
      "epoch": 8.241666666666667,
      "grad_norm": 0.0005714447470381856,
      "learning_rate": 9.015555555555556e-05,
      "loss": 0.0001,
      "step": 4945
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.0006277977372519672,
      "learning_rate": 9.004444444444446e-05,
      "loss": 0.0001,
      "step": 4950
    },
    {
      "epoch": 8.258333333333333,
      "grad_norm": 0.0005926627200096846,
      "learning_rate": 8.993333333333334e-05,
      "loss": 0.0001,
      "step": 4955
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.00052871328080073,
      "learning_rate": 8.982222222222223e-05,
      "loss": 0.0001,
      "step": 4960
    },
    {
      "epoch": 8.275,
      "grad_norm": 0.00045168085489422083,
      "learning_rate": 8.971111111111111e-05,
      "loss": 0.0001,
      "step": 4965
    },
    {
      "epoch": 8.283333333333333,
      "grad_norm": 0.0007277995464392006,
      "learning_rate": 8.960000000000001e-05,
      "loss": 0.0001,
      "step": 4970
    },
    {
      "epoch": 8.291666666666666,
      "grad_norm": 0.0006309514865279198,
      "learning_rate": 8.94888888888889e-05,
      "loss": 0.0001,
      "step": 4975
    },
    {
      "epoch": 8.3,
      "grad_norm": 0.0004684205923695117,
      "learning_rate": 8.937777777777778e-05,
      "loss": 0.0001,
      "step": 4980
    },
    {
      "epoch": 8.308333333333334,
      "grad_norm": 0.0006931887473911047,
      "learning_rate": 8.926666666666668e-05,
      "loss": 0.0001,
      "step": 4985
    },
    {
      "epoch": 8.316666666666666,
      "grad_norm": 0.0005066924495622516,
      "learning_rate": 8.915555555555556e-05,
      "loss": 0.0001,
      "step": 4990
    },
    {
      "epoch": 8.325,
      "grad_norm": 0.0006239128997549415,
      "learning_rate": 8.904444444444445e-05,
      "loss": 0.0001,
      "step": 4995
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.0006986987427808344,
      "learning_rate": 8.893333333333333e-05,
      "loss": 0.0001,
      "step": 5000
    },
    {
      "epoch": 8.333333333333334,
      "eval_accuracy": 0.8791666666666667,
      "eval_f1": 0.8793856053140553,
      "eval_loss": 0.7595607042312622,
      "eval_precision": 0.8864126380179456,
      "eval_recall": 0.8791666666666667,
      "eval_runtime": 17.7283,
      "eval_samples_per_second": 135.377,
      "eval_steps_per_second": 16.922,
      "step": 5000
    },
    {
      "epoch": 8.341666666666667,
      "grad_norm": 0.0005877182120457292,
      "learning_rate": 8.882222222222223e-05,
      "loss": 0.0001,
      "step": 5005
    },
    {
      "epoch": 8.35,
      "grad_norm": 0.0005945615703240037,
      "learning_rate": 8.871111111111111e-05,
      "loss": 0.0001,
      "step": 5010
    },
    {
      "epoch": 8.358333333333333,
      "grad_norm": 0.000464258948341012,
      "learning_rate": 8.86e-05,
      "loss": 0.0001,
      "step": 5015
    },
    {
      "epoch": 8.366666666666667,
      "grad_norm": 0.00044891255674883723,
      "learning_rate": 8.848888888888888e-05,
      "loss": 0.0001,
      "step": 5020
    },
    {
      "epoch": 8.375,
      "grad_norm": 0.0007101079681888223,
      "learning_rate": 8.837777777777778e-05,
      "loss": 0.0001,
      "step": 5025
    },
    {
      "epoch": 8.383333333333333,
      "grad_norm": 0.0006781699485145509,
      "learning_rate": 8.826666666666668e-05,
      "loss": 0.0001,
      "step": 5030
    },
    {
      "epoch": 8.391666666666667,
      "grad_norm": 0.0005283768987283111,
      "learning_rate": 8.815555555555556e-05,
      "loss": 0.0001,
      "step": 5035
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.0005246053333394229,
      "learning_rate": 8.804444444444445e-05,
      "loss": 0.0001,
      "step": 5040
    },
    {
      "epoch": 8.408333333333333,
      "grad_norm": 0.000534182705450803,
      "learning_rate": 8.793333333333333e-05,
      "loss": 0.0001,
      "step": 5045
    },
    {
      "epoch": 8.416666666666666,
      "grad_norm": 0.0007425366784445941,
      "learning_rate": 8.782222222222223e-05,
      "loss": 0.0001,
      "step": 5050
    },
    {
      "epoch": 8.425,
      "grad_norm": 0.0006173907313495874,
      "learning_rate": 8.771111111111112e-05,
      "loss": 0.0001,
      "step": 5055
    },
    {
      "epoch": 8.433333333333334,
      "grad_norm": 0.0005368869169615209,
      "learning_rate": 8.76e-05,
      "loss": 0.0001,
      "step": 5060
    },
    {
      "epoch": 8.441666666666666,
      "grad_norm": 0.0005099184927530587,
      "learning_rate": 8.74888888888889e-05,
      "loss": 0.0001,
      "step": 5065
    },
    {
      "epoch": 8.45,
      "grad_norm": 0.0006462688907049596,
      "learning_rate": 8.737777777777778e-05,
      "loss": 0.0001,
      "step": 5070
    },
    {
      "epoch": 8.458333333333334,
      "grad_norm": 0.0007187098963186145,
      "learning_rate": 8.726666666666667e-05,
      "loss": 0.0001,
      "step": 5075
    },
    {
      "epoch": 8.466666666666667,
      "grad_norm": 0.0005771134165115654,
      "learning_rate": 8.715555555555555e-05,
      "loss": 0.0001,
      "step": 5080
    },
    {
      "epoch": 8.475,
      "grad_norm": 0.0005171639495529234,
      "learning_rate": 8.704444444444445e-05,
      "loss": 0.0001,
      "step": 5085
    },
    {
      "epoch": 8.483333333333333,
      "grad_norm": 0.00047042028745636344,
      "learning_rate": 8.693333333333334e-05,
      "loss": 0.0001,
      "step": 5090
    },
    {
      "epoch": 8.491666666666667,
      "grad_norm": 0.000461747869849205,
      "learning_rate": 8.682222222222222e-05,
      "loss": 0.0001,
      "step": 5095
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.00047508825082331896,
      "learning_rate": 8.671111111111112e-05,
      "loss": 0.0001,
      "step": 5100
    },
    {
      "epoch": 8.5,
      "eval_accuracy": 0.8804166666666666,
      "eval_f1": 0.8805607320641582,
      "eval_loss": 0.7636107802391052,
      "eval_precision": 0.8875162923164875,
      "eval_recall": 0.8804166666666666,
      "eval_runtime": 17.1191,
      "eval_samples_per_second": 140.194,
      "eval_steps_per_second": 17.524,
      "step": 5100
    },
    {
      "epoch": 8.508333333333333,
      "grad_norm": 0.0005343469092622399,
      "learning_rate": 8.66e-05,
      "loss": 0.0001,
      "step": 5105
    },
    {
      "epoch": 8.516666666666667,
      "grad_norm": 0.00043780551641248167,
      "learning_rate": 8.64888888888889e-05,
      "loss": 0.0001,
      "step": 5110
    },
    {
      "epoch": 8.525,
      "grad_norm": 0.0005542599246837199,
      "learning_rate": 8.637777777777777e-05,
      "loss": 0.0001,
      "step": 5115
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.0006437452975660563,
      "learning_rate": 8.626666666666667e-05,
      "loss": 0.0001,
      "step": 5120
    },
    {
      "epoch": 8.541666666666666,
      "grad_norm": 0.0006649192655459046,
      "learning_rate": 8.615555555555556e-05,
      "loss": 0.0001,
      "step": 5125
    },
    {
      "epoch": 8.55,
      "grad_norm": 0.00042472241329960525,
      "learning_rate": 8.604444444444445e-05,
      "loss": 0.0001,
      "step": 5130
    },
    {
      "epoch": 8.558333333333334,
      "grad_norm": 0.0005514469230547547,
      "learning_rate": 8.593333333333333e-05,
      "loss": 0.0001,
      "step": 5135
    },
    {
      "epoch": 8.566666666666666,
      "grad_norm": 0.0005236461292952299,
      "learning_rate": 8.582222222222222e-05,
      "loss": 0.0001,
      "step": 5140
    },
    {
      "epoch": 8.575,
      "grad_norm": 0.0005995632382109761,
      "learning_rate": 8.571111111111112e-05,
      "loss": 0.0001,
      "step": 5145
    },
    {
      "epoch": 8.583333333333334,
      "grad_norm": 0.0005066106677986681,
      "learning_rate": 8.560000000000001e-05,
      "loss": 0.0001,
      "step": 5150
    },
    {
      "epoch": 8.591666666666667,
      "grad_norm": 0.0005811863811686635,
      "learning_rate": 8.548888888888889e-05,
      "loss": 0.0001,
      "step": 5155
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.0007649313192814589,
      "learning_rate": 8.537777777777778e-05,
      "loss": 0.0001,
      "step": 5160
    },
    {
      "epoch": 8.608333333333333,
      "grad_norm": 0.0005464827991090715,
      "learning_rate": 8.526666666666667e-05,
      "loss": 0.0001,
      "step": 5165
    },
    {
      "epoch": 8.616666666666667,
      "grad_norm": 0.0005536903045140207,
      "learning_rate": 8.515555555555556e-05,
      "loss": 0.0001,
      "step": 5170
    },
    {
      "epoch": 8.625,
      "grad_norm": 0.00046739334356971085,
      "learning_rate": 8.504444444444444e-05,
      "loss": 0.0001,
      "step": 5175
    },
    {
      "epoch": 8.633333333333333,
      "grad_norm": 0.0005300568882375956,
      "learning_rate": 8.493333333333334e-05,
      "loss": 0.0001,
      "step": 5180
    },
    {
      "epoch": 8.641666666666667,
      "grad_norm": 0.0005570261273533106,
      "learning_rate": 8.482222222222223e-05,
      "loss": 0.0001,
      "step": 5185
    },
    {
      "epoch": 8.65,
      "grad_norm": 0.0004235902742948383,
      "learning_rate": 8.471111111111113e-05,
      "loss": 0.0001,
      "step": 5190
    },
    {
      "epoch": 8.658333333333333,
      "grad_norm": 0.0006803914438933134,
      "learning_rate": 8.46e-05,
      "loss": 0.0001,
      "step": 5195
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.0004896549507975578,
      "learning_rate": 8.44888888888889e-05,
      "loss": 0.0001,
      "step": 5200
    },
    {
      "epoch": 8.666666666666666,
      "eval_accuracy": 0.8791666666666667,
      "eval_f1": 0.8793950560540839,
      "eval_loss": 0.7681140899658203,
      "eval_precision": 0.8868832830677601,
      "eval_recall": 0.8791666666666667,
      "eval_runtime": 17.6372,
      "eval_samples_per_second": 136.076,
      "eval_steps_per_second": 17.01,
      "step": 5200
    },
    {
      "epoch": 8.675,
      "grad_norm": 0.0004407647647894919,
      "learning_rate": 8.437777777777778e-05,
      "loss": 0.0001,
      "step": 5205
    },
    {
      "epoch": 8.683333333333334,
      "grad_norm": 0.0004512774758040905,
      "learning_rate": 8.426666666666668e-05,
      "loss": 0.0001,
      "step": 5210
    },
    {
      "epoch": 8.691666666666666,
      "grad_norm": 0.000437636103015393,
      "learning_rate": 8.415555555555555e-05,
      "loss": 0.0001,
      "step": 5215
    },
    {
      "epoch": 8.7,
      "grad_norm": 0.0005949974874965847,
      "learning_rate": 8.404444444444445e-05,
      "loss": 0.0001,
      "step": 5220
    },
    {
      "epoch": 8.708333333333334,
      "grad_norm": 0.0004958495846949518,
      "learning_rate": 8.393333333333335e-05,
      "loss": 0.0001,
      "step": 5225
    },
    {
      "epoch": 8.716666666666667,
      "grad_norm": 0.000493856961838901,
      "learning_rate": 8.382222222222223e-05,
      "loss": 0.0001,
      "step": 5230
    },
    {
      "epoch": 8.725,
      "grad_norm": 0.000502238399349153,
      "learning_rate": 8.371111111111111e-05,
      "loss": 0.0001,
      "step": 5235
    },
    {
      "epoch": 8.733333333333333,
      "grad_norm": 0.000562617729883641,
      "learning_rate": 8.36e-05,
      "loss": 0.0001,
      "step": 5240
    },
    {
      "epoch": 8.741666666666667,
      "grad_norm": 0.0004537556378636509,
      "learning_rate": 8.34888888888889e-05,
      "loss": 0.0001,
      "step": 5245
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.00048734352458268404,
      "learning_rate": 8.337777777777778e-05,
      "loss": 0.0001,
      "step": 5250
    },
    {
      "epoch": 8.758333333333333,
      "grad_norm": 0.0005970936035737395,
      "learning_rate": 8.326666666666667e-05,
      "loss": 0.0001,
      "step": 5255
    },
    {
      "epoch": 8.766666666666667,
      "grad_norm": 0.0006076979916542768,
      "learning_rate": 8.315555555555557e-05,
      "loss": 0.0001,
      "step": 5260
    },
    {
      "epoch": 8.775,
      "grad_norm": 0.0005493343342095613,
      "learning_rate": 8.304444444444445e-05,
      "loss": 0.0001,
      "step": 5265
    },
    {
      "epoch": 8.783333333333333,
      "grad_norm": 0.0004977509379386902,
      "learning_rate": 8.293333333333333e-05,
      "loss": 0.0001,
      "step": 5270
    },
    {
      "epoch": 8.791666666666666,
      "grad_norm": 0.0005646569770760834,
      "learning_rate": 8.282222222222222e-05,
      "loss": 0.0001,
      "step": 5275
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.00052513467380777,
      "learning_rate": 8.271111111111112e-05,
      "loss": 0.0001,
      "step": 5280
    },
    {
      "epoch": 8.808333333333334,
      "grad_norm": 0.00044975068885833025,
      "learning_rate": 8.26e-05,
      "loss": 0.0001,
      "step": 5285
    },
    {
      "epoch": 8.816666666666666,
      "grad_norm": 0.0003977883607149124,
      "learning_rate": 8.248888888888889e-05,
      "loss": 0.0001,
      "step": 5290
    },
    {
      "epoch": 8.825,
      "grad_norm": 0.0004531710292212665,
      "learning_rate": 8.237777777777778e-05,
      "loss": 0.0001,
      "step": 5295
    },
    {
      "epoch": 8.833333333333334,
      "grad_norm": 0.0005068019963800907,
      "learning_rate": 8.226666666666667e-05,
      "loss": 0.0001,
      "step": 5300
    },
    {
      "epoch": 8.833333333333334,
      "eval_accuracy": 0.8795833333333334,
      "eval_f1": 0.8798671829837154,
      "eval_loss": 0.7719956636428833,
      "eval_precision": 0.887671403295891,
      "eval_recall": 0.8795833333333334,
      "eval_runtime": 17.621,
      "eval_samples_per_second": 136.201,
      "eval_steps_per_second": 17.025,
      "step": 5300
    },
    {
      "epoch": 8.841666666666667,
      "grad_norm": 0.0004313798272050917,
      "learning_rate": 8.215555555555557e-05,
      "loss": 0.0001,
      "step": 5305
    },
    {
      "epoch": 8.85,
      "grad_norm": 0.0004567605792544782,
      "learning_rate": 8.204444444444445e-05,
      "loss": 0.0001,
      "step": 5310
    },
    {
      "epoch": 8.858333333333333,
      "grad_norm": 0.0005286894738674164,
      "learning_rate": 8.193333333333334e-05,
      "loss": 0.0001,
      "step": 5315
    },
    {
      "epoch": 8.866666666666667,
      "grad_norm": 0.0005558696575462818,
      "learning_rate": 8.182222222222222e-05,
      "loss": 0.0001,
      "step": 5320
    },
    {
      "epoch": 8.875,
      "grad_norm": 0.000521381211001426,
      "learning_rate": 8.171111111111112e-05,
      "loss": 0.0001,
      "step": 5325
    },
    {
      "epoch": 8.883333333333333,
      "grad_norm": 0.0008101433049887419,
      "learning_rate": 8.16e-05,
      "loss": 0.0001,
      "step": 5330
    },
    {
      "epoch": 8.891666666666667,
      "grad_norm": 0.0004850794794037938,
      "learning_rate": 8.148888888888889e-05,
      "loss": 0.0001,
      "step": 5335
    },
    {
      "epoch": 8.9,
      "grad_norm": 0.0005164266913197935,
      "learning_rate": 8.137777777777779e-05,
      "loss": 0.0001,
      "step": 5340
    },
    {
      "epoch": 8.908333333333333,
      "grad_norm": 0.000621224578935653,
      "learning_rate": 8.126666666666667e-05,
      "loss": 0.0001,
      "step": 5345
    },
    {
      "epoch": 8.916666666666666,
      "grad_norm": 0.0004971388843841851,
      "learning_rate": 8.115555555555556e-05,
      "loss": 0.0001,
      "step": 5350
    },
    {
      "epoch": 8.925,
      "grad_norm": 0.000433589011663571,
      "learning_rate": 8.104444444444444e-05,
      "loss": 0.0001,
      "step": 5355
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 0.00045300982310436666,
      "learning_rate": 8.093333333333334e-05,
      "loss": 0.0001,
      "step": 5360
    },
    {
      "epoch": 8.941666666666666,
      "grad_norm": 0.00042154520633630455,
      "learning_rate": 8.082222222222222e-05,
      "loss": 0.0001,
      "step": 5365
    },
    {
      "epoch": 8.95,
      "grad_norm": 0.0004596524522639811,
      "learning_rate": 8.071111111111111e-05,
      "loss": 0.0001,
      "step": 5370
    },
    {
      "epoch": 8.958333333333334,
      "grad_norm": 0.0012809450272470713,
      "learning_rate": 8.060000000000001e-05,
      "loss": 0.0001,
      "step": 5375
    },
    {
      "epoch": 8.966666666666667,
      "grad_norm": 0.00042875119834207,
      "learning_rate": 8.048888888888889e-05,
      "loss": 0.0001,
      "step": 5380
    },
    {
      "epoch": 8.975,
      "grad_norm": 0.0004102617676835507,
      "learning_rate": 8.037777777777779e-05,
      "loss": 0.0001,
      "step": 5385
    },
    {
      "epoch": 8.983333333333333,
      "grad_norm": 0.0005320555646903813,
      "learning_rate": 8.026666666666666e-05,
      "loss": 0.0001,
      "step": 5390
    },
    {
      "epoch": 8.991666666666667,
      "grad_norm": 0.0004336040292400867,
      "learning_rate": 8.015555555555556e-05,
      "loss": 0.0001,
      "step": 5395
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.00039306472172029316,
      "learning_rate": 8.004444444444444e-05,
      "loss": 0.0001,
      "step": 5400
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.8795833333333334,
      "eval_f1": 0.8798465647400839,
      "eval_loss": 0.7743276953697205,
      "eval_precision": 0.8876143362280338,
      "eval_recall": 0.8795833333333334,
      "eval_runtime": 17.4407,
      "eval_samples_per_second": 137.609,
      "eval_steps_per_second": 17.201,
      "step": 5400
    },
    {
      "epoch": 9.008333333333333,
      "grad_norm": 0.0004652721981983632,
      "learning_rate": 7.993333333333334e-05,
      "loss": 0.0001,
      "step": 5405
    },
    {
      "epoch": 9.016666666666667,
      "grad_norm": 0.0004225676239002496,
      "learning_rate": 7.982222222222223e-05,
      "loss": 0.0001,
      "step": 5410
    },
    {
      "epoch": 9.025,
      "grad_norm": 0.0004252385697327554,
      "learning_rate": 7.971111111111111e-05,
      "loss": 0.0001,
      "step": 5415
    },
    {
      "epoch": 9.033333333333333,
      "grad_norm": 0.00042692877468653023,
      "learning_rate": 7.960000000000001e-05,
      "loss": 0.0001,
      "step": 5420
    },
    {
      "epoch": 9.041666666666666,
      "grad_norm": 0.0004223395080771297,
      "learning_rate": 7.94888888888889e-05,
      "loss": 0.0001,
      "step": 5425
    },
    {
      "epoch": 9.05,
      "grad_norm": 0.000479278591228649,
      "learning_rate": 7.937777777777778e-05,
      "loss": 0.0001,
      "step": 5430
    },
    {
      "epoch": 9.058333333333334,
      "grad_norm": 0.00035655719693750143,
      "learning_rate": 7.926666666666666e-05,
      "loss": 0.0001,
      "step": 5435
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 0.0004678965196944773,
      "learning_rate": 7.915555555555556e-05,
      "loss": 0.0001,
      "step": 5440
    },
    {
      "epoch": 9.075,
      "grad_norm": 0.0004794033011421561,
      "learning_rate": 7.904444444444445e-05,
      "loss": 0.0001,
      "step": 5445
    },
    {
      "epoch": 9.083333333333334,
      "grad_norm": 0.0004546081181615591,
      "learning_rate": 7.893333333333333e-05,
      "loss": 0.0001,
      "step": 5450
    },
    {
      "epoch": 9.091666666666667,
      "grad_norm": 0.0005047711310908198,
      "learning_rate": 7.882222222222223e-05,
      "loss": 0.0001,
      "step": 5455
    },
    {
      "epoch": 9.1,
      "grad_norm": 0.0005781468935310841,
      "learning_rate": 7.871111111111111e-05,
      "loss": 0.0001,
      "step": 5460
    },
    {
      "epoch": 9.108333333333333,
      "grad_norm": 0.0004952818853780627,
      "learning_rate": 7.860000000000001e-05,
      "loss": 0.0001,
      "step": 5465
    },
    {
      "epoch": 9.116666666666667,
      "grad_norm": 0.0005105639575049281,
      "learning_rate": 7.848888888888888e-05,
      "loss": 0.0001,
      "step": 5470
    },
    {
      "epoch": 9.125,
      "grad_norm": 0.0004492227453738451,
      "learning_rate": 7.837777777777778e-05,
      "loss": 0.0001,
      "step": 5475
    },
    {
      "epoch": 9.133333333333333,
      "grad_norm": 0.00041827597306109965,
      "learning_rate": 7.826666666666667e-05,
      "loss": 0.0001,
      "step": 5480
    },
    {
      "epoch": 9.141666666666667,
      "grad_norm": 0.0004527773999143392,
      "learning_rate": 7.815555555555557e-05,
      "loss": 0.0001,
      "step": 5485
    },
    {
      "epoch": 9.15,
      "grad_norm": 0.0004656276141759008,
      "learning_rate": 7.804444444444445e-05,
      "loss": 0.0001,
      "step": 5490
    },
    {
      "epoch": 9.158333333333333,
      "grad_norm": 0.00040631412412039936,
      "learning_rate": 7.793333333333333e-05,
      "loss": 0.0001,
      "step": 5495
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.0004124371043872088,
      "learning_rate": 7.782222222222223e-05,
      "loss": 0.0001,
      "step": 5500
    },
    {
      "epoch": 9.166666666666666,
      "eval_accuracy": 0.88,
      "eval_f1": 0.8802361801641941,
      "eval_loss": 0.7770705819129944,
      "eval_precision": 0.8879611741423177,
      "eval_recall": 0.88,
      "eval_runtime": 17.4829,
      "eval_samples_per_second": 137.277,
      "eval_steps_per_second": 17.16,
      "step": 5500
    },
    {
      "epoch": 9.175,
      "grad_norm": 0.0005530813941732049,
      "learning_rate": 7.771111111111112e-05,
      "loss": 0.0001,
      "step": 5505
    },
    {
      "epoch": 9.183333333333334,
      "grad_norm": 0.0003916459681931883,
      "learning_rate": 7.76e-05,
      "loss": 0.0001,
      "step": 5510
    },
    {
      "epoch": 9.191666666666666,
      "grad_norm": 0.00040643461397849023,
      "learning_rate": 7.748888888888889e-05,
      "loss": 0.0001,
      "step": 5515
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.00046454352559521794,
      "learning_rate": 7.737777777777779e-05,
      "loss": 0.0001,
      "step": 5520
    },
    {
      "epoch": 9.208333333333334,
      "grad_norm": 0.00047920091310516,
      "learning_rate": 7.726666666666667e-05,
      "loss": 0.0001,
      "step": 5525
    },
    {
      "epoch": 9.216666666666667,
      "grad_norm": 0.0006225931574590504,
      "learning_rate": 7.715555555555555e-05,
      "loss": 0.0001,
      "step": 5530
    },
    {
      "epoch": 9.225,
      "grad_norm": 0.0004532362218014896,
      "learning_rate": 7.704444444444445e-05,
      "loss": 0.0001,
      "step": 5535
    },
    {
      "epoch": 9.233333333333333,
      "grad_norm": 0.0004309913783799857,
      "learning_rate": 7.693333333333334e-05,
      "loss": 0.0001,
      "step": 5540
    },
    {
      "epoch": 9.241666666666667,
      "grad_norm": 0.00040445607737638056,
      "learning_rate": 7.682222222222222e-05,
      "loss": 0.0001,
      "step": 5545
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.00039332054439000785,
      "learning_rate": 7.671111111111111e-05,
      "loss": 0.0001,
      "step": 5550
    },
    {
      "epoch": 9.258333333333333,
      "grad_norm": 0.00039483309956267476,
      "learning_rate": 7.66e-05,
      "loss": 0.0001,
      "step": 5555
    },
    {
      "epoch": 9.266666666666667,
      "grad_norm": 0.00046368446783162653,
      "learning_rate": 7.648888888888889e-05,
      "loss": 0.0001,
      "step": 5560
    },
    {
      "epoch": 9.275,
      "grad_norm": 0.0007501105428673327,
      "learning_rate": 7.637777777777779e-05,
      "loss": 0.0001,
      "step": 5565
    },
    {
      "epoch": 9.283333333333333,
      "grad_norm": 0.0005250920075923204,
      "learning_rate": 7.626666666666667e-05,
      "loss": 0.0001,
      "step": 5570
    },
    {
      "epoch": 9.291666666666666,
      "grad_norm": 0.00047300884034484625,
      "learning_rate": 7.615555555555556e-05,
      "loss": 0.0001,
      "step": 5575
    },
    {
      "epoch": 9.3,
      "grad_norm": 0.000653983443044126,
      "learning_rate": 7.604444444444446e-05,
      "loss": 0.0001,
      "step": 5580
    },
    {
      "epoch": 9.308333333333334,
      "grad_norm": 0.00040461710887029767,
      "learning_rate": 7.593333333333334e-05,
      "loss": 0.0001,
      "step": 5585
    },
    {
      "epoch": 9.316666666666666,
      "grad_norm": 0.0004144300473853946,
      "learning_rate": 7.582222222222223e-05,
      "loss": 0.0001,
      "step": 5590
    },
    {
      "epoch": 9.325,
      "grad_norm": 0.0004948415444232523,
      "learning_rate": 7.571111111111111e-05,
      "loss": 0.0001,
      "step": 5595
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.0005347439437173307,
      "learning_rate": 7.560000000000001e-05,
      "loss": 0.0001,
      "step": 5600
    },
    {
      "epoch": 9.333333333333334,
      "eval_accuracy": 0.8804166666666666,
      "eval_f1": 0.8806236104797504,
      "eval_loss": 0.7801147699356079,
      "eval_precision": 0.8882516731881499,
      "eval_recall": 0.8804166666666666,
      "eval_runtime": 17.4799,
      "eval_samples_per_second": 137.301,
      "eval_steps_per_second": 17.163,
      "step": 5600
    },
    {
      "epoch": 9.341666666666667,
      "grad_norm": 0.00039381973329000175,
      "learning_rate": 7.548888888888889e-05,
      "loss": 0.0001,
      "step": 5605
    },
    {
      "epoch": 9.35,
      "grad_norm": 0.00042462663259357214,
      "learning_rate": 7.537777777777778e-05,
      "loss": 0.0001,
      "step": 5610
    },
    {
      "epoch": 9.358333333333333,
      "grad_norm": 0.0005812649033032358,
      "learning_rate": 7.526666666666668e-05,
      "loss": 0.0001,
      "step": 5615
    },
    {
      "epoch": 9.366666666666667,
      "grad_norm": 0.0004944884567521513,
      "learning_rate": 7.515555555555556e-05,
      "loss": 0.0001,
      "step": 5620
    },
    {
      "epoch": 9.375,
      "grad_norm": 0.0004059509956277907,
      "learning_rate": 7.504444444444444e-05,
      "loss": 0.0001,
      "step": 5625
    },
    {
      "epoch": 9.383333333333333,
      "grad_norm": 0.0005290340632200241,
      "learning_rate": 7.493333333333333e-05,
      "loss": 0.0001,
      "step": 5630
    },
    {
      "epoch": 9.391666666666667,
      "grad_norm": 0.0004864747170358896,
      "learning_rate": 7.482222222222223e-05,
      "loss": 0.0001,
      "step": 5635
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.0003927831712644547,
      "learning_rate": 7.471111111111111e-05,
      "loss": 0.0001,
      "step": 5640
    },
    {
      "epoch": 9.408333333333333,
      "grad_norm": 0.00036307511618360877,
      "learning_rate": 7.46e-05,
      "loss": 0.0001,
      "step": 5645
    },
    {
      "epoch": 9.416666666666666,
      "grad_norm": 0.00045947227044962347,
      "learning_rate": 7.44888888888889e-05,
      "loss": 0.0001,
      "step": 5650
    },
    {
      "epoch": 9.425,
      "grad_norm": 0.0003939911548513919,
      "learning_rate": 7.437777777777778e-05,
      "loss": 0.0001,
      "step": 5655
    },
    {
      "epoch": 9.433333333333334,
      "grad_norm": 0.0004549895238596946,
      "learning_rate": 7.426666666666668e-05,
      "loss": 0.0001,
      "step": 5660
    },
    {
      "epoch": 9.441666666666666,
      "grad_norm": 0.0003974262217525393,
      "learning_rate": 7.415555555555555e-05,
      "loss": 0.0001,
      "step": 5665
    },
    {
      "epoch": 9.45,
      "grad_norm": 0.00036745844408869743,
      "learning_rate": 7.404444444444445e-05,
      "loss": 0.0001,
      "step": 5670
    },
    {
      "epoch": 9.458333333333334,
      "grad_norm": 0.00041523692198097706,
      "learning_rate": 7.393333333333333e-05,
      "loss": 0.0001,
      "step": 5675
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 0.0005098420078866184,
      "learning_rate": 7.382222222222223e-05,
      "loss": 0.0001,
      "step": 5680
    },
    {
      "epoch": 9.475,
      "grad_norm": 0.00039752357406541705,
      "learning_rate": 7.371111111111112e-05,
      "loss": 0.0001,
      "step": 5685
    },
    {
      "epoch": 9.483333333333333,
      "grad_norm": 0.00043895290582440794,
      "learning_rate": 7.36e-05,
      "loss": 0.0001,
      "step": 5690
    },
    {
      "epoch": 9.491666666666667,
      "grad_norm": 0.0003333947097416967,
      "learning_rate": 7.34888888888889e-05,
      "loss": 0.0001,
      "step": 5695
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.00039290296263061464,
      "learning_rate": 7.337777777777778e-05,
      "loss": 0.0001,
      "step": 5700
    },
    {
      "epoch": 9.5,
      "eval_accuracy": 0.8804166666666666,
      "eval_f1": 0.8806236104797504,
      "eval_loss": 0.782294750213623,
      "eval_precision": 0.8882516731881499,
      "eval_recall": 0.8804166666666666,
      "eval_runtime": 17.3979,
      "eval_samples_per_second": 137.947,
      "eval_steps_per_second": 17.243,
      "step": 5700
    },
    {
      "epoch": 9.508333333333333,
      "grad_norm": 0.00039723003283143044,
      "learning_rate": 7.326666666666667e-05,
      "loss": 0.0001,
      "step": 5705
    },
    {
      "epoch": 9.516666666666667,
      "grad_norm": 0.0004527732089627534,
      "learning_rate": 7.315555555555555e-05,
      "loss": 0.0001,
      "step": 5710
    },
    {
      "epoch": 9.525,
      "grad_norm": 0.0004241722053848207,
      "learning_rate": 7.304444444444445e-05,
      "loss": 0.0001,
      "step": 5715
    },
    {
      "epoch": 9.533333333333333,
      "grad_norm": 0.0003958418092224747,
      "learning_rate": 7.293333333333334e-05,
      "loss": 0.0001,
      "step": 5720
    },
    {
      "epoch": 9.541666666666666,
      "grad_norm": 0.0005423824768513441,
      "learning_rate": 7.282222222222222e-05,
      "loss": 0.0001,
      "step": 5725
    },
    {
      "epoch": 9.55,
      "grad_norm": 0.00035519988159649074,
      "learning_rate": 7.271111111111112e-05,
      "loss": 0.0001,
      "step": 5730
    },
    {
      "epoch": 9.558333333333334,
      "grad_norm": 0.0004989489098079503,
      "learning_rate": 7.26e-05,
      "loss": 0.0001,
      "step": 5735
    },
    {
      "epoch": 9.566666666666666,
      "grad_norm": 0.0003438974672462791,
      "learning_rate": 7.24888888888889e-05,
      "loss": 0.0001,
      "step": 5740
    },
    {
      "epoch": 9.575,
      "grad_norm": 0.0003975847503170371,
      "learning_rate": 7.237777777777777e-05,
      "loss": 0.0001,
      "step": 5745
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.0003625333192758262,
      "learning_rate": 7.226666666666667e-05,
      "loss": 0.0001,
      "step": 5750
    },
    {
      "epoch": 9.591666666666667,
      "grad_norm": 0.0004028902330901474,
      "learning_rate": 7.215555555555556e-05,
      "loss": 0.0001,
      "step": 5755
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.0003277721698395908,
      "learning_rate": 7.204444444444445e-05,
      "loss": 0.0001,
      "step": 5760
    },
    {
      "epoch": 9.608333333333333,
      "grad_norm": 0.00036211320548318326,
      "learning_rate": 7.193333333333334e-05,
      "loss": 0.0001,
      "step": 5765
    },
    {
      "epoch": 9.616666666666667,
      "grad_norm": 0.0004942003288306296,
      "learning_rate": 7.182222222222222e-05,
      "loss": 0.0001,
      "step": 5770
    },
    {
      "epoch": 9.625,
      "grad_norm": 0.00031496965675614774,
      "learning_rate": 7.171111111111112e-05,
      "loss": 0.0001,
      "step": 5775
    },
    {
      "epoch": 9.633333333333333,
      "grad_norm": 0.0003243603277951479,
      "learning_rate": 7.16e-05,
      "loss": 0.0001,
      "step": 5780
    },
    {
      "epoch": 9.641666666666667,
      "grad_norm": 0.0003533444250933826,
      "learning_rate": 7.148888888888889e-05,
      "loss": 0.0001,
      "step": 5785
    },
    {
      "epoch": 9.65,
      "grad_norm": 0.0004646900051739067,
      "learning_rate": 7.137777777777778e-05,
      "loss": 0.0001,
      "step": 5790
    },
    {
      "epoch": 9.658333333333333,
      "grad_norm": 0.00034319059341214597,
      "learning_rate": 7.126666666666667e-05,
      "loss": 0.0001,
      "step": 5795
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.00040155326132662594,
      "learning_rate": 7.115555555555556e-05,
      "loss": 0.0001,
      "step": 5800
    },
    {
      "epoch": 9.666666666666666,
      "eval_accuracy": 0.8808333333333334,
      "eval_f1": 0.881010737772863,
      "eval_loss": 0.7851448655128479,
      "eval_precision": 0.8885428485217456,
      "eval_recall": 0.8808333333333334,
      "eval_runtime": 17.2825,
      "eval_samples_per_second": 138.869,
      "eval_steps_per_second": 17.359,
      "step": 5800
    },
    {
      "epoch": 9.675,
      "grad_norm": 0.0003623182128649205,
      "learning_rate": 7.104444444444444e-05,
      "loss": 0.0001,
      "step": 5805
    },
    {
      "epoch": 9.683333333333334,
      "grad_norm": 0.0003610798448789865,
      "learning_rate": 7.093333333333334e-05,
      "loss": 0.0001,
      "step": 5810
    },
    {
      "epoch": 9.691666666666666,
      "grad_norm": 0.0003804390144068748,
      "learning_rate": 7.082222222222223e-05,
      "loss": 0.0001,
      "step": 5815
    },
    {
      "epoch": 9.7,
      "grad_norm": 0.0004041102365590632,
      "learning_rate": 7.071111111111111e-05,
      "loss": 0.0001,
      "step": 5820
    },
    {
      "epoch": 9.708333333333334,
      "grad_norm": 0.0003720351087395102,
      "learning_rate": 7.06e-05,
      "loss": 0.0001,
      "step": 5825
    },
    {
      "epoch": 9.716666666666667,
      "grad_norm": 0.0003104229108430445,
      "learning_rate": 7.048888888888889e-05,
      "loss": 0.0001,
      "step": 5830
    },
    {
      "epoch": 9.725,
      "grad_norm": 0.00031105359084904194,
      "learning_rate": 7.037777777777778e-05,
      "loss": 0.0001,
      "step": 5835
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 0.0003377147950232029,
      "learning_rate": 7.026666666666668e-05,
      "loss": 0.0001,
      "step": 5840
    },
    {
      "epoch": 9.741666666666667,
      "grad_norm": 0.00040647349669598043,
      "learning_rate": 7.015555555555556e-05,
      "loss": 0.0001,
      "step": 5845
    },
    {
      "epoch": 9.75,
      "grad_norm": 0.0004276078543625772,
      "learning_rate": 7.004444444444445e-05,
      "loss": 0.0001,
      "step": 5850
    },
    {
      "epoch": 9.758333333333333,
      "grad_norm": 0.0003333464846946299,
      "learning_rate": 6.993333333333334e-05,
      "loss": 0.0001,
      "step": 5855
    },
    {
      "epoch": 9.766666666666667,
      "grad_norm": 0.00036082195583730936,
      "learning_rate": 6.982222222222223e-05,
      "loss": 0.0001,
      "step": 5860
    },
    {
      "epoch": 9.775,
      "grad_norm": 0.0004102488455828279,
      "learning_rate": 6.971111111111111e-05,
      "loss": 0.0001,
      "step": 5865
    },
    {
      "epoch": 9.783333333333333,
      "grad_norm": 0.00033012923086062074,
      "learning_rate": 6.96e-05,
      "loss": 0.0001,
      "step": 5870
    },
    {
      "epoch": 9.791666666666666,
      "grad_norm": 0.0004091962764505297,
      "learning_rate": 6.94888888888889e-05,
      "loss": 0.0001,
      "step": 5875
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.00036389121669344604,
      "learning_rate": 6.937777777777778e-05,
      "loss": 0.0001,
      "step": 5880
    },
    {
      "epoch": 9.808333333333334,
      "grad_norm": 0.0004189432947896421,
      "learning_rate": 6.926666666666667e-05,
      "loss": 0.0001,
      "step": 5885
    },
    {
      "epoch": 9.816666666666666,
      "grad_norm": 0.0004483881057240069,
      "learning_rate": 6.915555555555556e-05,
      "loss": 0.0001,
      "step": 5890
    },
    {
      "epoch": 9.825,
      "grad_norm": 0.00033093037200160325,
      "learning_rate": 6.904444444444445e-05,
      "loss": 0.0001,
      "step": 5895
    },
    {
      "epoch": 9.833333333333334,
      "grad_norm": 0.00045201292959973216,
      "learning_rate": 6.893333333333333e-05,
      "loss": 0.0001,
      "step": 5900
    },
    {
      "epoch": 9.833333333333334,
      "eval_accuracy": 0.8808333333333334,
      "eval_f1": 0.881010737772863,
      "eval_loss": 0.7872864007949829,
      "eval_precision": 0.8885428485217456,
      "eval_recall": 0.8808333333333334,
      "eval_runtime": 17.4239,
      "eval_samples_per_second": 137.742,
      "eval_steps_per_second": 17.218,
      "step": 5900
    },
    {
      "epoch": 9.841666666666667,
      "grad_norm": 0.0004162530822213739,
      "learning_rate": 6.882222222222222e-05,
      "loss": 0.0001,
      "step": 5905
    },
    {
      "epoch": 9.85,
      "grad_norm": 0.00037770584458485246,
      "learning_rate": 6.871111111111112e-05,
      "loss": 0.0001,
      "step": 5910
    },
    {
      "epoch": 9.858333333333333,
      "grad_norm": 0.00038861078792251647,
      "learning_rate": 6.860000000000001e-05,
      "loss": 0.0001,
      "step": 5915
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 0.00039814741467125714,
      "learning_rate": 6.848888888888889e-05,
      "loss": 0.0001,
      "step": 5920
    },
    {
      "epoch": 9.875,
      "grad_norm": 0.0004332556272856891,
      "learning_rate": 6.837777777777778e-05,
      "loss": 0.0001,
      "step": 5925
    },
    {
      "epoch": 9.883333333333333,
      "grad_norm": 0.0003353830543346703,
      "learning_rate": 6.826666666666667e-05,
      "loss": 0.0001,
      "step": 5930
    },
    {
      "epoch": 9.891666666666667,
      "grad_norm": 0.00030491940560750663,
      "learning_rate": 6.815555555555557e-05,
      "loss": 0.0001,
      "step": 5935
    },
    {
      "epoch": 9.9,
      "grad_norm": 0.00039570912485942245,
      "learning_rate": 6.804444444444444e-05,
      "loss": 0.0001,
      "step": 5940
    },
    {
      "epoch": 9.908333333333333,
      "grad_norm": 0.00035352862323634326,
      "learning_rate": 6.793333333333334e-05,
      "loss": 0.0001,
      "step": 5945
    },
    {
      "epoch": 9.916666666666666,
      "grad_norm": 0.00039528129855170846,
      "learning_rate": 6.782222222222222e-05,
      "loss": 0.0001,
      "step": 5950
    },
    {
      "epoch": 9.925,
      "grad_norm": 0.00034251718898303807,
      "learning_rate": 6.771111111111112e-05,
      "loss": 0.0001,
      "step": 5955
    },
    {
      "epoch": 9.933333333333334,
      "grad_norm": 0.00045614835107699037,
      "learning_rate": 6.76e-05,
      "loss": 0.0001,
      "step": 5960
    },
    {
      "epoch": 9.941666666666666,
      "grad_norm": 0.00037090267869643867,
      "learning_rate": 6.748888888888889e-05,
      "loss": 0.0001,
      "step": 5965
    },
    {
      "epoch": 9.95,
      "grad_norm": 0.0003231066802982241,
      "learning_rate": 6.737777777777779e-05,
      "loss": 0.0001,
      "step": 5970
    },
    {
      "epoch": 9.958333333333334,
      "grad_norm": 0.0004606390430126339,
      "learning_rate": 6.726666666666667e-05,
      "loss": 0.0001,
      "step": 5975
    },
    {
      "epoch": 9.966666666666667,
      "grad_norm": 0.00032920268131420016,
      "learning_rate": 6.715555555555556e-05,
      "loss": 0.0001,
      "step": 5980
    },
    {
      "epoch": 9.975,
      "grad_norm": 0.00040149924461729825,
      "learning_rate": 6.704444444444444e-05,
      "loss": 0.0001,
      "step": 5985
    },
    {
      "epoch": 9.983333333333333,
      "grad_norm": 0.00039831726462580264,
      "learning_rate": 6.693333333333334e-05,
      "loss": 0.0001,
      "step": 5990
    },
    {
      "epoch": 9.991666666666667,
      "grad_norm": 0.00033455301309004426,
      "learning_rate": 6.682222222222224e-05,
      "loss": 0.0001,
      "step": 5995
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.00039889695472083986,
      "learning_rate": 6.671111111111111e-05,
      "loss": 0.0001,
      "step": 6000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.88125,
      "eval_f1": 0.8814041612868396,
      "eval_loss": 0.7906891107559204,
      "eval_precision": 0.8890034973640458,
      "eval_recall": 0.88125,
      "eval_runtime": 17.4307,
      "eval_samples_per_second": 137.688,
      "eval_steps_per_second": 17.211,
      "step": 6000
    },
    {
      "epoch": 10.008333333333333,
      "grad_norm": 0.00030316715128719807,
      "learning_rate": 6.66e-05,
      "loss": 0.0001,
      "step": 6005
    },
    {
      "epoch": 10.016666666666667,
      "grad_norm": 0.0003930546226911247,
      "learning_rate": 6.648888888888889e-05,
      "loss": 0.0001,
      "step": 6010
    },
    {
      "epoch": 10.025,
      "grad_norm": 0.0004007877432741225,
      "learning_rate": 6.637777777777779e-05,
      "loss": 0.0001,
      "step": 6015
    },
    {
      "epoch": 10.033333333333333,
      "grad_norm": 0.00039761216612532735,
      "learning_rate": 6.626666666666666e-05,
      "loss": 0.0001,
      "step": 6020
    },
    {
      "epoch": 10.041666666666666,
      "grad_norm": 0.0002897311351262033,
      "learning_rate": 6.615555555555556e-05,
      "loss": 0.0001,
      "step": 6025
    },
    {
      "epoch": 10.05,
      "grad_norm": 0.0003257059142924845,
      "learning_rate": 6.604444444444444e-05,
      "loss": 0.0001,
      "step": 6030
    },
    {
      "epoch": 10.058333333333334,
      "grad_norm": 0.0003431485965847969,
      "learning_rate": 6.593333333333334e-05,
      "loss": 0.0001,
      "step": 6035
    },
    {
      "epoch": 10.066666666666666,
      "grad_norm": 0.00045966103789396584,
      "learning_rate": 6.582222222222223e-05,
      "loss": 0.0001,
      "step": 6040
    },
    {
      "epoch": 10.075,
      "grad_norm": 0.0003718521911650896,
      "learning_rate": 6.571111111111111e-05,
      "loss": 0.0001,
      "step": 6045
    },
    {
      "epoch": 10.083333333333334,
      "grad_norm": 0.00040726008592173457,
      "learning_rate": 6.560000000000001e-05,
      "loss": 0.0001,
      "step": 6050
    },
    {
      "epoch": 10.091666666666667,
      "grad_norm": 0.0003261077799834311,
      "learning_rate": 6.54888888888889e-05,
      "loss": 0.0001,
      "step": 6055
    },
    {
      "epoch": 10.1,
      "grad_norm": 0.0003004331374540925,
      "learning_rate": 6.537777777777778e-05,
      "loss": 0.0001,
      "step": 6060
    },
    {
      "epoch": 10.108333333333333,
      "grad_norm": 0.00031846921774558723,
      "learning_rate": 6.526666666666666e-05,
      "loss": 0.0001,
      "step": 6065
    },
    {
      "epoch": 10.116666666666667,
      "grad_norm": 0.0003452165983617306,
      "learning_rate": 6.515555555555556e-05,
      "loss": 0.0001,
      "step": 6070
    },
    {
      "epoch": 10.125,
      "grad_norm": 0.00030157429864630103,
      "learning_rate": 6.504444444444445e-05,
      "loss": 0.0001,
      "step": 6075
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.0003013907407876104,
      "learning_rate": 6.493333333333333e-05,
      "loss": 0.0001,
      "step": 6080
    },
    {
      "epoch": 10.141666666666667,
      "grad_norm": 0.00039939957787282765,
      "learning_rate": 6.482222222222223e-05,
      "loss": 0.0001,
      "step": 6085
    },
    {
      "epoch": 10.15,
      "grad_norm": 0.0003958263259846717,
      "learning_rate": 6.471111111111111e-05,
      "loss": 0.0001,
      "step": 6090
    },
    {
      "epoch": 10.158333333333333,
      "grad_norm": 0.0003653182357084006,
      "learning_rate": 6.460000000000001e-05,
      "loss": 0.0001,
      "step": 6095
    },
    {
      "epoch": 10.166666666666666,
      "grad_norm": 0.0003868579224217683,
      "learning_rate": 6.448888888888888e-05,
      "loss": 0.0001,
      "step": 6100
    },
    {
      "epoch": 10.166666666666666,
      "eval_accuracy": 0.8816666666666667,
      "eval_f1": 0.8817909108690818,
      "eval_loss": 0.7933974266052246,
      "eval_precision": 0.8892962019227069,
      "eval_recall": 0.8816666666666667,
      "eval_runtime": 17.5176,
      "eval_samples_per_second": 137.005,
      "eval_steps_per_second": 17.126,
      "step": 6100
    },
    {
      "epoch": 10.175,
      "grad_norm": 0.00039936049142852426,
      "learning_rate": 6.437777777777778e-05,
      "loss": 0.0001,
      "step": 6105
    },
    {
      "epoch": 10.183333333333334,
      "grad_norm": 0.00029849159182049334,
      "learning_rate": 6.426666666666668e-05,
      "loss": 0.0001,
      "step": 6110
    },
    {
      "epoch": 10.191666666666666,
      "grad_norm": 0.00038483220851048827,
      "learning_rate": 6.415555555555556e-05,
      "loss": 0.0001,
      "step": 6115
    },
    {
      "epoch": 10.2,
      "grad_norm": 0.00031519331969320774,
      "learning_rate": 6.404444444444445e-05,
      "loss": 0.0001,
      "step": 6120
    },
    {
      "epoch": 10.208333333333334,
      "grad_norm": 0.00033812891342677176,
      "learning_rate": 6.393333333333333e-05,
      "loss": 0.0001,
      "step": 6125
    },
    {
      "epoch": 10.216666666666667,
      "grad_norm": 0.00028197356732562184,
      "learning_rate": 6.382222222222223e-05,
      "loss": 0.0001,
      "step": 6130
    },
    {
      "epoch": 10.225,
      "grad_norm": 0.0003410507633816451,
      "learning_rate": 6.371111111111112e-05,
      "loss": 0.0001,
      "step": 6135
    },
    {
      "epoch": 10.233333333333333,
      "grad_norm": 0.00043412367813289165,
      "learning_rate": 6.36e-05,
      "loss": 0.0001,
      "step": 6140
    },
    {
      "epoch": 10.241666666666667,
      "grad_norm": 0.00037350377533584833,
      "learning_rate": 6.348888888888889e-05,
      "loss": 0.0001,
      "step": 6145
    },
    {
      "epoch": 10.25,
      "grad_norm": 0.00035267428029328585,
      "learning_rate": 6.337777777777778e-05,
      "loss": 0.0001,
      "step": 6150
    },
    {
      "epoch": 10.258333333333333,
      "grad_norm": 0.0002956648531835526,
      "learning_rate": 6.326666666666667e-05,
      "loss": 0.0001,
      "step": 6155
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 0.00036817771615460515,
      "learning_rate": 6.315555555555555e-05,
      "loss": 0.0001,
      "step": 6160
    },
    {
      "epoch": 10.275,
      "grad_norm": 0.00031655741622671485,
      "learning_rate": 6.304444444444445e-05,
      "loss": 0.0001,
      "step": 6165
    },
    {
      "epoch": 10.283333333333333,
      "grad_norm": 0.0004520993970800191,
      "learning_rate": 6.293333333333334e-05,
      "loss": 0.0001,
      "step": 6170
    },
    {
      "epoch": 10.291666666666666,
      "grad_norm": 0.00029801420168951154,
      "learning_rate": 6.282222222222222e-05,
      "loss": 0.0001,
      "step": 6175
    },
    {
      "epoch": 10.3,
      "grad_norm": 0.00030042463913559914,
      "learning_rate": 6.27111111111111e-05,
      "loss": 0.0001,
      "step": 6180
    },
    {
      "epoch": 10.308333333333334,
      "grad_norm": 0.00037061338662169874,
      "learning_rate": 6.26e-05,
      "loss": 0.0001,
      "step": 6185
    },
    {
      "epoch": 10.316666666666666,
      "grad_norm": 0.0003039510047528893,
      "learning_rate": 6.24888888888889e-05,
      "loss": 0.0001,
      "step": 6190
    },
    {
      "epoch": 10.325,
      "grad_norm": 0.00039511374779976904,
      "learning_rate": 6.237777777777777e-05,
      "loss": 0.0001,
      "step": 6195
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.00035730417585000396,
      "learning_rate": 6.226666666666667e-05,
      "loss": 0.0001,
      "step": 6200
    },
    {
      "epoch": 10.333333333333334,
      "eval_accuracy": 0.8816666666666667,
      "eval_f1": 0.8818336674580404,
      "eval_loss": 0.7968193292617798,
      "eval_precision": 0.8895537235311586,
      "eval_recall": 0.8816666666666667,
      "eval_runtime": 17.4444,
      "eval_samples_per_second": 137.58,
      "eval_steps_per_second": 17.198,
      "step": 6200
    },
    {
      "epoch": 10.341666666666667,
      "grad_norm": 0.0002896363439504057,
      "learning_rate": 6.215555555555556e-05,
      "loss": 0.0001,
      "step": 6205
    },
    {
      "epoch": 10.35,
      "grad_norm": 0.0003246119013056159,
      "learning_rate": 6.204444444444445e-05,
      "loss": 0.0001,
      "step": 6210
    },
    {
      "epoch": 10.358333333333333,
      "grad_norm": 0.0003407855692785233,
      "learning_rate": 6.193333333333333e-05,
      "loss": 0.0001,
      "step": 6215
    },
    {
      "epoch": 10.366666666666667,
      "grad_norm": 0.00033702253131195903,
      "learning_rate": 6.182222222222222e-05,
      "loss": 0.0001,
      "step": 6220
    },
    {
      "epoch": 10.375,
      "grad_norm": 0.000401163415517658,
      "learning_rate": 6.171111111111112e-05,
      "loss": 0.0001,
      "step": 6225
    },
    {
      "epoch": 10.383333333333333,
      "grad_norm": 0.000381866586394608,
      "learning_rate": 6.16e-05,
      "loss": 0.0001,
      "step": 6230
    },
    {
      "epoch": 10.391666666666667,
      "grad_norm": 0.00032211048528552055,
      "learning_rate": 6.148888888888889e-05,
      "loss": 0.0001,
      "step": 6235
    },
    {
      "epoch": 10.4,
      "grad_norm": 0.000293863529805094,
      "learning_rate": 6.137777777777778e-05,
      "loss": 0.0001,
      "step": 6240
    },
    {
      "epoch": 10.408333333333333,
      "grad_norm": 0.00031903735361993313,
      "learning_rate": 6.126666666666667e-05,
      "loss": 0.0001,
      "step": 6245
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.00038855374441482127,
      "learning_rate": 6.115555555555556e-05,
      "loss": 0.0001,
      "step": 6250
    },
    {
      "epoch": 10.425,
      "grad_norm": 0.00034632463939487934,
      "learning_rate": 6.104444444444444e-05,
      "loss": 0.0001,
      "step": 6255
    },
    {
      "epoch": 10.433333333333334,
      "grad_norm": 0.0002837584470398724,
      "learning_rate": 6.093333333333333e-05,
      "loss": 0.0001,
      "step": 6260
    },
    {
      "epoch": 10.441666666666666,
      "grad_norm": 0.00033705259556882083,
      "learning_rate": 6.0822222222222226e-05,
      "loss": 0.0001,
      "step": 6265
    },
    {
      "epoch": 10.45,
      "grad_norm": 0.0002935341326519847,
      "learning_rate": 6.071111111111112e-05,
      "loss": 0.0001,
      "step": 6270
    },
    {
      "epoch": 10.458333333333334,
      "grad_norm": 0.0003632221487350762,
      "learning_rate": 6.06e-05,
      "loss": 0.0001,
      "step": 6275
    },
    {
      "epoch": 10.466666666666667,
      "grad_norm": 0.00029940149397589266,
      "learning_rate": 6.0488888888888894e-05,
      "loss": 0.0001,
      "step": 6280
    },
    {
      "epoch": 10.475,
      "grad_norm": 0.0002753563749138266,
      "learning_rate": 6.037777777777778e-05,
      "loss": 0.0001,
      "step": 6285
    },
    {
      "epoch": 10.483333333333333,
      "grad_norm": 0.0002755334135144949,
      "learning_rate": 6.026666666666667e-05,
      "loss": 0.0001,
      "step": 6290
    },
    {
      "epoch": 10.491666666666667,
      "grad_norm": 0.00031681032851338387,
      "learning_rate": 6.0155555555555555e-05,
      "loss": 0.0001,
      "step": 6295
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.0007469338597729802,
      "learning_rate": 6.0044444444444446e-05,
      "loss": 0.0001,
      "step": 6300
    },
    {
      "epoch": 10.5,
      "eval_accuracy": 0.8816666666666667,
      "eval_f1": 0.8818336674580404,
      "eval_loss": 0.8002710938453674,
      "eval_precision": 0.8895537235311586,
      "eval_recall": 0.8816666666666667,
      "eval_runtime": 17.4735,
      "eval_samples_per_second": 137.351,
      "eval_steps_per_second": 17.169,
      "step": 6300
    },
    {
      "epoch": 10.508333333333333,
      "grad_norm": 0.0002980611170642078,
      "learning_rate": 5.9933333333333345e-05,
      "loss": 0.0001,
      "step": 6305
    },
    {
      "epoch": 10.516666666666667,
      "grad_norm": 0.0002913577773142606,
      "learning_rate": 5.982222222222222e-05,
      "loss": 0.0001,
      "step": 6310
    },
    {
      "epoch": 10.525,
      "grad_norm": 0.00036093429662287235,
      "learning_rate": 5.971111111111112e-05,
      "loss": 0.0001,
      "step": 6315
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.00038230762584134936,
      "learning_rate": 5.96e-05,
      "loss": 0.0001,
      "step": 6320
    },
    {
      "epoch": 10.541666666666666,
      "grad_norm": 0.00026726993382908404,
      "learning_rate": 5.94888888888889e-05,
      "loss": 0.0001,
      "step": 6325
    },
    {
      "epoch": 10.55,
      "grad_norm": 0.0003427866904530674,
      "learning_rate": 5.9377777777777775e-05,
      "loss": 0.0001,
      "step": 6330
    },
    {
      "epoch": 10.558333333333334,
      "grad_norm": 0.000519891211297363,
      "learning_rate": 5.926666666666667e-05,
      "loss": 0.0001,
      "step": 6335
    },
    {
      "epoch": 10.566666666666666,
      "grad_norm": 0.00024781652609817684,
      "learning_rate": 5.915555555555555e-05,
      "loss": 0.0001,
      "step": 6340
    },
    {
      "epoch": 10.575,
      "grad_norm": 0.00045156580745242536,
      "learning_rate": 5.904444444444445e-05,
      "loss": 0.0001,
      "step": 6345
    },
    {
      "epoch": 10.583333333333334,
      "grad_norm": 0.00027737184427678585,
      "learning_rate": 5.893333333333334e-05,
      "loss": 0.0001,
      "step": 6350
    },
    {
      "epoch": 10.591666666666667,
      "grad_norm": 0.0003986417723353952,
      "learning_rate": 5.8822222222222225e-05,
      "loss": 0.0001,
      "step": 6355
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.00024597058654762805,
      "learning_rate": 5.871111111111112e-05,
      "loss": 0.0001,
      "step": 6360
    },
    {
      "epoch": 10.608333333333333,
      "grad_norm": 0.0003394988307263702,
      "learning_rate": 5.86e-05,
      "loss": 0.0001,
      "step": 6365
    },
    {
      "epoch": 10.616666666666667,
      "grad_norm": 0.00037163306842558086,
      "learning_rate": 5.848888888888889e-05,
      "loss": 0.0001,
      "step": 6370
    },
    {
      "epoch": 10.625,
      "grad_norm": 0.00030882746796123683,
      "learning_rate": 5.837777777777778e-05,
      "loss": 0.0001,
      "step": 6375
    },
    {
      "epoch": 10.633333333333333,
      "grad_norm": 0.0003000967262778431,
      "learning_rate": 5.826666666666667e-05,
      "loss": 0.0001,
      "step": 6380
    },
    {
      "epoch": 10.641666666666667,
      "grad_norm": 0.00033599379821680486,
      "learning_rate": 5.815555555555556e-05,
      "loss": 0.0001,
      "step": 6385
    },
    {
      "epoch": 10.65,
      "grad_norm": 0.0003044439945369959,
      "learning_rate": 5.8044444444444445e-05,
      "loss": 0.0001,
      "step": 6390
    },
    {
      "epoch": 10.658333333333333,
      "grad_norm": 0.0003617425973061472,
      "learning_rate": 5.7933333333333337e-05,
      "loss": 0.0001,
      "step": 6395
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.00028690038016065955,
      "learning_rate": 5.782222222222222e-05,
      "loss": 0.0001,
      "step": 6400
    },
    {
      "epoch": 10.666666666666666,
      "eval_accuracy": 0.8816666666666667,
      "eval_f1": 0.8818336674580404,
      "eval_loss": 0.8027015328407288,
      "eval_precision": 0.8895537235311586,
      "eval_recall": 0.8816666666666667,
      "eval_runtime": 17.6411,
      "eval_samples_per_second": 136.046,
      "eval_steps_per_second": 17.006,
      "step": 6400
    },
    {
      "epoch": 10.675,
      "grad_norm": 0.0003154755395371467,
      "learning_rate": 5.771111111111111e-05,
      "loss": 0.0001,
      "step": 6405
    },
    {
      "epoch": 10.683333333333334,
      "grad_norm": 0.00030140162562020123,
      "learning_rate": 5.76e-05,
      "loss": 0.0001,
      "step": 6410
    },
    {
      "epoch": 10.691666666666666,
      "grad_norm": 0.00035867447149939835,
      "learning_rate": 5.748888888888889e-05,
      "loss": 0.0001,
      "step": 6415
    },
    {
      "epoch": 10.7,
      "grad_norm": 0.0002911914780270308,
      "learning_rate": 5.737777777777779e-05,
      "loss": 0.0001,
      "step": 6420
    },
    {
      "epoch": 10.708333333333334,
      "grad_norm": 0.0002951675560325384,
      "learning_rate": 5.726666666666667e-05,
      "loss": 0.0001,
      "step": 6425
    },
    {
      "epoch": 10.716666666666667,
      "grad_norm": 0.0002642001200001687,
      "learning_rate": 5.715555555555556e-05,
      "loss": 0.0001,
      "step": 6430
    },
    {
      "epoch": 10.725,
      "grad_norm": 0.00044305186020210385,
      "learning_rate": 5.704444444444445e-05,
      "loss": 0.0001,
      "step": 6435
    },
    {
      "epoch": 10.733333333333333,
      "grad_norm": 0.00033005879959091544,
      "learning_rate": 5.693333333333334e-05,
      "loss": 0.0001,
      "step": 6440
    },
    {
      "epoch": 10.741666666666667,
      "grad_norm": 0.000864101224578917,
      "learning_rate": 5.6822222222222224e-05,
      "loss": 0.0001,
      "step": 6445
    },
    {
      "epoch": 10.75,
      "grad_norm": 0.00026849290588870645,
      "learning_rate": 5.6711111111111116e-05,
      "loss": 0.0001,
      "step": 6450
    },
    {
      "epoch": 10.758333333333333,
      "grad_norm": 0.00027614872669801116,
      "learning_rate": 5.66e-05,
      "loss": 0.0001,
      "step": 6455
    },
    {
      "epoch": 10.766666666666667,
      "grad_norm": 0.00026113976491615176,
      "learning_rate": 5.648888888888889e-05,
      "loss": 0.0001,
      "step": 6460
    },
    {
      "epoch": 10.775,
      "grad_norm": 0.00031236762879416347,
      "learning_rate": 5.637777777777778e-05,
      "loss": 0.0001,
      "step": 6465
    },
    {
      "epoch": 10.783333333333333,
      "grad_norm": 0.0004203997668810189,
      "learning_rate": 5.626666666666667e-05,
      "loss": 0.0001,
      "step": 6470
    },
    {
      "epoch": 10.791666666666666,
      "grad_norm": 0.0002848431468009949,
      "learning_rate": 5.615555555555556e-05,
      "loss": 0.0001,
      "step": 6475
    },
    {
      "epoch": 10.8,
      "grad_norm": 0.0003156019956804812,
      "learning_rate": 5.6044444444444444e-05,
      "loss": 0.0001,
      "step": 6480
    },
    {
      "epoch": 10.808333333333334,
      "grad_norm": 0.0003590992419049144,
      "learning_rate": 5.5933333333333335e-05,
      "loss": 0.0001,
      "step": 6485
    },
    {
      "epoch": 10.816666666666666,
      "grad_norm": 0.00039568913052789867,
      "learning_rate": 5.582222222222222e-05,
      "loss": 0.0001,
      "step": 6490
    },
    {
      "epoch": 10.825,
      "grad_norm": 0.0003012795641552657,
      "learning_rate": 5.571111111111111e-05,
      "loss": 0.0001,
      "step": 6495
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.000449963437858969,
      "learning_rate": 5.560000000000001e-05,
      "loss": 0.0001,
      "step": 6500
    },
    {
      "epoch": 10.833333333333334,
      "eval_accuracy": 0.88125,
      "eval_f1": 0.8814646211211705,
      "eval_loss": 0.8034521341323853,
      "eval_precision": 0.889362614559396,
      "eval_recall": 0.88125,
      "eval_runtime": 17.5162,
      "eval_samples_per_second": 137.016,
      "eval_steps_per_second": 17.127,
      "step": 6500
    },
    {
      "epoch": 10.841666666666667,
      "grad_norm": 0.00024862735881470144,
      "learning_rate": 5.548888888888889e-05,
      "loss": 0.0001,
      "step": 6505
    },
    {
      "epoch": 10.85,
      "grad_norm": 0.0002875681675504893,
      "learning_rate": 5.5377777777777786e-05,
      "loss": 0.0001,
      "step": 6510
    },
    {
      "epoch": 10.858333333333333,
      "grad_norm": 0.0002356754703214392,
      "learning_rate": 5.5266666666666664e-05,
      "loss": 0.0001,
      "step": 6515
    },
    {
      "epoch": 10.866666666666667,
      "grad_norm": 0.00047743102186359465,
      "learning_rate": 5.515555555555556e-05,
      "loss": 0.0001,
      "step": 6520
    },
    {
      "epoch": 10.875,
      "grad_norm": 0.00023331520787905902,
      "learning_rate": 5.504444444444444e-05,
      "loss": 0.0001,
      "step": 6525
    },
    {
      "epoch": 10.883333333333333,
      "grad_norm": 0.00028034235583618283,
      "learning_rate": 5.493333333333334e-05,
      "loss": 0.0001,
      "step": 6530
    },
    {
      "epoch": 10.891666666666667,
      "grad_norm": 0.00040921461186371744,
      "learning_rate": 5.482222222222223e-05,
      "loss": 0.0001,
      "step": 6535
    },
    {
      "epoch": 10.9,
      "grad_norm": 0.0003172144934069365,
      "learning_rate": 5.4711111111111114e-05,
      "loss": 0.0001,
      "step": 6540
    },
    {
      "epoch": 10.908333333333333,
      "grad_norm": 0.0002529475896153599,
      "learning_rate": 5.4600000000000006e-05,
      "loss": 0.0001,
      "step": 6545
    },
    {
      "epoch": 10.916666666666666,
      "grad_norm": 0.0002746600948739797,
      "learning_rate": 5.448888888888889e-05,
      "loss": 0.0001,
      "step": 6550
    },
    {
      "epoch": 10.925,
      "grad_norm": 0.00029305974021553993,
      "learning_rate": 5.437777777777778e-05,
      "loss": 0.0001,
      "step": 6555
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 0.00032844641827978194,
      "learning_rate": 5.4266666666666667e-05,
      "loss": 0.0001,
      "step": 6560
    },
    {
      "epoch": 10.941666666666666,
      "grad_norm": 0.00043372815707698464,
      "learning_rate": 5.415555555555556e-05,
      "loss": 0.0001,
      "step": 6565
    },
    {
      "epoch": 10.95,
      "grad_norm": 0.0003574789734557271,
      "learning_rate": 5.404444444444444e-05,
      "loss": 0.0001,
      "step": 6570
    },
    {
      "epoch": 10.958333333333334,
      "grad_norm": 0.0002834995393641293,
      "learning_rate": 5.3933333333333334e-05,
      "loss": 0.0001,
      "step": 6575
    },
    {
      "epoch": 10.966666666666667,
      "grad_norm": 0.00029550670296885073,
      "learning_rate": 5.382222222222223e-05,
      "loss": 0.0001,
      "step": 6580
    },
    {
      "epoch": 10.975,
      "grad_norm": 0.0003545080544427037,
      "learning_rate": 5.371111111111111e-05,
      "loss": 0.0001,
      "step": 6585
    },
    {
      "epoch": 10.983333333333333,
      "grad_norm": 0.0002554418460931629,
      "learning_rate": 5.360000000000001e-05,
      "loss": 0.0001,
      "step": 6590
    },
    {
      "epoch": 10.991666666666667,
      "grad_norm": 0.00023924396373331547,
      "learning_rate": 5.3488888888888886e-05,
      "loss": 0.0001,
      "step": 6595
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.00027795866481028497,
      "learning_rate": 5.3377777777777785e-05,
      "loss": 0.0001,
      "step": 6600
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.88125,
      "eval_f1": 0.8814646211211705,
      "eval_loss": 0.8049454689025879,
      "eval_precision": 0.889362614559396,
      "eval_recall": 0.88125,
      "eval_runtime": 17.6349,
      "eval_samples_per_second": 136.094,
      "eval_steps_per_second": 17.012,
      "step": 6600
    },
    {
      "epoch": 11.008333333333333,
      "grad_norm": 0.00028461511828936636,
      "learning_rate": 5.326666666666666e-05,
      "loss": 0.0001,
      "step": 6605
    },
    {
      "epoch": 11.016666666666667,
      "grad_norm": 0.00027993920957669616,
      "learning_rate": 5.315555555555556e-05,
      "loss": 0.0001,
      "step": 6610
    },
    {
      "epoch": 11.025,
      "grad_norm": 0.0002933141659013927,
      "learning_rate": 5.304444444444445e-05,
      "loss": 0.0001,
      "step": 6615
    },
    {
      "epoch": 11.033333333333333,
      "grad_norm": 0.0003731174219865352,
      "learning_rate": 5.293333333333334e-05,
      "loss": 0.0001,
      "step": 6620
    },
    {
      "epoch": 11.041666666666666,
      "grad_norm": 0.00025036028819158673,
      "learning_rate": 5.282222222222223e-05,
      "loss": 0.0001,
      "step": 6625
    },
    {
      "epoch": 11.05,
      "grad_norm": 0.00030513847013935447,
      "learning_rate": 5.271111111111111e-05,
      "loss": 0.0001,
      "step": 6630
    },
    {
      "epoch": 11.058333333333334,
      "grad_norm": 0.00023375413729809225,
      "learning_rate": 5.2600000000000005e-05,
      "loss": 0.0001,
      "step": 6635
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 0.00028155671316199005,
      "learning_rate": 5.248888888888889e-05,
      "loss": 0.0001,
      "step": 6640
    },
    {
      "epoch": 11.075,
      "grad_norm": 0.00036318969796411693,
      "learning_rate": 5.237777777777778e-05,
      "loss": 0.0001,
      "step": 6645
    },
    {
      "epoch": 11.083333333333334,
      "grad_norm": 0.00031068146927282214,
      "learning_rate": 5.2266666666666665e-05,
      "loss": 0.0001,
      "step": 6650
    },
    {
      "epoch": 11.091666666666667,
      "grad_norm": 0.0003548171080183238,
      "learning_rate": 5.215555555555556e-05,
      "loss": 0.0001,
      "step": 6655
    },
    {
      "epoch": 11.1,
      "grad_norm": 0.00022399060253519565,
      "learning_rate": 5.204444444444445e-05,
      "loss": 0.0001,
      "step": 6660
    },
    {
      "epoch": 11.108333333333333,
      "grad_norm": 0.00027970958035439253,
      "learning_rate": 5.193333333333333e-05,
      "loss": 0.0001,
      "step": 6665
    },
    {
      "epoch": 11.116666666666667,
      "grad_norm": 0.00027306893025524914,
      "learning_rate": 5.1822222222222224e-05,
      "loss": 0.0001,
      "step": 6670
    },
    {
      "epoch": 11.125,
      "grad_norm": 0.0002766016114037484,
      "learning_rate": 5.171111111111111e-05,
      "loss": 0.0001,
      "step": 6675
    },
    {
      "epoch": 11.133333333333333,
      "grad_norm": 0.0003370473859831691,
      "learning_rate": 5.16e-05,
      "loss": 0.0001,
      "step": 6680
    },
    {
      "epoch": 11.141666666666667,
      "grad_norm": 0.00030688263359479606,
      "learning_rate": 5.1488888888888885e-05,
      "loss": 0.0001,
      "step": 6685
    },
    {
      "epoch": 11.15,
      "grad_norm": 0.00031496284645982087,
      "learning_rate": 5.1377777777777784e-05,
      "loss": 0.0001,
      "step": 6690
    },
    {
      "epoch": 11.158333333333333,
      "grad_norm": 0.00025899105821736157,
      "learning_rate": 5.1266666666666675e-05,
      "loss": 0.0001,
      "step": 6695
    },
    {
      "epoch": 11.166666666666666,
      "grad_norm": 0.00031673829653300345,
      "learning_rate": 5.115555555555556e-05,
      "loss": 0.0001,
      "step": 6700
    },
    {
      "epoch": 11.166666666666666,
      "eval_accuracy": 0.88125,
      "eval_f1": 0.8814646211211705,
      "eval_loss": 0.8070083856582642,
      "eval_precision": 0.889362614559396,
      "eval_recall": 0.88125,
      "eval_runtime": 17.3725,
      "eval_samples_per_second": 138.149,
      "eval_steps_per_second": 17.269,
      "step": 6700
    },
    {
      "epoch": 11.175,
      "grad_norm": 0.00032155183725990355,
      "learning_rate": 5.104444444444445e-05,
      "loss": 0.0001,
      "step": 6705
    },
    {
      "epoch": 11.183333333333334,
      "grad_norm": 0.0002423400874249637,
      "learning_rate": 5.0933333333333336e-05,
      "loss": 0.0001,
      "step": 6710
    },
    {
      "epoch": 11.191666666666666,
      "grad_norm": 0.00025863139308057725,
      "learning_rate": 5.082222222222223e-05,
      "loss": 0.0001,
      "step": 6715
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.0003043998731300235,
      "learning_rate": 5.071111111111111e-05,
      "loss": 0.0001,
      "step": 6720
    },
    {
      "epoch": 11.208333333333334,
      "grad_norm": 0.0003493126714602113,
      "learning_rate": 5.0600000000000003e-05,
      "loss": 0.0001,
      "step": 6725
    },
    {
      "epoch": 11.216666666666667,
      "grad_norm": 0.0002967125328723341,
      "learning_rate": 5.0488888888888895e-05,
      "loss": 0.0001,
      "step": 6730
    },
    {
      "epoch": 11.225,
      "grad_norm": 0.00023758687893860042,
      "learning_rate": 5.037777777777778e-05,
      "loss": 0.0001,
      "step": 6735
    },
    {
      "epoch": 11.233333333333333,
      "grad_norm": 0.00027257727924734354,
      "learning_rate": 5.026666666666667e-05,
      "loss": 0.0001,
      "step": 6740
    },
    {
      "epoch": 11.241666666666667,
      "grad_norm": 0.0002431005414109677,
      "learning_rate": 5.0155555555555556e-05,
      "loss": 0.0001,
      "step": 6745
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.0002386086416663602,
      "learning_rate": 5.004444444444445e-05,
      "loss": 0.0001,
      "step": 6750
    },
    {
      "epoch": 11.258333333333333,
      "grad_norm": 0.0002908215392380953,
      "learning_rate": 4.993333333333334e-05,
      "loss": 0.0001,
      "step": 6755
    },
    {
      "epoch": 11.266666666666667,
      "grad_norm": 0.0003213470336049795,
      "learning_rate": 4.982222222222222e-05,
      "loss": 0.0001,
      "step": 6760
    },
    {
      "epoch": 11.275,
      "grad_norm": 0.00031339036650024354,
      "learning_rate": 4.9711111111111115e-05,
      "loss": 0.0001,
      "step": 6765
    },
    {
      "epoch": 11.283333333333333,
      "grad_norm": 0.00022473112039733678,
      "learning_rate": 4.96e-05,
      "loss": 0.0001,
      "step": 6770
    },
    {
      "epoch": 11.291666666666666,
      "grad_norm": 0.00025096331955865026,
      "learning_rate": 4.948888888888889e-05,
      "loss": 0.0001,
      "step": 6775
    },
    {
      "epoch": 11.3,
      "grad_norm": 0.00028354173991829157,
      "learning_rate": 4.9377777777777776e-05,
      "loss": 0.0001,
      "step": 6780
    },
    {
      "epoch": 11.308333333333334,
      "grad_norm": 0.0003619015624281019,
      "learning_rate": 4.926666666666667e-05,
      "loss": 0.0001,
      "step": 6785
    },
    {
      "epoch": 11.316666666666666,
      "grad_norm": 0.0002928715548478067,
      "learning_rate": 4.915555555555556e-05,
      "loss": 0.0001,
      "step": 6790
    },
    {
      "epoch": 11.325,
      "grad_norm": 0.00024058997223619372,
      "learning_rate": 4.904444444444445e-05,
      "loss": 0.0001,
      "step": 6795
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.0005697832675650716,
      "learning_rate": 4.8933333333333335e-05,
      "loss": 0.0001,
      "step": 6800
    },
    {
      "epoch": 11.333333333333334,
      "eval_accuracy": 0.88125,
      "eval_f1": 0.8814646211211705,
      "eval_loss": 0.8091026544570923,
      "eval_precision": 0.889362614559396,
      "eval_recall": 0.88125,
      "eval_runtime": 17.6164,
      "eval_samples_per_second": 136.237,
      "eval_steps_per_second": 17.03,
      "step": 6800
    },
    {
      "epoch": 11.341666666666667,
      "grad_norm": 0.00022835047275293618,
      "learning_rate": 4.8822222222222226e-05,
      "loss": 0.0001,
      "step": 6805
    },
    {
      "epoch": 11.35,
      "grad_norm": 0.0003392524959053844,
      "learning_rate": 4.871111111111111e-05,
      "loss": 0.0001,
      "step": 6810
    },
    {
      "epoch": 11.358333333333333,
      "grad_norm": 0.00031842131284065545,
      "learning_rate": 4.86e-05,
      "loss": 0.0001,
      "step": 6815
    },
    {
      "epoch": 11.366666666666667,
      "grad_norm": 0.0002457943046465516,
      "learning_rate": 4.848888888888889e-05,
      "loss": 0.0001,
      "step": 6820
    },
    {
      "epoch": 11.375,
      "grad_norm": 0.00024392099294345826,
      "learning_rate": 4.837777777777778e-05,
      "loss": 0.0001,
      "step": 6825
    },
    {
      "epoch": 11.383333333333333,
      "grad_norm": 0.0002252877311548218,
      "learning_rate": 4.826666666666667e-05,
      "loss": 0.0001,
      "step": 6830
    },
    {
      "epoch": 11.391666666666667,
      "grad_norm": 0.00030443802825175226,
      "learning_rate": 4.815555555555556e-05,
      "loss": 0.0001,
      "step": 6835
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.0002796246262732893,
      "learning_rate": 4.8044444444444446e-05,
      "loss": 0.0001,
      "step": 6840
    },
    {
      "epoch": 11.408333333333333,
      "grad_norm": 0.00024821970146149397,
      "learning_rate": 4.793333333333334e-05,
      "loss": 0.0001,
      "step": 6845
    },
    {
      "epoch": 11.416666666666666,
      "grad_norm": 0.00023059648810885847,
      "learning_rate": 4.782222222222222e-05,
      "loss": 0.0001,
      "step": 6850
    },
    {
      "epoch": 11.425,
      "grad_norm": 0.00022333950619213283,
      "learning_rate": 4.7711111111111114e-05,
      "loss": 0.0001,
      "step": 6855
    },
    {
      "epoch": 11.433333333333334,
      "grad_norm": 0.00025017853477038443,
      "learning_rate": 4.76e-05,
      "loss": 0.0001,
      "step": 6860
    },
    {
      "epoch": 11.441666666666666,
      "grad_norm": 0.00024392231716774404,
      "learning_rate": 4.7488888888888897e-05,
      "loss": 0.0001,
      "step": 6865
    },
    {
      "epoch": 11.45,
      "grad_norm": 0.0002975657698698342,
      "learning_rate": 4.737777777777778e-05,
      "loss": 0.0001,
      "step": 6870
    },
    {
      "epoch": 11.458333333333334,
      "grad_norm": 0.00023692882678005844,
      "learning_rate": 4.726666666666667e-05,
      "loss": 0.0001,
      "step": 6875
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.00023224526375997812,
      "learning_rate": 4.715555555555556e-05,
      "loss": 0.0001,
      "step": 6880
    },
    {
      "epoch": 11.475,
      "grad_norm": 0.0002236961154267192,
      "learning_rate": 4.704444444444445e-05,
      "loss": 0.0001,
      "step": 6885
    },
    {
      "epoch": 11.483333333333333,
      "grad_norm": 0.0002549228956922889,
      "learning_rate": 4.6933333333333333e-05,
      "loss": 0.0001,
      "step": 6890
    },
    {
      "epoch": 11.491666666666667,
      "grad_norm": 0.00027068532654084265,
      "learning_rate": 4.6822222222222225e-05,
      "loss": 0.0001,
      "step": 6895
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.0003648961428552866,
      "learning_rate": 4.671111111111111e-05,
      "loss": 0.0001,
      "step": 6900
    },
    {
      "epoch": 11.5,
      "eval_accuracy": 0.8816666666666667,
      "eval_f1": 0.8818352601923577,
      "eval_loss": 0.8123593926429749,
      "eval_precision": 0.8896522231351089,
      "eval_recall": 0.8816666666666667,
      "eval_runtime": 17.5761,
      "eval_samples_per_second": 136.549,
      "eval_steps_per_second": 17.069,
      "step": 6900
    },
    {
      "epoch": 11.508333333333333,
      "grad_norm": 0.0002458704693708569,
      "learning_rate": 4.660000000000001e-05,
      "loss": 0.0001,
      "step": 6905
    },
    {
      "epoch": 11.516666666666667,
      "grad_norm": 0.0002519440313335508,
      "learning_rate": 4.648888888888889e-05,
      "loss": 0.0001,
      "step": 6910
    },
    {
      "epoch": 11.525,
      "grad_norm": 0.000245620496571064,
      "learning_rate": 4.6377777777777784e-05,
      "loss": 0.0001,
      "step": 6915
    },
    {
      "epoch": 11.533333333333333,
      "grad_norm": 0.0002269107790198177,
      "learning_rate": 4.626666666666667e-05,
      "loss": 0.0001,
      "step": 6920
    },
    {
      "epoch": 11.541666666666666,
      "grad_norm": 0.0002545846800785512,
      "learning_rate": 4.615555555555556e-05,
      "loss": 0.0001,
      "step": 6925
    },
    {
      "epoch": 11.55,
      "grad_norm": 0.00026264635380357504,
      "learning_rate": 4.6044444444444445e-05,
      "loss": 0.0001,
      "step": 6930
    },
    {
      "epoch": 11.558333333333334,
      "grad_norm": 0.0002499386027920991,
      "learning_rate": 4.5933333333333336e-05,
      "loss": 0.0001,
      "step": 6935
    },
    {
      "epoch": 11.566666666666666,
      "grad_norm": 0.0002086596068693325,
      "learning_rate": 4.582222222222222e-05,
      "loss": 0.0001,
      "step": 6940
    },
    {
      "epoch": 11.575,
      "grad_norm": 0.00028701560222543776,
      "learning_rate": 4.571111111111111e-05,
      "loss": 0.0001,
      "step": 6945
    },
    {
      "epoch": 11.583333333333334,
      "grad_norm": 0.0002361456718062982,
      "learning_rate": 4.5600000000000004e-05,
      "loss": 0.0001,
      "step": 6950
    },
    {
      "epoch": 11.591666666666667,
      "grad_norm": 0.00029449068824760616,
      "learning_rate": 4.5488888888888895e-05,
      "loss": 0.0001,
      "step": 6955
    },
    {
      "epoch": 11.6,
      "grad_norm": 0.00026908659492619336,
      "learning_rate": 4.537777777777778e-05,
      "loss": 0.0001,
      "step": 6960
    },
    {
      "epoch": 11.608333333333333,
      "grad_norm": 0.00022278583492152393,
      "learning_rate": 4.526666666666667e-05,
      "loss": 0.0001,
      "step": 6965
    },
    {
      "epoch": 11.616666666666667,
      "grad_norm": 0.0002539555716793984,
      "learning_rate": 4.5155555555555556e-05,
      "loss": 0.0001,
      "step": 6970
    },
    {
      "epoch": 11.625,
      "grad_norm": 0.0002344099193578586,
      "learning_rate": 4.504444444444445e-05,
      "loss": 0.0001,
      "step": 6975
    },
    {
      "epoch": 11.633333333333333,
      "grad_norm": 0.0002571085060480982,
      "learning_rate": 4.493333333333333e-05,
      "loss": 0.0001,
      "step": 6980
    },
    {
      "epoch": 11.641666666666667,
      "grad_norm": 0.0002258559688925743,
      "learning_rate": 4.4822222222222224e-05,
      "loss": 0.0001,
      "step": 6985
    },
    {
      "epoch": 11.65,
      "grad_norm": 0.00023642554879188538,
      "learning_rate": 4.4711111111111115e-05,
      "loss": 0.0001,
      "step": 6990
    },
    {
      "epoch": 11.658333333333333,
      "grad_norm": 0.00037614323082379997,
      "learning_rate": 4.46e-05,
      "loss": 0.0001,
      "step": 6995
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.0003071832761634141,
      "learning_rate": 4.448888888888889e-05,
      "loss": 0.0001,
      "step": 7000
    },
    {
      "epoch": 11.666666666666666,
      "eval_accuracy": 0.8816666666666667,
      "eval_f1": 0.8818352601923577,
      "eval_loss": 0.8147057294845581,
      "eval_precision": 0.8896522231351089,
      "eval_recall": 0.8816666666666667,
      "eval_runtime": 17.4197,
      "eval_samples_per_second": 137.775,
      "eval_steps_per_second": 17.222,
      "step": 7000
    },
    {
      "epoch": 11.675,
      "grad_norm": 0.00026343914214521646,
      "learning_rate": 4.4377777777777776e-05,
      "loss": 0.0001,
      "step": 7005
    },
    {
      "epoch": 11.683333333333334,
      "grad_norm": 0.00025975413154810667,
      "learning_rate": 4.426666666666667e-05,
      "loss": 0.0001,
      "step": 7010
    },
    {
      "epoch": 11.691666666666666,
      "grad_norm": 0.00022704098955728114,
      "learning_rate": 4.415555555555556e-05,
      "loss": 0.0001,
      "step": 7015
    },
    {
      "epoch": 11.7,
      "grad_norm": 0.00021200304036028683,
      "learning_rate": 4.404444444444445e-05,
      "loss": 0.0001,
      "step": 7020
    },
    {
      "epoch": 11.708333333333334,
      "grad_norm": 0.0002674190909601748,
      "learning_rate": 4.3933333333333335e-05,
      "loss": 0.0001,
      "step": 7025
    },
    {
      "epoch": 11.716666666666667,
      "grad_norm": 0.00023305023205466568,
      "learning_rate": 4.3822222222222227e-05,
      "loss": 0.0001,
      "step": 7030
    },
    {
      "epoch": 11.725,
      "grad_norm": 0.00022969653946347535,
      "learning_rate": 4.371111111111111e-05,
      "loss": 0.0001,
      "step": 7035
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.00026623017038218677,
      "learning_rate": 4.36e-05,
      "loss": 0.0001,
      "step": 7040
    },
    {
      "epoch": 11.741666666666667,
      "grad_norm": 0.00027403674903325737,
      "learning_rate": 4.348888888888889e-05,
      "loss": 0.0001,
      "step": 7045
    },
    {
      "epoch": 11.75,
      "grad_norm": 0.0003314873611088842,
      "learning_rate": 4.337777777777778e-05,
      "loss": 0.0001,
      "step": 7050
    },
    {
      "epoch": 11.758333333333333,
      "grad_norm": 0.00031716664670966566,
      "learning_rate": 4.3266666666666664e-05,
      "loss": 0.0001,
      "step": 7055
    },
    {
      "epoch": 11.766666666666667,
      "grad_norm": 0.0002099132107105106,
      "learning_rate": 4.315555555555556e-05,
      "loss": 0.0001,
      "step": 7060
    },
    {
      "epoch": 11.775,
      "grad_norm": 0.000298726256005466,
      "learning_rate": 4.3044444444444446e-05,
      "loss": 0.0001,
      "step": 7065
    },
    {
      "epoch": 11.783333333333333,
      "grad_norm": 0.00021877605468034744,
      "learning_rate": 4.293333333333334e-05,
      "loss": 0.0001,
      "step": 7070
    },
    {
      "epoch": 11.791666666666666,
      "grad_norm": 0.0002432366891298443,
      "learning_rate": 4.282222222222222e-05,
      "loss": 0.0001,
      "step": 7075
    },
    {
      "epoch": 11.8,
      "grad_norm": 0.00019653500930871814,
      "learning_rate": 4.2711111111111114e-05,
      "loss": 0.0001,
      "step": 7080
    },
    {
      "epoch": 11.808333333333334,
      "grad_norm": 0.0002973123046103865,
      "learning_rate": 4.26e-05,
      "loss": 0.0001,
      "step": 7085
    },
    {
      "epoch": 11.816666666666666,
      "grad_norm": 0.0002326599060324952,
      "learning_rate": 4.248888888888889e-05,
      "loss": 0.0001,
      "step": 7090
    },
    {
      "epoch": 11.825,
      "grad_norm": 0.00024024976301006973,
      "learning_rate": 4.2377777777777775e-05,
      "loss": 0.0001,
      "step": 7095
    },
    {
      "epoch": 11.833333333333334,
      "grad_norm": 0.00021928890782874078,
      "learning_rate": 4.226666666666667e-05,
      "loss": 0.0001,
      "step": 7100
    },
    {
      "epoch": 11.833333333333334,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8822212914879086,
      "eval_loss": 0.8162638545036316,
      "eval_precision": 0.8899449153971383,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.5323,
      "eval_samples_per_second": 136.891,
      "eval_steps_per_second": 17.111,
      "step": 7100
    },
    {
      "epoch": 11.841666666666667,
      "grad_norm": 0.0002821475500240922,
      "learning_rate": 4.215555555555556e-05,
      "loss": 0.0001,
      "step": 7105
    },
    {
      "epoch": 11.85,
      "grad_norm": 0.00024524523178115487,
      "learning_rate": 4.204444444444445e-05,
      "loss": 0.0001,
      "step": 7110
    },
    {
      "epoch": 11.858333333333333,
      "grad_norm": 0.00047786792856641114,
      "learning_rate": 4.1933333333333334e-05,
      "loss": 0.0001,
      "step": 7115
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.00020760988991241902,
      "learning_rate": 4.1822222222222225e-05,
      "loss": 0.0001,
      "step": 7120
    },
    {
      "epoch": 11.875,
      "grad_norm": 0.00021455922978930175,
      "learning_rate": 4.171111111111111e-05,
      "loss": 0.0001,
      "step": 7125
    },
    {
      "epoch": 11.883333333333333,
      "grad_norm": 0.00030381581746041775,
      "learning_rate": 4.16e-05,
      "loss": 0.0001,
      "step": 7130
    },
    {
      "epoch": 11.891666666666667,
      "grad_norm": 0.00024756049970164895,
      "learning_rate": 4.1488888888888886e-05,
      "loss": 0.0001,
      "step": 7135
    },
    {
      "epoch": 11.9,
      "grad_norm": 0.00023484449775423855,
      "learning_rate": 4.1377777777777784e-05,
      "loss": 0.0001,
      "step": 7140
    },
    {
      "epoch": 11.908333333333333,
      "grad_norm": 0.00021236605243757367,
      "learning_rate": 4.126666666666667e-05,
      "loss": 0.0001,
      "step": 7145
    },
    {
      "epoch": 11.916666666666666,
      "grad_norm": 0.0002634607080835849,
      "learning_rate": 4.115555555555556e-05,
      "loss": 0.0001,
      "step": 7150
    },
    {
      "epoch": 11.925,
      "grad_norm": 0.0002453664783388376,
      "learning_rate": 4.1044444444444445e-05,
      "loss": 0.0001,
      "step": 7155
    },
    {
      "epoch": 11.933333333333334,
      "grad_norm": 0.00024303157988470048,
      "learning_rate": 4.093333333333334e-05,
      "loss": 0.0001,
      "step": 7160
    },
    {
      "epoch": 11.941666666666666,
      "grad_norm": 0.0002481674018781632,
      "learning_rate": 4.082222222222222e-05,
      "loss": 0.0001,
      "step": 7165
    },
    {
      "epoch": 11.95,
      "grad_norm": 0.00023377261823043227,
      "learning_rate": 4.071111111111111e-05,
      "loss": 0.0001,
      "step": 7170
    },
    {
      "epoch": 11.958333333333334,
      "grad_norm": 0.0002517795655876398,
      "learning_rate": 4.0600000000000004e-05,
      "loss": 0.0,
      "step": 7175
    },
    {
      "epoch": 11.966666666666667,
      "grad_norm": 0.00030341200181283057,
      "learning_rate": 4.0488888888888896e-05,
      "loss": 0.0001,
      "step": 7180
    },
    {
      "epoch": 11.975,
      "grad_norm": 0.00020417716586962342,
      "learning_rate": 4.037777777777778e-05,
      "loss": 0.0,
      "step": 7185
    },
    {
      "epoch": 11.983333333333333,
      "grad_norm": 0.000242675727349706,
      "learning_rate": 4.026666666666667e-05,
      "loss": 0.0,
      "step": 7190
    },
    {
      "epoch": 11.991666666666667,
      "grad_norm": 0.00019358268764335662,
      "learning_rate": 4.0155555555555557e-05,
      "loss": 0.0001,
      "step": 7195
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.00022853926930110902,
      "learning_rate": 4.004444444444445e-05,
      "loss": 0.0001,
      "step": 7200
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.8829166666666667,
      "eval_f1": 0.8830057877945806,
      "eval_loss": 0.8180660605430603,
      "eval_precision": 0.8907900702384658,
      "eval_recall": 0.8829166666666667,
      "eval_runtime": 17.4812,
      "eval_samples_per_second": 137.29,
      "eval_steps_per_second": 17.161,
      "step": 7200
    },
    {
      "epoch": 12.008333333333333,
      "grad_norm": 0.00027833302738144994,
      "learning_rate": 3.993333333333333e-05,
      "loss": 0.0001,
      "step": 7205
    },
    {
      "epoch": 12.016666666666667,
      "grad_norm": 0.00030362242250703275,
      "learning_rate": 3.9822222222222224e-05,
      "loss": 0.0001,
      "step": 7210
    },
    {
      "epoch": 12.025,
      "grad_norm": 0.00020975249935872853,
      "learning_rate": 3.9711111111111116e-05,
      "loss": 0.0001,
      "step": 7215
    },
    {
      "epoch": 12.033333333333333,
      "grad_norm": 0.00025210133753716946,
      "learning_rate": 3.960000000000001e-05,
      "loss": 0.0,
      "step": 7220
    },
    {
      "epoch": 12.041666666666666,
      "grad_norm": 0.00028956044116057456,
      "learning_rate": 3.948888888888889e-05,
      "loss": 0.0001,
      "step": 7225
    },
    {
      "epoch": 12.05,
      "grad_norm": 0.00024309511354658753,
      "learning_rate": 3.937777777777778e-05,
      "loss": 0.0,
      "step": 7230
    },
    {
      "epoch": 12.058333333333334,
      "grad_norm": 0.00028910639230161905,
      "learning_rate": 3.926666666666667e-05,
      "loss": 0.0001,
      "step": 7235
    },
    {
      "epoch": 12.066666666666666,
      "grad_norm": 0.00027919511194340885,
      "learning_rate": 3.915555555555556e-05,
      "loss": 0.0001,
      "step": 7240
    },
    {
      "epoch": 12.075,
      "grad_norm": 0.00022998980421107262,
      "learning_rate": 3.9044444444444444e-05,
      "loss": 0.0001,
      "step": 7245
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.00021230232960078865,
      "learning_rate": 3.8933333333333336e-05,
      "loss": 0.0,
      "step": 7250
    },
    {
      "epoch": 12.091666666666667,
      "grad_norm": 0.00020582435536198318,
      "learning_rate": 3.882222222222223e-05,
      "loss": 0.0001,
      "step": 7255
    },
    {
      "epoch": 12.1,
      "grad_norm": 0.00023040530504658818,
      "learning_rate": 3.871111111111111e-05,
      "loss": 0.0,
      "step": 7260
    },
    {
      "epoch": 12.108333333333333,
      "grad_norm": 0.000197356945136562,
      "learning_rate": 3.86e-05,
      "loss": 0.0,
      "step": 7265
    },
    {
      "epoch": 12.116666666666667,
      "grad_norm": 0.0002543180889915675,
      "learning_rate": 3.848888888888889e-05,
      "loss": 0.0,
      "step": 7270
    },
    {
      "epoch": 12.125,
      "grad_norm": 0.0002655531861819327,
      "learning_rate": 3.837777777777778e-05,
      "loss": 0.0001,
      "step": 7275
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 0.0003302056575194001,
      "learning_rate": 3.8266666666666664e-05,
      "loss": 0.0,
      "step": 7280
    },
    {
      "epoch": 12.141666666666667,
      "grad_norm": 0.0001913564483402297,
      "learning_rate": 3.8155555555555555e-05,
      "loss": 0.0,
      "step": 7285
    },
    {
      "epoch": 12.15,
      "grad_norm": 0.00023550026526208967,
      "learning_rate": 3.804444444444445e-05,
      "loss": 0.0,
      "step": 7290
    },
    {
      "epoch": 12.158333333333333,
      "grad_norm": 0.00024113233666867018,
      "learning_rate": 3.793333333333334e-05,
      "loss": 0.0,
      "step": 7295
    },
    {
      "epoch": 12.166666666666666,
      "grad_norm": 0.000214276704355143,
      "learning_rate": 3.782222222222222e-05,
      "loss": 0.0,
      "step": 7300
    },
    {
      "epoch": 12.166666666666666,
      "eval_accuracy": 0.8833333333333333,
      "eval_f1": 0.8833918514430915,
      "eval_loss": 0.820395827293396,
      "eval_precision": 0.8910844412499095,
      "eval_recall": 0.8833333333333333,
      "eval_runtime": 17.3926,
      "eval_samples_per_second": 137.99,
      "eval_steps_per_second": 17.249,
      "step": 7300
    },
    {
      "epoch": 12.175,
      "grad_norm": 0.0002340112259844318,
      "learning_rate": 3.7711111111111114e-05,
      "loss": 0.0,
      "step": 7305
    },
    {
      "epoch": 12.183333333333334,
      "grad_norm": 0.0002415943454252556,
      "learning_rate": 3.76e-05,
      "loss": 0.0,
      "step": 7310
    },
    {
      "epoch": 12.191666666666666,
      "grad_norm": 0.000256244937190786,
      "learning_rate": 3.748888888888889e-05,
      "loss": 0.0001,
      "step": 7315
    },
    {
      "epoch": 12.2,
      "grad_norm": 0.00021814809588249773,
      "learning_rate": 3.7377777777777775e-05,
      "loss": 0.0,
      "step": 7320
    },
    {
      "epoch": 12.208333333333334,
      "grad_norm": 0.000265480310190469,
      "learning_rate": 3.726666666666667e-05,
      "loss": 0.0001,
      "step": 7325
    },
    {
      "epoch": 12.216666666666667,
      "grad_norm": 0.00020536716328933835,
      "learning_rate": 3.715555555555555e-05,
      "loss": 0.0,
      "step": 7330
    },
    {
      "epoch": 12.225,
      "grad_norm": 0.0002723172365222126,
      "learning_rate": 3.704444444444445e-05,
      "loss": 0.0001,
      "step": 7335
    },
    {
      "epoch": 12.233333333333333,
      "grad_norm": 0.0002631134120747447,
      "learning_rate": 3.6933333333333334e-05,
      "loss": 0.0001,
      "step": 7340
    },
    {
      "epoch": 12.241666666666667,
      "grad_norm": 0.00020385569951031357,
      "learning_rate": 3.6822222222222226e-05,
      "loss": 0.0,
      "step": 7345
    },
    {
      "epoch": 12.25,
      "grad_norm": 0.00019544358656276017,
      "learning_rate": 3.671111111111111e-05,
      "loss": 0.0,
      "step": 7350
    },
    {
      "epoch": 12.258333333333333,
      "grad_norm": 0.0002138367126462981,
      "learning_rate": 3.66e-05,
      "loss": 0.0,
      "step": 7355
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.00027293749735690653,
      "learning_rate": 3.648888888888889e-05,
      "loss": 0.0001,
      "step": 7360
    },
    {
      "epoch": 12.275,
      "grad_norm": 0.00026276163407601416,
      "learning_rate": 3.637777777777778e-05,
      "loss": 0.0,
      "step": 7365
    },
    {
      "epoch": 12.283333333333333,
      "grad_norm": 0.00021538150031119585,
      "learning_rate": 3.626666666666667e-05,
      "loss": 0.0,
      "step": 7370
    },
    {
      "epoch": 12.291666666666666,
      "grad_norm": 0.0002019204548560083,
      "learning_rate": 3.615555555555556e-05,
      "loss": 0.0,
      "step": 7375
    },
    {
      "epoch": 12.3,
      "grad_norm": 0.00019637690274976194,
      "learning_rate": 3.6044444444444446e-05,
      "loss": 0.0,
      "step": 7380
    },
    {
      "epoch": 12.308333333333334,
      "grad_norm": 0.00026585342129692435,
      "learning_rate": 3.593333333333334e-05,
      "loss": 0.0001,
      "step": 7385
    },
    {
      "epoch": 12.316666666666666,
      "grad_norm": 0.0002259531174786389,
      "learning_rate": 3.582222222222222e-05,
      "loss": 0.0,
      "step": 7390
    },
    {
      "epoch": 12.325,
      "grad_norm": 0.00029063940746709704,
      "learning_rate": 3.571111111111111e-05,
      "loss": 0.0001,
      "step": 7395
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.0002523492439649999,
      "learning_rate": 3.56e-05,
      "loss": 0.0,
      "step": 7400
    },
    {
      "epoch": 12.333333333333334,
      "eval_accuracy": 0.8833333333333333,
      "eval_f1": 0.8833918514430915,
      "eval_loss": 0.8223608136177063,
      "eval_precision": 0.8910844412499095,
      "eval_recall": 0.8833333333333333,
      "eval_runtime": 17.3834,
      "eval_samples_per_second": 138.063,
      "eval_steps_per_second": 17.258,
      "step": 7400
    },
    {
      "epoch": 12.341666666666667,
      "grad_norm": 0.00027809091261588037,
      "learning_rate": 3.548888888888889e-05,
      "loss": 0.0,
      "step": 7405
    },
    {
      "epoch": 12.35,
      "grad_norm": 0.00025399128207936883,
      "learning_rate": 3.537777777777778e-05,
      "loss": 0.0,
      "step": 7410
    },
    {
      "epoch": 12.358333333333333,
      "grad_norm": 0.00021596623992081732,
      "learning_rate": 3.526666666666667e-05,
      "loss": 0.0,
      "step": 7415
    },
    {
      "epoch": 12.366666666666667,
      "grad_norm": 0.0002094822411891073,
      "learning_rate": 3.515555555555556e-05,
      "loss": 0.0,
      "step": 7420
    },
    {
      "epoch": 12.375,
      "grad_norm": 0.00023386710381601006,
      "learning_rate": 3.504444444444445e-05,
      "loss": 0.0,
      "step": 7425
    },
    {
      "epoch": 12.383333333333333,
      "grad_norm": 0.00020672910613939166,
      "learning_rate": 3.493333333333333e-05,
      "loss": 0.0,
      "step": 7430
    },
    {
      "epoch": 12.391666666666667,
      "grad_norm": 0.00027332809986546636,
      "learning_rate": 3.4822222222222225e-05,
      "loss": 0.0,
      "step": 7435
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.00022021407494321465,
      "learning_rate": 3.471111111111111e-05,
      "loss": 0.0,
      "step": 7440
    },
    {
      "epoch": 12.408333333333333,
      "grad_norm": 0.0002101242425851524,
      "learning_rate": 3.46e-05,
      "loss": 0.0,
      "step": 7445
    },
    {
      "epoch": 12.416666666666666,
      "grad_norm": 0.00020575083908624947,
      "learning_rate": 3.448888888888889e-05,
      "loss": 0.0,
      "step": 7450
    },
    {
      "epoch": 12.425,
      "grad_norm": 0.0002491885970812291,
      "learning_rate": 3.4377777777777784e-05,
      "loss": 0.0,
      "step": 7455
    },
    {
      "epoch": 12.433333333333334,
      "grad_norm": 0.0002425894927000627,
      "learning_rate": 3.426666666666667e-05,
      "loss": 0.0,
      "step": 7460
    },
    {
      "epoch": 12.441666666666666,
      "grad_norm": 0.00022015406284481287,
      "learning_rate": 3.415555555555556e-05,
      "loss": 0.0,
      "step": 7465
    },
    {
      "epoch": 12.45,
      "grad_norm": 0.00020740607578773052,
      "learning_rate": 3.4044444444444445e-05,
      "loss": 0.0,
      "step": 7470
    },
    {
      "epoch": 12.458333333333334,
      "grad_norm": 0.00018971768440678716,
      "learning_rate": 3.3933333333333336e-05,
      "loss": 0.0,
      "step": 7475
    },
    {
      "epoch": 12.466666666666667,
      "grad_norm": 0.000295770209049806,
      "learning_rate": 3.382222222222222e-05,
      "loss": 0.0,
      "step": 7480
    },
    {
      "epoch": 12.475,
      "grad_norm": 0.0002018949162447825,
      "learning_rate": 3.371111111111111e-05,
      "loss": 0.0,
      "step": 7485
    },
    {
      "epoch": 12.483333333333333,
      "grad_norm": 0.00021908221242483705,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 0.0001,
      "step": 7490
    },
    {
      "epoch": 12.491666666666667,
      "grad_norm": 0.0002095950476359576,
      "learning_rate": 3.3488888888888895e-05,
      "loss": 0.0,
      "step": 7495
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.0002505708544049412,
      "learning_rate": 3.337777777777778e-05,
      "loss": 0.0,
      "step": 7500
    },
    {
      "epoch": 12.5,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825563679721139,
      "eval_loss": 0.8246452808380127,
      "eval_precision": 0.890238276191427,
      "eval_recall": 0.8825,
      "eval_runtime": 17.4104,
      "eval_samples_per_second": 137.849,
      "eval_steps_per_second": 17.231,
      "step": 7500
    },
    {
      "epoch": 12.508333333333333,
      "grad_norm": 0.0001773550029611215,
      "learning_rate": 3.326666666666667e-05,
      "loss": 0.0,
      "step": 7505
    },
    {
      "epoch": 12.516666666666667,
      "grad_norm": 0.00022341728617902845,
      "learning_rate": 3.3155555555555556e-05,
      "loss": 0.0,
      "step": 7510
    },
    {
      "epoch": 12.525,
      "grad_norm": 0.00021077202109154314,
      "learning_rate": 3.304444444444445e-05,
      "loss": 0.0,
      "step": 7515
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.00019056677410844713,
      "learning_rate": 3.293333333333333e-05,
      "loss": 0.0,
      "step": 7520
    },
    {
      "epoch": 12.541666666666666,
      "grad_norm": 0.0002562374575063586,
      "learning_rate": 3.2822222222222223e-05,
      "loss": 0.0,
      "step": 7525
    },
    {
      "epoch": 12.55,
      "grad_norm": 0.00023176382819656283,
      "learning_rate": 3.2711111111111115e-05,
      "loss": 0.0,
      "step": 7530
    },
    {
      "epoch": 12.558333333333334,
      "grad_norm": 0.00023261514434125274,
      "learning_rate": 3.26e-05,
      "loss": 0.0,
      "step": 7535
    },
    {
      "epoch": 12.566666666666666,
      "grad_norm": 0.00022218687809072435,
      "learning_rate": 3.248888888888889e-05,
      "loss": 0.0,
      "step": 7540
    },
    {
      "epoch": 12.575,
      "grad_norm": 0.00020125559240113944,
      "learning_rate": 3.2377777777777776e-05,
      "loss": 0.0,
      "step": 7545
    },
    {
      "epoch": 12.583333333333334,
      "grad_norm": 0.00018895274843089283,
      "learning_rate": 3.226666666666667e-05,
      "loss": 0.0,
      "step": 7550
    },
    {
      "epoch": 12.591666666666667,
      "grad_norm": 0.00020668450451921672,
      "learning_rate": 3.215555555555556e-05,
      "loss": 0.0,
      "step": 7555
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.00022691735648550093,
      "learning_rate": 3.204444444444444e-05,
      "loss": 0.0,
      "step": 7560
    },
    {
      "epoch": 12.608333333333333,
      "grad_norm": 0.00019803833856713027,
      "learning_rate": 3.1933333333333335e-05,
      "loss": 0.0,
      "step": 7565
    },
    {
      "epoch": 12.616666666666667,
      "grad_norm": 0.00022973520390223712,
      "learning_rate": 3.1822222222222226e-05,
      "loss": 0.0,
      "step": 7570
    },
    {
      "epoch": 12.625,
      "grad_norm": 0.00017480483802501112,
      "learning_rate": 3.171111111111111e-05,
      "loss": 0.0,
      "step": 7575
    },
    {
      "epoch": 12.633333333333333,
      "grad_norm": 0.0002087767206830904,
      "learning_rate": 3.16e-05,
      "loss": 0.0,
      "step": 7580
    },
    {
      "epoch": 12.641666666666667,
      "grad_norm": 0.00019184596021659672,
      "learning_rate": 3.148888888888889e-05,
      "loss": 0.0,
      "step": 7585
    },
    {
      "epoch": 12.65,
      "grad_norm": 0.00021600846957881004,
      "learning_rate": 3.137777777777778e-05,
      "loss": 0.0,
      "step": 7590
    },
    {
      "epoch": 12.658333333333333,
      "grad_norm": 0.00028083674260415137,
      "learning_rate": 3.126666666666666e-05,
      "loss": 0.0,
      "step": 7595
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.00020441258675418794,
      "learning_rate": 3.1155555555555555e-05,
      "loss": 0.0,
      "step": 7600
    },
    {
      "epoch": 12.666666666666666,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8267049193382263,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.5641,
      "eval_samples_per_second": 136.642,
      "eval_steps_per_second": 17.08,
      "step": 7600
    },
    {
      "epoch": 12.675,
      "grad_norm": 0.00020810207934118807,
      "learning_rate": 3.1044444444444446e-05,
      "loss": 0.0,
      "step": 7605
    },
    {
      "epoch": 12.683333333333334,
      "grad_norm": 0.00020417210180312395,
      "learning_rate": 3.093333333333334e-05,
      "loss": 0.0001,
      "step": 7610
    },
    {
      "epoch": 12.691666666666666,
      "grad_norm": 0.00020177822443656623,
      "learning_rate": 3.082222222222222e-05,
      "loss": 0.0,
      "step": 7615
    },
    {
      "epoch": 12.7,
      "grad_norm": 0.0001864606747403741,
      "learning_rate": 3.0711111111111114e-05,
      "loss": 0.0,
      "step": 7620
    },
    {
      "epoch": 12.708333333333334,
      "grad_norm": 0.00018905717297457159,
      "learning_rate": 3.06e-05,
      "loss": 0.0,
      "step": 7625
    },
    {
      "epoch": 12.716666666666667,
      "grad_norm": 0.00023054225312080234,
      "learning_rate": 3.048888888888889e-05,
      "loss": 0.0,
      "step": 7630
    },
    {
      "epoch": 12.725,
      "grad_norm": 0.0002065966255031526,
      "learning_rate": 3.0377777777777778e-05,
      "loss": 0.0,
      "step": 7635
    },
    {
      "epoch": 12.733333333333333,
      "grad_norm": 0.00020217035489622504,
      "learning_rate": 3.0266666666666666e-05,
      "loss": 0.0,
      "step": 7640
    },
    {
      "epoch": 12.741666666666667,
      "grad_norm": 0.000376842770492658,
      "learning_rate": 3.0155555555555557e-05,
      "loss": 0.0,
      "step": 7645
    },
    {
      "epoch": 12.75,
      "grad_norm": 0.00022803239698987454,
      "learning_rate": 3.004444444444445e-05,
      "loss": 0.0,
      "step": 7650
    },
    {
      "epoch": 12.758333333333333,
      "grad_norm": 0.00022767309565097094,
      "learning_rate": 2.9933333333333337e-05,
      "loss": 0.0,
      "step": 7655
    },
    {
      "epoch": 12.766666666666667,
      "grad_norm": 0.00022983207600191236,
      "learning_rate": 2.9822222222222225e-05,
      "loss": 0.0,
      "step": 7660
    },
    {
      "epoch": 12.775,
      "grad_norm": 0.0002216361026512459,
      "learning_rate": 2.9711111111111113e-05,
      "loss": 0.0,
      "step": 7665
    },
    {
      "epoch": 12.783333333333333,
      "grad_norm": 0.00023504573618993163,
      "learning_rate": 2.96e-05,
      "loss": 0.0,
      "step": 7670
    },
    {
      "epoch": 12.791666666666666,
      "grad_norm": 0.00018050154903903604,
      "learning_rate": 2.948888888888889e-05,
      "loss": 0.0,
      "step": 7675
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.00023180610151030123,
      "learning_rate": 2.937777777777778e-05,
      "loss": 0.0,
      "step": 7680
    },
    {
      "epoch": 12.808333333333334,
      "grad_norm": 0.00018283689860254526,
      "learning_rate": 2.926666666666667e-05,
      "loss": 0.0,
      "step": 7685
    },
    {
      "epoch": 12.816666666666666,
      "grad_norm": 0.00023009150754660368,
      "learning_rate": 2.9155555555555557e-05,
      "loss": 0.0,
      "step": 7690
    },
    {
      "epoch": 12.825,
      "grad_norm": 0.00021891076175961643,
      "learning_rate": 2.9044444444444445e-05,
      "loss": 0.0,
      "step": 7695
    },
    {
      "epoch": 12.833333333333334,
      "grad_norm": 0.00020023265096824616,
      "learning_rate": 2.8933333333333333e-05,
      "loss": 0.0,
      "step": 7700
    },
    {
      "epoch": 12.833333333333334,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8279690742492676,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.2068,
      "eval_samples_per_second": 139.479,
      "eval_steps_per_second": 17.435,
      "step": 7700
    },
    {
      "epoch": 12.841666666666667,
      "grad_norm": 0.00019900331972166896,
      "learning_rate": 2.882222222222222e-05,
      "loss": 0.0,
      "step": 7705
    },
    {
      "epoch": 12.85,
      "grad_norm": 0.0002101636491715908,
      "learning_rate": 2.8711111111111113e-05,
      "loss": 0.0,
      "step": 7710
    },
    {
      "epoch": 12.858333333333333,
      "grad_norm": 0.00019579293439164758,
      "learning_rate": 2.86e-05,
      "loss": 0.0,
      "step": 7715
    },
    {
      "epoch": 12.866666666666667,
      "grad_norm": 0.00023615563986822963,
      "learning_rate": 2.8488888888888892e-05,
      "loss": 0.0,
      "step": 7720
    },
    {
      "epoch": 12.875,
      "grad_norm": 0.00018223539518658072,
      "learning_rate": 2.837777777777778e-05,
      "loss": 0.0,
      "step": 7725
    },
    {
      "epoch": 12.883333333333333,
      "grad_norm": 0.00021304503025021404,
      "learning_rate": 2.8266666666666668e-05,
      "loss": 0.0,
      "step": 7730
    },
    {
      "epoch": 12.891666666666667,
      "grad_norm": 0.00018971445388160646,
      "learning_rate": 2.8155555555555556e-05,
      "loss": 0.0,
      "step": 7735
    },
    {
      "epoch": 12.9,
      "grad_norm": 0.0001954557519638911,
      "learning_rate": 2.8044444444444444e-05,
      "loss": 0.0,
      "step": 7740
    },
    {
      "epoch": 12.908333333333333,
      "grad_norm": 0.00024131243117153645,
      "learning_rate": 2.7933333333333332e-05,
      "loss": 0.0,
      "step": 7745
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.00031366036273539066,
      "learning_rate": 2.782222222222222e-05,
      "loss": 0.0,
      "step": 7750
    },
    {
      "epoch": 12.925,
      "grad_norm": 0.00021236491738818586,
      "learning_rate": 2.771111111111111e-05,
      "loss": 0.0,
      "step": 7755
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.00021819760149810463,
      "learning_rate": 2.7600000000000003e-05,
      "loss": 0.0,
      "step": 7760
    },
    {
      "epoch": 12.941666666666666,
      "grad_norm": 0.0002034287026617676,
      "learning_rate": 2.748888888888889e-05,
      "loss": 0.0,
      "step": 7765
    },
    {
      "epoch": 12.95,
      "grad_norm": 0.0002261828922200948,
      "learning_rate": 2.737777777777778e-05,
      "loss": 0.0,
      "step": 7770
    },
    {
      "epoch": 12.958333333333334,
      "grad_norm": 0.00023608723131474108,
      "learning_rate": 2.7266666666666668e-05,
      "loss": 0.0,
      "step": 7775
    },
    {
      "epoch": 12.966666666666667,
      "grad_norm": 0.00020360689086373895,
      "learning_rate": 2.7155555555555556e-05,
      "loss": 0.0,
      "step": 7780
    },
    {
      "epoch": 12.975,
      "grad_norm": 0.00023216618865262717,
      "learning_rate": 2.7044444444444444e-05,
      "loss": 0.0,
      "step": 7785
    },
    {
      "epoch": 12.983333333333333,
      "grad_norm": 0.0002459129609633237,
      "learning_rate": 2.6933333333333332e-05,
      "loss": 0.0,
      "step": 7790
    },
    {
      "epoch": 12.991666666666667,
      "grad_norm": 0.00019421732577029616,
      "learning_rate": 2.682222222222222e-05,
      "loss": 0.0,
      "step": 7795
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.00020216488337609917,
      "learning_rate": 2.6711111111111115e-05,
      "loss": 0.0,
      "step": 7800
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825651568398084,
      "eval_loss": 0.8289538621902466,
      "eval_precision": 0.890188855849929,
      "eval_recall": 0.8825,
      "eval_runtime": 17.5806,
      "eval_samples_per_second": 136.514,
      "eval_steps_per_second": 17.064,
      "step": 7800
    },
    {
      "epoch": 13.008333333333333,
      "grad_norm": 0.00019263019203208387,
      "learning_rate": 2.6600000000000003e-05,
      "loss": 0.0,
      "step": 7805
    },
    {
      "epoch": 13.016666666666667,
      "grad_norm": 0.00027772114844992757,
      "learning_rate": 2.648888888888889e-05,
      "loss": 0.0,
      "step": 7810
    },
    {
      "epoch": 13.025,
      "grad_norm": 0.0002678349846974015,
      "learning_rate": 2.637777777777778e-05,
      "loss": 0.0,
      "step": 7815
    },
    {
      "epoch": 13.033333333333333,
      "grad_norm": 0.00021899386774748564,
      "learning_rate": 2.6266666666666667e-05,
      "loss": 0.0,
      "step": 7820
    },
    {
      "epoch": 13.041666666666666,
      "grad_norm": 0.00019974577298853546,
      "learning_rate": 2.6155555555555555e-05,
      "loss": 0.0,
      "step": 7825
    },
    {
      "epoch": 13.05,
      "grad_norm": 0.00024388344900216907,
      "learning_rate": 2.6044444444444443e-05,
      "loss": 0.0,
      "step": 7830
    },
    {
      "epoch": 13.058333333333334,
      "grad_norm": 0.00019522596267051995,
      "learning_rate": 2.5933333333333338e-05,
      "loss": 0.0,
      "step": 7835
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 0.00018114069825969636,
      "learning_rate": 2.5822222222222226e-05,
      "loss": 0.0,
      "step": 7840
    },
    {
      "epoch": 13.075,
      "grad_norm": 0.00024914200184866786,
      "learning_rate": 2.5711111111111114e-05,
      "loss": 0.0,
      "step": 7845
    },
    {
      "epoch": 13.083333333333334,
      "grad_norm": 0.0001867000391939655,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 0.0,
      "step": 7850
    },
    {
      "epoch": 13.091666666666667,
      "grad_norm": 0.00016311294166371226,
      "learning_rate": 2.548888888888889e-05,
      "loss": 0.0,
      "step": 7855
    },
    {
      "epoch": 13.1,
      "grad_norm": 0.000189823069376871,
      "learning_rate": 2.537777777777778e-05,
      "loss": 0.0,
      "step": 7860
    },
    {
      "epoch": 13.108333333333333,
      "grad_norm": 0.00023518610396422446,
      "learning_rate": 2.5266666666666666e-05,
      "loss": 0.0,
      "step": 7865
    },
    {
      "epoch": 13.116666666666667,
      "grad_norm": 0.00023489471641369164,
      "learning_rate": 2.5155555555555555e-05,
      "loss": 0.0,
      "step": 7870
    },
    {
      "epoch": 13.125,
      "grad_norm": 0.00016635841166134924,
      "learning_rate": 2.504444444444445e-05,
      "loss": 0.0,
      "step": 7875
    },
    {
      "epoch": 13.133333333333333,
      "grad_norm": 0.00022358581190928817,
      "learning_rate": 2.4933333333333334e-05,
      "loss": 0.0,
      "step": 7880
    },
    {
      "epoch": 13.141666666666667,
      "grad_norm": 0.0001778573205228895,
      "learning_rate": 2.4822222222222225e-05,
      "loss": 0.0,
      "step": 7885
    },
    {
      "epoch": 13.15,
      "grad_norm": 0.00022743082081433386,
      "learning_rate": 2.4711111111111114e-05,
      "loss": 0.0,
      "step": 7890
    },
    {
      "epoch": 13.158333333333333,
      "grad_norm": 0.0002745579113252461,
      "learning_rate": 2.46e-05,
      "loss": 0.0,
      "step": 7895
    },
    {
      "epoch": 13.166666666666666,
      "grad_norm": 0.00017478906374890357,
      "learning_rate": 2.448888888888889e-05,
      "loss": 0.0,
      "step": 7900
    },
    {
      "epoch": 13.166666666666666,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8309497833251953,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.3461,
      "eval_samples_per_second": 138.359,
      "eval_steps_per_second": 17.295,
      "step": 7900
    },
    {
      "epoch": 13.175,
      "grad_norm": 0.0002579372958280146,
      "learning_rate": 2.437777777777778e-05,
      "loss": 0.0,
      "step": 7905
    },
    {
      "epoch": 13.183333333333334,
      "grad_norm": 0.00016828881052788347,
      "learning_rate": 2.426666666666667e-05,
      "loss": 0.0,
      "step": 7910
    },
    {
      "epoch": 13.191666666666666,
      "grad_norm": 0.00016676438099239022,
      "learning_rate": 2.4155555555555557e-05,
      "loss": 0.0,
      "step": 7915
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.00022408449149224907,
      "learning_rate": 2.4044444444444445e-05,
      "loss": 0.0,
      "step": 7920
    },
    {
      "epoch": 13.208333333333334,
      "grad_norm": 0.00019597579375840724,
      "learning_rate": 2.3933333333333337e-05,
      "loss": 0.0,
      "step": 7925
    },
    {
      "epoch": 13.216666666666667,
      "grad_norm": 0.00021354817727115005,
      "learning_rate": 2.3822222222222225e-05,
      "loss": 0.0,
      "step": 7930
    },
    {
      "epoch": 13.225,
      "grad_norm": 0.0002328067203052342,
      "learning_rate": 2.3711111111111113e-05,
      "loss": 0.0,
      "step": 7935
    },
    {
      "epoch": 13.233333333333333,
      "grad_norm": 0.00019325132598169148,
      "learning_rate": 2.36e-05,
      "loss": 0.0,
      "step": 7940
    },
    {
      "epoch": 13.241666666666667,
      "grad_norm": 0.00018644663214217871,
      "learning_rate": 2.3488888888888893e-05,
      "loss": 0.0,
      "step": 7945
    },
    {
      "epoch": 13.25,
      "grad_norm": 0.00019255092774983495,
      "learning_rate": 2.337777777777778e-05,
      "loss": 0.0,
      "step": 7950
    },
    {
      "epoch": 13.258333333333333,
      "grad_norm": 0.0002351307775825262,
      "learning_rate": 2.326666666666667e-05,
      "loss": 0.0,
      "step": 7955
    },
    {
      "epoch": 13.266666666666667,
      "grad_norm": 0.00019937430624850094,
      "learning_rate": 2.3155555555555557e-05,
      "loss": 0.0,
      "step": 7960
    },
    {
      "epoch": 13.275,
      "grad_norm": 0.00018397392705082893,
      "learning_rate": 2.3044444444444445e-05,
      "loss": 0.0,
      "step": 7965
    },
    {
      "epoch": 13.283333333333333,
      "grad_norm": 0.0001981027889996767,
      "learning_rate": 2.2933333333333333e-05,
      "loss": 0.0,
      "step": 7970
    },
    {
      "epoch": 13.291666666666666,
      "grad_norm": 0.00017628191562835127,
      "learning_rate": 2.282222222222222e-05,
      "loss": 0.0,
      "step": 7975
    },
    {
      "epoch": 13.3,
      "grad_norm": 0.00017062958795577288,
      "learning_rate": 2.2711111111111112e-05,
      "loss": 0.0,
      "step": 7980
    },
    {
      "epoch": 13.308333333333334,
      "grad_norm": 0.00019359414000064135,
      "learning_rate": 2.26e-05,
      "loss": 0.0,
      "step": 7985
    },
    {
      "epoch": 13.316666666666666,
      "grad_norm": 0.0001965119008673355,
      "learning_rate": 2.248888888888889e-05,
      "loss": 0.0,
      "step": 7990
    },
    {
      "epoch": 13.325,
      "grad_norm": 0.00016932205471675843,
      "learning_rate": 2.2377777777777777e-05,
      "loss": 0.0,
      "step": 7995
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.00021258252672851086,
      "learning_rate": 2.2266666666666668e-05,
      "loss": 0.0,
      "step": 8000
    },
    {
      "epoch": 13.333333333333334,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8328311443328857,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.5274,
      "eval_samples_per_second": 136.929,
      "eval_steps_per_second": 17.116,
      "step": 8000
    },
    {
      "epoch": 13.341666666666667,
      "grad_norm": 0.0002150936343241483,
      "learning_rate": 2.2155555555555556e-05,
      "loss": 0.0,
      "step": 8005
    },
    {
      "epoch": 13.35,
      "grad_norm": 0.00017150466737803072,
      "learning_rate": 2.2044444444444444e-05,
      "loss": 0.0,
      "step": 8010
    },
    {
      "epoch": 13.358333333333333,
      "grad_norm": 0.00020388461416587234,
      "learning_rate": 2.1933333333333332e-05,
      "loss": 0.0,
      "step": 8015
    },
    {
      "epoch": 13.366666666666667,
      "grad_norm": 0.00021628753165714443,
      "learning_rate": 2.1822222222222224e-05,
      "loss": 0.0,
      "step": 8020
    },
    {
      "epoch": 13.375,
      "grad_norm": 0.0001740349835017696,
      "learning_rate": 2.1711111111111112e-05,
      "loss": 0.0,
      "step": 8025
    },
    {
      "epoch": 13.383333333333333,
      "grad_norm": 0.00020285432401578873,
      "learning_rate": 2.16e-05,
      "loss": 0.0,
      "step": 8030
    },
    {
      "epoch": 13.391666666666667,
      "grad_norm": 0.00020065135322511196,
      "learning_rate": 2.1488888888888888e-05,
      "loss": 0.0,
      "step": 8035
    },
    {
      "epoch": 13.4,
      "grad_norm": 0.0001836601149989292,
      "learning_rate": 2.137777777777778e-05,
      "loss": 0.0,
      "step": 8040
    },
    {
      "epoch": 13.408333333333333,
      "grad_norm": 0.00018342453404329717,
      "learning_rate": 2.1266666666666667e-05,
      "loss": 0.0,
      "step": 8045
    },
    {
      "epoch": 13.416666666666666,
      "grad_norm": 0.00019347487250342965,
      "learning_rate": 2.1155555555555556e-05,
      "loss": 0.0,
      "step": 8050
    },
    {
      "epoch": 13.425,
      "grad_norm": 0.00016614058404229581,
      "learning_rate": 2.1044444444444444e-05,
      "loss": 0.0,
      "step": 8055
    },
    {
      "epoch": 13.433333333333334,
      "grad_norm": 0.0001831506669986993,
      "learning_rate": 2.0933333333333335e-05,
      "loss": 0.0,
      "step": 8060
    },
    {
      "epoch": 13.441666666666666,
      "grad_norm": 0.00018661354260984808,
      "learning_rate": 2.0822222222222223e-05,
      "loss": 0.0,
      "step": 8065
    },
    {
      "epoch": 13.45,
      "grad_norm": 0.00020262367615941912,
      "learning_rate": 2.071111111111111e-05,
      "loss": 0.0,
      "step": 8070
    },
    {
      "epoch": 13.458333333333334,
      "grad_norm": 0.0002054392680292949,
      "learning_rate": 2.06e-05,
      "loss": 0.0,
      "step": 8075
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 0.00018578562594484538,
      "learning_rate": 2.048888888888889e-05,
      "loss": 0.0,
      "step": 8080
    },
    {
      "epoch": 13.475,
      "grad_norm": 0.00019214267376810312,
      "learning_rate": 2.037777777777778e-05,
      "loss": 0.0,
      "step": 8085
    },
    {
      "epoch": 13.483333333333333,
      "grad_norm": 0.00019647339649964124,
      "learning_rate": 2.0266666666666667e-05,
      "loss": 0.0,
      "step": 8090
    },
    {
      "epoch": 13.491666666666667,
      "grad_norm": 0.0001878721232060343,
      "learning_rate": 2.0155555555555555e-05,
      "loss": 0.0,
      "step": 8095
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.00021670157730113715,
      "learning_rate": 2.0044444444444446e-05,
      "loss": 0.0,
      "step": 8100
    },
    {
      "epoch": 13.5,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825651568398084,
      "eval_loss": 0.8339550495147705,
      "eval_precision": 0.890188855849929,
      "eval_recall": 0.8825,
      "eval_runtime": 17.2366,
      "eval_samples_per_second": 139.239,
      "eval_steps_per_second": 17.405,
      "step": 8100
    },
    {
      "epoch": 13.508333333333333,
      "grad_norm": 0.0001958951906999573,
      "learning_rate": 1.9933333333333334e-05,
      "loss": 0.0,
      "step": 8105
    },
    {
      "epoch": 13.516666666666667,
      "grad_norm": 0.00018712430028244853,
      "learning_rate": 1.9822222222222223e-05,
      "loss": 0.0,
      "step": 8110
    },
    {
      "epoch": 13.525,
      "grad_norm": 0.0001629511098144576,
      "learning_rate": 1.971111111111111e-05,
      "loss": 0.0,
      "step": 8115
    },
    {
      "epoch": 13.533333333333333,
      "grad_norm": 0.00018618795729707927,
      "learning_rate": 1.9600000000000002e-05,
      "loss": 0.0,
      "step": 8120
    },
    {
      "epoch": 13.541666666666666,
      "grad_norm": 0.00017485523130744696,
      "learning_rate": 1.948888888888889e-05,
      "loss": 0.0,
      "step": 8125
    },
    {
      "epoch": 13.55,
      "grad_norm": 0.00017204122559633106,
      "learning_rate": 1.9377777777777778e-05,
      "loss": 0.0,
      "step": 8130
    },
    {
      "epoch": 13.558333333333334,
      "grad_norm": 0.0001719749707262963,
      "learning_rate": 1.926666666666667e-05,
      "loss": 0.0,
      "step": 8135
    },
    {
      "epoch": 13.566666666666666,
      "grad_norm": 0.0001830024120863527,
      "learning_rate": 1.9155555555555558e-05,
      "loss": 0.0,
      "step": 8140
    },
    {
      "epoch": 13.575,
      "grad_norm": 0.00021283696696627885,
      "learning_rate": 1.9044444444444446e-05,
      "loss": 0.0,
      "step": 8145
    },
    {
      "epoch": 13.583333333333334,
      "grad_norm": 0.00017752833082340658,
      "learning_rate": 1.8933333333333334e-05,
      "loss": 0.0,
      "step": 8150
    },
    {
      "epoch": 13.591666666666667,
      "grad_norm": 0.00016963263624347746,
      "learning_rate": 1.8822222222222225e-05,
      "loss": 0.0,
      "step": 8155
    },
    {
      "epoch": 13.6,
      "grad_norm": 0.0001882654760265723,
      "learning_rate": 1.8711111111111113e-05,
      "loss": 0.0,
      "step": 8160
    },
    {
      "epoch": 13.608333333333333,
      "grad_norm": 0.00017300769104622304,
      "learning_rate": 1.86e-05,
      "loss": 0.0,
      "step": 8165
    },
    {
      "epoch": 13.616666666666667,
      "grad_norm": 0.00024888862390071154,
      "learning_rate": 1.848888888888889e-05,
      "loss": 0.0,
      "step": 8170
    },
    {
      "epoch": 13.625,
      "grad_norm": 0.00020068699086550623,
      "learning_rate": 1.837777777777778e-05,
      "loss": 0.0,
      "step": 8175
    },
    {
      "epoch": 13.633333333333333,
      "grad_norm": 0.00020417645282577723,
      "learning_rate": 1.826666666666667e-05,
      "loss": 0.0,
      "step": 8180
    },
    {
      "epoch": 13.641666666666667,
      "grad_norm": 0.00020832961308769882,
      "learning_rate": 1.8155555555555557e-05,
      "loss": 0.0,
      "step": 8185
    },
    {
      "epoch": 13.65,
      "grad_norm": 0.00017992101493291557,
      "learning_rate": 1.8044444444444445e-05,
      "loss": 0.0,
      "step": 8190
    },
    {
      "epoch": 13.658333333333333,
      "grad_norm": 0.0001696436374913901,
      "learning_rate": 1.7933333333333337e-05,
      "loss": 0.0,
      "step": 8195
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.0002831541933119297,
      "learning_rate": 1.7822222222222225e-05,
      "loss": 0.0,
      "step": 8200
    },
    {
      "epoch": 13.666666666666666,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8347686529159546,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.502,
      "eval_samples_per_second": 137.128,
      "eval_steps_per_second": 17.141,
      "step": 8200
    },
    {
      "epoch": 13.675,
      "grad_norm": 0.00022698688553646207,
      "learning_rate": 1.7711111111111113e-05,
      "loss": 0.0,
      "step": 8205
    },
    {
      "epoch": 13.683333333333334,
      "grad_norm": 0.00015609456750098616,
      "learning_rate": 1.76e-05,
      "loss": 0.0,
      "step": 8210
    },
    {
      "epoch": 13.691666666666666,
      "grad_norm": 0.00015745119890198112,
      "learning_rate": 1.7488888888888892e-05,
      "loss": 0.0,
      "step": 8215
    },
    {
      "epoch": 13.7,
      "grad_norm": 0.00018208676192443818,
      "learning_rate": 1.737777777777778e-05,
      "loss": 0.0,
      "step": 8220
    },
    {
      "epoch": 13.708333333333334,
      "grad_norm": 0.00019308170885778964,
      "learning_rate": 1.726666666666667e-05,
      "loss": 0.0,
      "step": 8225
    },
    {
      "epoch": 13.716666666666667,
      "grad_norm": 0.00021918737911619246,
      "learning_rate": 1.7155555555555557e-05,
      "loss": 0.0,
      "step": 8230
    },
    {
      "epoch": 13.725,
      "grad_norm": 0.00017365686653647572,
      "learning_rate": 1.7044444444444445e-05,
      "loss": 0.0,
      "step": 8235
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.00022654425993096083,
      "learning_rate": 1.6933333333333333e-05,
      "loss": 0.0,
      "step": 8240
    },
    {
      "epoch": 13.741666666666667,
      "grad_norm": 0.00023471162421628833,
      "learning_rate": 1.6822222222222224e-05,
      "loss": 0.0,
      "step": 8245
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.00017353685689158738,
      "learning_rate": 1.6711111111111112e-05,
      "loss": 0.0,
      "step": 8250
    },
    {
      "epoch": 13.758333333333333,
      "grad_norm": 0.00019254790095146745,
      "learning_rate": 1.66e-05,
      "loss": 0.0,
      "step": 8255
    },
    {
      "epoch": 13.766666666666667,
      "grad_norm": 0.00018481566803529859,
      "learning_rate": 1.648888888888889e-05,
      "loss": 0.0,
      "step": 8260
    },
    {
      "epoch": 13.775,
      "grad_norm": 0.00018267150153405964,
      "learning_rate": 1.6377777777777776e-05,
      "loss": 0.0,
      "step": 8265
    },
    {
      "epoch": 13.783333333333333,
      "grad_norm": 0.0001947663549799472,
      "learning_rate": 1.6266666666666665e-05,
      "loss": 0.0,
      "step": 8270
    },
    {
      "epoch": 13.791666666666666,
      "grad_norm": 0.00022752855147700757,
      "learning_rate": 1.6155555555555556e-05,
      "loss": 0.0,
      "step": 8275
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.0002141165896318853,
      "learning_rate": 1.6044444444444444e-05,
      "loss": 0.0,
      "step": 8280
    },
    {
      "epoch": 13.808333333333334,
      "grad_norm": 0.00016464630607515574,
      "learning_rate": 1.5933333333333332e-05,
      "loss": 0.0,
      "step": 8285
    },
    {
      "epoch": 13.816666666666666,
      "grad_norm": 0.0001729343057377264,
      "learning_rate": 1.582222222222222e-05,
      "loss": 0.0,
      "step": 8290
    },
    {
      "epoch": 13.825,
      "grad_norm": 0.00019105155661236495,
      "learning_rate": 1.571111111111111e-05,
      "loss": 0.0,
      "step": 8295
    },
    {
      "epoch": 13.833333333333334,
      "grad_norm": 0.00017406356346327811,
      "learning_rate": 1.56e-05,
      "loss": 0.0,
      "step": 8300
    },
    {
      "epoch": 13.833333333333334,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8359626531600952,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.5476,
      "eval_samples_per_second": 136.771,
      "eval_steps_per_second": 17.096,
      "step": 8300
    },
    {
      "epoch": 13.841666666666667,
      "grad_norm": 0.00017486086289864033,
      "learning_rate": 1.5488888888888888e-05,
      "loss": 0.0,
      "step": 8305
    },
    {
      "epoch": 13.85,
      "grad_norm": 0.00016005273209884763,
      "learning_rate": 1.537777777777778e-05,
      "loss": 0.0,
      "step": 8310
    },
    {
      "epoch": 13.858333333333333,
      "grad_norm": 0.0001879615883808583,
      "learning_rate": 1.5266666666666667e-05,
      "loss": 0.0,
      "step": 8315
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.00018064409960061312,
      "learning_rate": 1.5155555555555555e-05,
      "loss": 0.0,
      "step": 8320
    },
    {
      "epoch": 13.875,
      "grad_norm": 0.00028529722476378083,
      "learning_rate": 1.5044444444444445e-05,
      "loss": 0.0,
      "step": 8325
    },
    {
      "epoch": 13.883333333333333,
      "grad_norm": 0.00017931727052200586,
      "learning_rate": 1.4933333333333335e-05,
      "loss": 0.0,
      "step": 8330
    },
    {
      "epoch": 13.891666666666667,
      "grad_norm": 0.00018616454326547682,
      "learning_rate": 1.4822222222222223e-05,
      "loss": 0.0,
      "step": 8335
    },
    {
      "epoch": 13.9,
      "grad_norm": 0.00020125175069551915,
      "learning_rate": 1.4711111111111111e-05,
      "loss": 0.0,
      "step": 8340
    },
    {
      "epoch": 13.908333333333333,
      "grad_norm": 0.0001605808356544003,
      "learning_rate": 1.4599999999999999e-05,
      "loss": 0.0,
      "step": 8345
    },
    {
      "epoch": 13.916666666666666,
      "grad_norm": 0.00018761292449198663,
      "learning_rate": 1.448888888888889e-05,
      "loss": 0.0,
      "step": 8350
    },
    {
      "epoch": 13.925,
      "grad_norm": 0.00017785238742362708,
      "learning_rate": 1.4377777777777779e-05,
      "loss": 0.0,
      "step": 8355
    },
    {
      "epoch": 13.933333333333334,
      "grad_norm": 0.00018561346223577857,
      "learning_rate": 1.4266666666666667e-05,
      "loss": 0.0,
      "step": 8360
    },
    {
      "epoch": 13.941666666666666,
      "grad_norm": 0.00027865299489349127,
      "learning_rate": 1.4155555555555555e-05,
      "loss": 0.0,
      "step": 8365
    },
    {
      "epoch": 13.95,
      "grad_norm": 0.00019391313253436238,
      "learning_rate": 1.4044444444444446e-05,
      "loss": 0.0,
      "step": 8370
    },
    {
      "epoch": 13.958333333333334,
      "grad_norm": 0.00015461099974345416,
      "learning_rate": 1.3933333333333334e-05,
      "loss": 0.0,
      "step": 8375
    },
    {
      "epoch": 13.966666666666667,
      "grad_norm": 0.00017030435265041888,
      "learning_rate": 1.3822222222222222e-05,
      "loss": 0.0,
      "step": 8380
    },
    {
      "epoch": 13.975,
      "grad_norm": 0.0001709229254629463,
      "learning_rate": 1.371111111111111e-05,
      "loss": 0.0,
      "step": 8385
    },
    {
      "epoch": 13.983333333333333,
      "grad_norm": 0.00017545394075568765,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.0,
      "step": 8390
    },
    {
      "epoch": 13.991666666666667,
      "grad_norm": 0.00018598328460939229,
      "learning_rate": 1.348888888888889e-05,
      "loss": 0.0,
      "step": 8395
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.00016162589599844068,
      "learning_rate": 1.3377777777777778e-05,
      "loss": 0.0,
      "step": 8400
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825651568398084,
      "eval_loss": 0.8369132280349731,
      "eval_precision": 0.890188855849929,
      "eval_recall": 0.8825,
      "eval_runtime": 17.5157,
      "eval_samples_per_second": 137.02,
      "eval_steps_per_second": 17.128,
      "step": 8400
    },
    {
      "epoch": 14.008333333333333,
      "grad_norm": 0.00014753300638403744,
      "learning_rate": 1.3266666666666666e-05,
      "loss": 0.0,
      "step": 8405
    },
    {
      "epoch": 14.016666666666667,
      "grad_norm": 0.00018144505156669766,
      "learning_rate": 1.3155555555555558e-05,
      "loss": 0.0,
      "step": 8410
    },
    {
      "epoch": 14.025,
      "grad_norm": 0.00015316056669689715,
      "learning_rate": 1.3044444444444446e-05,
      "loss": 0.0,
      "step": 8415
    },
    {
      "epoch": 14.033333333333333,
      "grad_norm": 0.0001806470681913197,
      "learning_rate": 1.2933333333333334e-05,
      "loss": 0.0,
      "step": 8420
    },
    {
      "epoch": 14.041666666666666,
      "grad_norm": 0.0001604976278031245,
      "learning_rate": 1.2822222222222222e-05,
      "loss": 0.0,
      "step": 8425
    },
    {
      "epoch": 14.05,
      "grad_norm": 0.00019361906743142754,
      "learning_rate": 1.2711111111111113e-05,
      "loss": 0.0,
      "step": 8430
    },
    {
      "epoch": 14.058333333333334,
      "grad_norm": 0.00019791728118434548,
      "learning_rate": 1.2600000000000001e-05,
      "loss": 0.0,
      "step": 8435
    },
    {
      "epoch": 14.066666666666666,
      "grad_norm": 0.00017698849842417985,
      "learning_rate": 1.248888888888889e-05,
      "loss": 0.0,
      "step": 8440
    },
    {
      "epoch": 14.075,
      "grad_norm": 0.00018551423272583634,
      "learning_rate": 1.237777777777778e-05,
      "loss": 0.0,
      "step": 8445
    },
    {
      "epoch": 14.083333333333334,
      "grad_norm": 0.0001913801534101367,
      "learning_rate": 1.2266666666666667e-05,
      "loss": 0.0,
      "step": 8450
    },
    {
      "epoch": 14.091666666666667,
      "grad_norm": 0.00023565313313156366,
      "learning_rate": 1.2155555555555555e-05,
      "loss": 0.0,
      "step": 8455
    },
    {
      "epoch": 14.1,
      "grad_norm": 0.00017532789206597954,
      "learning_rate": 1.2044444444444445e-05,
      "loss": 0.0,
      "step": 8460
    },
    {
      "epoch": 14.108333333333333,
      "grad_norm": 0.00015906778571661562,
      "learning_rate": 1.1933333333333333e-05,
      "loss": 0.0,
      "step": 8465
    },
    {
      "epoch": 14.116666666666667,
      "grad_norm": 0.0001740664738463238,
      "learning_rate": 1.1822222222222223e-05,
      "loss": 0.0,
      "step": 8470
    },
    {
      "epoch": 14.125,
      "grad_norm": 0.0002242460468551144,
      "learning_rate": 1.1711111111111111e-05,
      "loss": 0.0,
      "step": 8475
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.00017000439402181655,
      "learning_rate": 1.16e-05,
      "loss": 0.0,
      "step": 8480
    },
    {
      "epoch": 14.141666666666667,
      "grad_norm": 0.0001850762200774625,
      "learning_rate": 1.1488888888888889e-05,
      "loss": 0.0,
      "step": 8485
    },
    {
      "epoch": 14.15,
      "grad_norm": 0.00016777652490418404,
      "learning_rate": 1.1377777777777779e-05,
      "loss": 0.0,
      "step": 8490
    },
    {
      "epoch": 14.158333333333333,
      "grad_norm": 0.00017902145918924361,
      "learning_rate": 1.1266666666666667e-05,
      "loss": 0.0,
      "step": 8495
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.00018070245278067887,
      "learning_rate": 1.1155555555555556e-05,
      "loss": 0.0,
      "step": 8500
    },
    {
      "epoch": 14.166666666666666,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8378671407699585,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.2204,
      "eval_samples_per_second": 139.37,
      "eval_steps_per_second": 17.421,
      "step": 8500
    },
    {
      "epoch": 14.175,
      "grad_norm": 0.00018030994397122413,
      "learning_rate": 1.1044444444444444e-05,
      "loss": 0.0,
      "step": 8505
    },
    {
      "epoch": 14.183333333333334,
      "grad_norm": 0.0002057211968349293,
      "learning_rate": 1.0933333333333334e-05,
      "loss": 0.0,
      "step": 8510
    },
    {
      "epoch": 14.191666666666666,
      "grad_norm": 0.000186962031875737,
      "learning_rate": 1.0822222222222222e-05,
      "loss": 0.0,
      "step": 8515
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.00020547689928207546,
      "learning_rate": 1.0711111111111112e-05,
      "loss": 0.0,
      "step": 8520
    },
    {
      "epoch": 14.208333333333334,
      "grad_norm": 0.0001720040017971769,
      "learning_rate": 1.06e-05,
      "loss": 0.0,
      "step": 8525
    },
    {
      "epoch": 14.216666666666667,
      "grad_norm": 0.00021744644618593156,
      "learning_rate": 1.048888888888889e-05,
      "loss": 0.0,
      "step": 8530
    },
    {
      "epoch": 14.225,
      "grad_norm": 0.00018521465244702995,
      "learning_rate": 1.0377777777777778e-05,
      "loss": 0.0,
      "step": 8535
    },
    {
      "epoch": 14.233333333333333,
      "grad_norm": 0.00022781931329518557,
      "learning_rate": 1.0266666666666668e-05,
      "loss": 0.0,
      "step": 8540
    },
    {
      "epoch": 14.241666666666667,
      "grad_norm": 0.00026794298901222646,
      "learning_rate": 1.0155555555555556e-05,
      "loss": 0.0,
      "step": 8545
    },
    {
      "epoch": 14.25,
      "grad_norm": 0.00017206993652507663,
      "learning_rate": 1.0044444444444446e-05,
      "loss": 0.0,
      "step": 8550
    },
    {
      "epoch": 14.258333333333333,
      "grad_norm": 0.00014935017679817975,
      "learning_rate": 9.933333333333334e-06,
      "loss": 0.0,
      "step": 8555
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.0001935766777023673,
      "learning_rate": 9.822222222222223e-06,
      "loss": 0.0,
      "step": 8560
    },
    {
      "epoch": 14.275,
      "grad_norm": 0.0002156337577616796,
      "learning_rate": 9.711111111111111e-06,
      "loss": 0.0,
      "step": 8565
    },
    {
      "epoch": 14.283333333333333,
      "grad_norm": 0.000174568485817872,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.0,
      "step": 8570
    },
    {
      "epoch": 14.291666666666666,
      "grad_norm": 0.00018659196211956441,
      "learning_rate": 9.48888888888889e-06,
      "loss": 0.0,
      "step": 8575
    },
    {
      "epoch": 14.3,
      "grad_norm": 0.00019295972015243024,
      "learning_rate": 9.377777777777779e-06,
      "loss": 0.0,
      "step": 8580
    },
    {
      "epoch": 14.308333333333334,
      "grad_norm": 0.00019174799672327936,
      "learning_rate": 9.266666666666667e-06,
      "loss": 0.0,
      "step": 8585
    },
    {
      "epoch": 14.316666666666666,
      "grad_norm": 0.0001675879320828244,
      "learning_rate": 9.155555555555557e-06,
      "loss": 0.0,
      "step": 8590
    },
    {
      "epoch": 14.325,
      "grad_norm": 0.00020306541409809142,
      "learning_rate": 9.044444444444445e-06,
      "loss": 0.0,
      "step": 8595
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.00015437847469002008,
      "learning_rate": 8.933333333333333e-06,
      "loss": 0.0,
      "step": 8600
    },
    {
      "epoch": 14.333333333333334,
      "eval_accuracy": 0.8820833333333333,
      "eval_f1": 0.8821434157810476,
      "eval_loss": 0.8385883569717407,
      "eval_precision": 0.8897927137824982,
      "eval_recall": 0.8820833333333333,
      "eval_runtime": 17.0633,
      "eval_samples_per_second": 140.653,
      "eval_steps_per_second": 17.582,
      "step": 8600
    },
    {
      "epoch": 14.341666666666667,
      "grad_norm": 0.00015664852980989963,
      "learning_rate": 8.822222222222223e-06,
      "loss": 0.0,
      "step": 8605
    },
    {
      "epoch": 14.35,
      "grad_norm": 0.00016705259622540325,
      "learning_rate": 8.711111111111111e-06,
      "loss": 0.0,
      "step": 8610
    },
    {
      "epoch": 14.358333333333333,
      "grad_norm": 0.00016577212954871356,
      "learning_rate": 8.599999999999999e-06,
      "loss": 0.0,
      "step": 8615
    },
    {
      "epoch": 14.366666666666667,
      "grad_norm": 0.00017201888840645552,
      "learning_rate": 8.488888888888889e-06,
      "loss": 0.0,
      "step": 8620
    },
    {
      "epoch": 14.375,
      "grad_norm": 0.00017752927669789642,
      "learning_rate": 8.377777777777779e-06,
      "loss": 0.0,
      "step": 8625
    },
    {
      "epoch": 14.383333333333333,
      "grad_norm": 0.00020672370737884194,
      "learning_rate": 8.266666666666667e-06,
      "loss": 0.0,
      "step": 8630
    },
    {
      "epoch": 14.391666666666667,
      "grad_norm": 0.00017699558520689607,
      "learning_rate": 8.155555555555556e-06,
      "loss": 0.0,
      "step": 8635
    },
    {
      "epoch": 14.4,
      "grad_norm": 0.00021340607781894505,
      "learning_rate": 8.044444444444444e-06,
      "loss": 0.0,
      "step": 8640
    },
    {
      "epoch": 14.408333333333333,
      "grad_norm": 0.00015180215996224433,
      "learning_rate": 7.933333333333334e-06,
      "loss": 0.0,
      "step": 8645
    },
    {
      "epoch": 14.416666666666666,
      "grad_norm": 0.000207578283152543,
      "learning_rate": 7.822222222222222e-06,
      "loss": 0.0,
      "step": 8650
    },
    {
      "epoch": 14.425,
      "grad_norm": 0.00017632119124755263,
      "learning_rate": 7.711111111111112e-06,
      "loss": 0.0,
      "step": 8655
    },
    {
      "epoch": 14.433333333333334,
      "grad_norm": 0.00021763173572253436,
      "learning_rate": 7.6e-06,
      "loss": 0.0,
      "step": 8660
    },
    {
      "epoch": 14.441666666666666,
      "grad_norm": 0.0001956472551682964,
      "learning_rate": 7.48888888888889e-06,
      "loss": 0.0,
      "step": 8665
    },
    {
      "epoch": 14.45,
      "grad_norm": 0.00014841601660009474,
      "learning_rate": 7.377777777777778e-06,
      "loss": 0.0,
      "step": 8670
    },
    {
      "epoch": 14.458333333333334,
      "grad_norm": 0.0001999816158786416,
      "learning_rate": 7.266666666666668e-06,
      "loss": 0.0,
      "step": 8675
    },
    {
      "epoch": 14.466666666666667,
      "grad_norm": 0.00016472434799652547,
      "learning_rate": 7.155555555555556e-06,
      "loss": 0.0,
      "step": 8680
    },
    {
      "epoch": 14.475,
      "grad_norm": 0.00016283878358080983,
      "learning_rate": 7.0444444444444455e-06,
      "loss": 0.0,
      "step": 8685
    },
    {
      "epoch": 14.483333333333333,
      "grad_norm": 0.00015117033035494387,
      "learning_rate": 6.933333333333334e-06,
      "loss": 0.0,
      "step": 8690
    },
    {
      "epoch": 14.491666666666667,
      "grad_norm": 0.0001656676467973739,
      "learning_rate": 6.8222222222222225e-06,
      "loss": 0.0,
      "step": 8695
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.00015544629422947764,
      "learning_rate": 6.711111111111111e-06,
      "loss": 0.0,
      "step": 8700
    },
    {
      "epoch": 14.5,
      "eval_accuracy": 0.8829166666666667,
      "eval_f1": 0.8829507318546753,
      "eval_loss": 0.8390428423881531,
      "eval_precision": 0.8904845032632345,
      "eval_recall": 0.8829166666666667,
      "eval_runtime": 17.619,
      "eval_samples_per_second": 136.217,
      "eval_steps_per_second": 17.027,
      "step": 8700
    },
    {
      "epoch": 14.508333333333333,
      "grad_norm": 0.00021947435743641108,
      "learning_rate": 6.6e-06,
      "loss": 0.0,
      "step": 8705
    },
    {
      "epoch": 14.516666666666667,
      "grad_norm": 0.00017974227375816554,
      "learning_rate": 6.488888888888888e-06,
      "loss": 0.0,
      "step": 8710
    },
    {
      "epoch": 14.525,
      "grad_norm": 0.00016470765694975853,
      "learning_rate": 6.377777777777778e-06,
      "loss": 0.0,
      "step": 8715
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.00021862164430785924,
      "learning_rate": 6.266666666666666e-06,
      "loss": 0.0,
      "step": 8720
    },
    {
      "epoch": 14.541666666666666,
      "grad_norm": 0.00018498621648177505,
      "learning_rate": 6.155555555555556e-06,
      "loss": 0.0,
      "step": 8725
    },
    {
      "epoch": 14.55,
      "grad_norm": 0.00018079612345900387,
      "learning_rate": 6.044444444444445e-06,
      "loss": 0.0,
      "step": 8730
    },
    {
      "epoch": 14.558333333333334,
      "grad_norm": 0.00017500856483820826,
      "learning_rate": 5.933333333333334e-06,
      "loss": 0.0,
      "step": 8735
    },
    {
      "epoch": 14.566666666666666,
      "grad_norm": 0.00016951694851741195,
      "learning_rate": 5.822222222222223e-06,
      "loss": 0.0,
      "step": 8740
    },
    {
      "epoch": 14.575,
      "grad_norm": 0.0001690676435828209,
      "learning_rate": 5.711111111111112e-06,
      "loss": 0.0,
      "step": 8745
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.00021018316328991205,
      "learning_rate": 5.600000000000001e-06,
      "loss": 0.0,
      "step": 8750
    },
    {
      "epoch": 14.591666666666667,
      "grad_norm": 0.00016379222506657243,
      "learning_rate": 5.4888888888888895e-06,
      "loss": 0.0,
      "step": 8755
    },
    {
      "epoch": 14.6,
      "grad_norm": 0.00017098097305279225,
      "learning_rate": 5.3777777777777784e-06,
      "loss": 0.0,
      "step": 8760
    },
    {
      "epoch": 14.608333333333333,
      "grad_norm": 0.00019389684894122183,
      "learning_rate": 5.266666666666667e-06,
      "loss": 0.0,
      "step": 8765
    },
    {
      "epoch": 14.616666666666667,
      "grad_norm": 0.00022138305939733982,
      "learning_rate": 5.155555555555555e-06,
      "loss": 0.0,
      "step": 8770
    },
    {
      "epoch": 14.625,
      "grad_norm": 0.00015149179671425372,
      "learning_rate": 5.044444444444444e-06,
      "loss": 0.0,
      "step": 8775
    },
    {
      "epoch": 14.633333333333333,
      "grad_norm": 0.00022329755302052945,
      "learning_rate": 4.933333333333333e-06,
      "loss": 0.0,
      "step": 8780
    },
    {
      "epoch": 14.641666666666667,
      "grad_norm": 0.00018298950453754514,
      "learning_rate": 4.822222222222222e-06,
      "loss": 0.0,
      "step": 8785
    },
    {
      "epoch": 14.65,
      "grad_norm": 0.00014787739200983196,
      "learning_rate": 4.711111111111111e-06,
      "loss": 0.0,
      "step": 8790
    },
    {
      "epoch": 14.658333333333333,
      "grad_norm": 0.00019398657605051994,
      "learning_rate": 4.6e-06,
      "loss": 0.0,
      "step": 8795
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.00015126177459023893,
      "learning_rate": 4.488888888888889e-06,
      "loss": 0.0,
      "step": 8800
    },
    {
      "epoch": 14.666666666666666,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825296048852935,
      "eval_loss": 0.839695155620575,
      "eval_precision": 0.8900886429982962,
      "eval_recall": 0.8825,
      "eval_runtime": 17.2538,
      "eval_samples_per_second": 139.1,
      "eval_steps_per_second": 17.387,
      "step": 8800
    },
    {
      "epoch": 14.675,
      "grad_norm": 0.00020376119937282056,
      "learning_rate": 4.377777777777778e-06,
      "loss": 0.0,
      "step": 8805
    },
    {
      "epoch": 14.683333333333334,
      "grad_norm": 0.00017308522365055978,
      "learning_rate": 4.266666666666667e-06,
      "loss": 0.0,
      "step": 8810
    },
    {
      "epoch": 14.691666666666666,
      "grad_norm": 0.00018230153364129364,
      "learning_rate": 4.155555555555556e-06,
      "loss": 0.0,
      "step": 8815
    },
    {
      "epoch": 14.7,
      "grad_norm": 0.00023948033049236983,
      "learning_rate": 4.044444444444445e-06,
      "loss": 0.0,
      "step": 8820
    },
    {
      "epoch": 14.708333333333334,
      "grad_norm": 0.00014872875181026757,
      "learning_rate": 3.9333333333333335e-06,
      "loss": 0.0,
      "step": 8825
    },
    {
      "epoch": 14.716666666666667,
      "grad_norm": 0.00014592104707844555,
      "learning_rate": 3.8222222222222224e-06,
      "loss": 0.0,
      "step": 8830
    },
    {
      "epoch": 14.725,
      "grad_norm": 0.00017497778753750026,
      "learning_rate": 3.711111111111111e-06,
      "loss": 0.0,
      "step": 8835
    },
    {
      "epoch": 14.733333333333333,
      "grad_norm": 0.00017888775619212538,
      "learning_rate": 3.6e-06,
      "loss": 0.0,
      "step": 8840
    },
    {
      "epoch": 14.741666666666667,
      "grad_norm": 0.0002010221651289612,
      "learning_rate": 3.4888888888888888e-06,
      "loss": 0.0,
      "step": 8845
    },
    {
      "epoch": 14.75,
      "grad_norm": 0.00022031199478078634,
      "learning_rate": 3.3777777777777777e-06,
      "loss": 0.0,
      "step": 8850
    },
    {
      "epoch": 14.758333333333333,
      "grad_norm": 0.00016287455218844116,
      "learning_rate": 3.2666666666666666e-06,
      "loss": 0.0,
      "step": 8855
    },
    {
      "epoch": 14.766666666666667,
      "grad_norm": 0.00018465262837707996,
      "learning_rate": 3.155555555555556e-06,
      "loss": 0.0,
      "step": 8860
    },
    {
      "epoch": 14.775,
      "grad_norm": 0.00020838412456214428,
      "learning_rate": 3.0444444444444444e-06,
      "loss": 0.0,
      "step": 8865
    },
    {
      "epoch": 14.783333333333333,
      "grad_norm": 0.00015559619350824505,
      "learning_rate": 2.9333333333333333e-06,
      "loss": 0.0,
      "step": 8870
    },
    {
      "epoch": 14.791666666666666,
      "grad_norm": 0.00019436363072600216,
      "learning_rate": 2.8222222222222223e-06,
      "loss": 0.0,
      "step": 8875
    },
    {
      "epoch": 14.8,
      "grad_norm": 0.00016151760064531118,
      "learning_rate": 2.711111111111111e-06,
      "loss": 0.0,
      "step": 8880
    },
    {
      "epoch": 14.808333333333334,
      "grad_norm": 0.0001963631366379559,
      "learning_rate": 2.6e-06,
      "loss": 0.0,
      "step": 8885
    },
    {
      "epoch": 14.816666666666666,
      "grad_norm": 0.00014729569375049323,
      "learning_rate": 2.488888888888889e-06,
      "loss": 0.0,
      "step": 8890
    },
    {
      "epoch": 14.825,
      "grad_norm": 0.00018281878146808594,
      "learning_rate": 2.377777777777778e-06,
      "loss": 0.0,
      "step": 8895
    },
    {
      "epoch": 14.833333333333334,
      "grad_norm": 0.00021018454572185874,
      "learning_rate": 2.266666666666667e-06,
      "loss": 0.0,
      "step": 8900
    },
    {
      "epoch": 14.833333333333334,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825296048852935,
      "eval_loss": 0.8400650024414062,
      "eval_precision": 0.8900886429982962,
      "eval_recall": 0.8825,
      "eval_runtime": 17.2331,
      "eval_samples_per_second": 139.267,
      "eval_steps_per_second": 17.408,
      "step": 8900
    },
    {
      "epoch": 14.841666666666667,
      "grad_norm": 0.00019177206559106708,
      "learning_rate": 2.1555555555555558e-06,
      "loss": 0.0,
      "step": 8905
    },
    {
      "epoch": 14.85,
      "grad_norm": 0.00023605432943440974,
      "learning_rate": 2.0444444444444447e-06,
      "loss": 0.0,
      "step": 8910
    },
    {
      "epoch": 14.858333333333333,
      "grad_norm": 0.00015869643539190292,
      "learning_rate": 1.9333333333333336e-06,
      "loss": 0.0,
      "step": 8915
    },
    {
      "epoch": 14.866666666666667,
      "grad_norm": 0.00021770063904114068,
      "learning_rate": 1.8222222222222223e-06,
      "loss": 0.0,
      "step": 8920
    },
    {
      "epoch": 14.875,
      "grad_norm": 0.00018532425747253,
      "learning_rate": 1.7111111111111112e-06,
      "loss": 0.0,
      "step": 8925
    },
    {
      "epoch": 14.883333333333333,
      "grad_norm": 0.00017083488637581468,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 0.0,
      "step": 8930
    },
    {
      "epoch": 14.891666666666667,
      "grad_norm": 0.00018595991423353553,
      "learning_rate": 1.488888888888889e-06,
      "loss": 0.0,
      "step": 8935
    },
    {
      "epoch": 14.9,
      "grad_norm": 0.00015359399549197406,
      "learning_rate": 1.3777777777777778e-06,
      "loss": 0.0,
      "step": 8940
    },
    {
      "epoch": 14.908333333333333,
      "grad_norm": 0.0001837653253460303,
      "learning_rate": 1.2666666666666667e-06,
      "loss": 0.0,
      "step": 8945
    },
    {
      "epoch": 14.916666666666666,
      "grad_norm": 0.00021580066822934896,
      "learning_rate": 1.1555555555555556e-06,
      "loss": 0.0,
      "step": 8950
    },
    {
      "epoch": 14.925,
      "grad_norm": 0.0002074449002975598,
      "learning_rate": 1.0444444444444445e-06,
      "loss": 0.0,
      "step": 8955
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.00017030177696142346,
      "learning_rate": 9.333333333333334e-07,
      "loss": 0.0,
      "step": 8960
    },
    {
      "epoch": 14.941666666666666,
      "grad_norm": 0.00016798007709439844,
      "learning_rate": 8.222222222222223e-07,
      "loss": 0.0,
      "step": 8965
    },
    {
      "epoch": 14.95,
      "grad_norm": 0.0002434858470223844,
      "learning_rate": 7.111111111111112e-07,
      "loss": 0.0,
      "step": 8970
    },
    {
      "epoch": 14.958333333333334,
      "grad_norm": 0.00021428774925880134,
      "learning_rate": 6.000000000000001e-07,
      "loss": 0.0,
      "step": 8975
    },
    {
      "epoch": 14.966666666666667,
      "grad_norm": 0.00020753203716594726,
      "learning_rate": 4.888888888888889e-07,
      "loss": 0.0,
      "step": 8980
    },
    {
      "epoch": 14.975,
      "grad_norm": 0.00016551815497223288,
      "learning_rate": 3.777777777777778e-07,
      "loss": 0.0,
      "step": 8985
    },
    {
      "epoch": 14.983333333333333,
      "grad_norm": 0.00016772464732639492,
      "learning_rate": 2.6666666666666667e-07,
      "loss": 0.0,
      "step": 8990
    },
    {
      "epoch": 14.991666666666667,
      "grad_norm": 0.00017770359409041703,
      "learning_rate": 1.5555555555555556e-07,
      "loss": 0.0,
      "step": 8995
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.00020490336464717984,
      "learning_rate": 4.444444444444445e-08,
      "loss": 0.0,
      "step": 9000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.8825,
      "eval_f1": 0.8825296048852935,
      "eval_loss": 0.8401473760604858,
      "eval_precision": 0.8900886429982962,
      "eval_recall": 0.8825,
      "eval_runtime": 17.4456,
      "eval_samples_per_second": 137.57,
      "eval_steps_per_second": 17.196,
      "step": 9000
    },
    {
      "epoch": 15.0,
      "step": 9000,
      "total_flos": 1.115924655734784e+19,
      "train_loss": 0.031536090492374366,
      "train_runtime": 3055.3611,
      "train_samples_per_second": 47.13,
      "train_steps_per_second": 2.946
    }
  ],
  "logging_steps": 5,
  "max_steps": 9000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 15,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.115924655734784e+19,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}