{
  "best_metric": 0.9716312056737588,
  "best_model_checkpoint": "./results/checkpoint-3807",
  "epoch": 70.0,
  "eval_steps": 500,
  "global_step": 5670,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 6.570446014404297,
      "learning_rate": 1.9728395061728395e-05,
      "loss": 2.6389,
      "step": 81
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.475177304964539,
      "eval_loss": 0.7098350524902344,
      "eval_runtime": 0.3441,
      "eval_samples_per_second": 819.478,
      "eval_steps_per_second": 52.307,
      "step": 81
    },
    {
      "epoch": 2.0,
      "grad_norm": 4.623419284820557,
      "learning_rate": 1.944268077601411e-05,
      "loss": 0.6477,
      "step": 162
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.48226950354609927,
      "eval_loss": 0.7516428828239441,
      "eval_runtime": 0.3434,
      "eval_samples_per_second": 821.083,
      "eval_steps_per_second": 52.41,
      "step": 162
    },
    {
      "epoch": 3.0,
      "grad_norm": 10.926794052124023,
      "learning_rate": 1.9156966490299824e-05,
      "loss": 0.6227,
      "step": 243
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.4929078014184397,
      "eval_loss": 0.8317187428474426,
      "eval_runtime": 0.3439,
      "eval_samples_per_second": 820.006,
      "eval_steps_per_second": 52.341,
      "step": 243
    },
    {
      "epoch": 4.0,
      "grad_norm": 12.648384094238281,
      "learning_rate": 1.887125220458554e-05,
      "loss": 0.5403,
      "step": 324
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.4929078014184397,
      "eval_loss": 1.9380121231079102,
      "eval_runtime": 0.3424,
      "eval_samples_per_second": 823.561,
      "eval_steps_per_second": 52.568,
      "step": 324
    },
    {
      "epoch": 5.0,
      "grad_norm": 23.567258834838867,
      "learning_rate": 1.8585537918871256e-05,
      "loss": 0.5108,
      "step": 405
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.49645390070921985,
      "eval_loss": 2.270359754562378,
      "eval_runtime": 0.3437,
      "eval_samples_per_second": 820.538,
      "eval_steps_per_second": 52.375,
      "step": 405
    },
    {
      "epoch": 6.0,
      "grad_norm": 3.5719075202941895,
      "learning_rate": 1.830335097001764e-05,
      "loss": 0.4677,
      "step": 486
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.48936170212765956,
      "eval_loss": 1.6858181953430176,
      "eval_runtime": 0.3432,
      "eval_samples_per_second": 821.693,
      "eval_steps_per_second": 52.449,
      "step": 486
    },
    {
      "epoch": 7.0,
      "grad_norm": 7.08165168762207,
      "learning_rate": 1.8017636684303353e-05,
      "loss": 0.4798,
      "step": 567
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.49645390070921985,
      "eval_loss": 1.623734712600708,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.682,
      "eval_steps_per_second": 52.384,
      "step": 567
    },
    {
      "epoch": 8.0,
      "grad_norm": 10.894269943237305,
      "learning_rate": 1.773192239858907e-05,
      "loss": 0.4817,
      "step": 648
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.5141843971631206,
      "eval_loss": 1.3935478925704956,
      "eval_runtime": 0.3435,
      "eval_samples_per_second": 821.029,
      "eval_steps_per_second": 52.406,
      "step": 648
    },
    {
      "epoch": 9.0,
      "grad_norm": 7.739453315734863,
      "learning_rate": 1.744620811287478e-05,
      "loss": 0.4668,
      "step": 729
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.5177304964539007,
      "eval_loss": 1.259345531463623,
      "eval_runtime": 0.343,
      "eval_samples_per_second": 822.053,
      "eval_steps_per_second": 52.471,
      "step": 729
    },
    {
      "epoch": 10.0,
      "grad_norm": 17.012800216674805,
      "learning_rate": 1.7160493827160498e-05,
      "loss": 0.4359,
      "step": 810
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.5354609929078015,
      "eval_loss": 1.310729742050171,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.694,
      "eval_steps_per_second": 52.385,
      "step": 810
    },
    {
      "epoch": 11.0,
      "grad_norm": 1.6642764806747437,
      "learning_rate": 1.687477954144621e-05,
      "loss": 0.3956,
      "step": 891
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.8226950354609929,
      "eval_loss": 0.43421775102615356,
      "eval_runtime": 0.3435,
      "eval_samples_per_second": 820.982,
      "eval_steps_per_second": 52.403,
      "step": 891
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.3688388168811798,
      "learning_rate": 1.6589065255731923e-05,
      "loss": 0.2906,
      "step": 972
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.9290780141843972,
      "eval_loss": 0.23947754502296448,
      "eval_runtime": 0.3442,
      "eval_samples_per_second": 819.25,
      "eval_steps_per_second": 52.293,
      "step": 972
    },
    {
      "epoch": 13.0,
      "grad_norm": 37.02349853515625,
      "learning_rate": 1.630335097001764e-05,
      "loss": 0.2146,
      "step": 1053
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.9397163120567376,
      "eval_loss": 0.33284759521484375,
      "eval_runtime": 0.3437,
      "eval_samples_per_second": 820.462,
      "eval_steps_per_second": 52.37,
      "step": 1053
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.11939908564090729,
      "learning_rate": 1.601763668430335e-05,
      "loss": 0.1462,
      "step": 1134
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.3009294867515564,
      "eval_runtime": 0.3439,
      "eval_samples_per_second": 819.984,
      "eval_steps_per_second": 52.339,
      "step": 1134
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.08733003586530685,
      "learning_rate": 1.5731922398589064e-05,
      "loss": 0.1062,
      "step": 1215
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.9290780141843972,
      "eval_loss": 0.21407951414585114,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.805,
      "eval_steps_per_second": 52.392,
      "step": 1215
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.21886540949344635,
      "learning_rate": 1.544620811287478e-05,
      "loss": 0.0813,
      "step": 1296
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.9432624113475178,
      "eval_loss": 0.34917283058166504,
      "eval_runtime": 0.344,
      "eval_samples_per_second": 819.711,
      "eval_steps_per_second": 52.322,
      "step": 1296
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.5847246646881104,
      "learning_rate": 1.5160493827160495e-05,
      "loss": 0.1027,
      "step": 1377
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.9219858156028369,
      "eval_loss": 0.3432806432247162,
      "eval_runtime": 0.3446,
      "eval_samples_per_second": 818.425,
      "eval_steps_per_second": 52.24,
      "step": 1377
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.6198065280914307,
      "learning_rate": 1.4874779541446209e-05,
      "loss": 0.0736,
      "step": 1458
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.27183273434638977,
      "eval_runtime": 0.3437,
      "eval_samples_per_second": 820.405,
      "eval_steps_per_second": 52.366,
      "step": 1458
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.5257266163825989,
      "learning_rate": 1.4589065255731925e-05,
      "loss": 0.0684,
      "step": 1539
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.25684282183647156,
      "eval_runtime": 0.3434,
      "eval_samples_per_second": 821.157,
      "eval_steps_per_second": 52.414,
      "step": 1539
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.0009818405378609896,
      "learning_rate": 1.4303350970017638e-05,
      "loss": 0.0779,
      "step": 1620
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.2152564525604248,
      "eval_runtime": 0.3431,
      "eval_samples_per_second": 821.93,
      "eval_steps_per_second": 52.464,
      "step": 1620
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.4532203674316406,
      "learning_rate": 1.4021164021164022e-05,
      "loss": 0.0745,
      "step": 1701
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.1914406418800354,
      "eval_runtime": 0.344,
      "eval_samples_per_second": 819.813,
      "eval_steps_per_second": 52.329,
      "step": 1701
    },
    {
      "epoch": 22.0,
      "grad_norm": 17.428327560424805,
      "learning_rate": 1.3735449735449738e-05,
      "loss": 0.1106,
      "step": 1782
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.2807099223136902,
      "eval_runtime": 0.3441,
      "eval_samples_per_second": 819.457,
      "eval_steps_per_second": 52.306,
      "step": 1782
    },
    {
      "epoch": 23.0,
      "grad_norm": 0.00047796443686820567,
      "learning_rate": 1.344973544973545e-05,
      "loss": 0.0755,
      "step": 1863
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.331978976726532,
      "eval_runtime": 0.3453,
      "eval_samples_per_second": 816.672,
      "eval_steps_per_second": 52.128,
      "step": 1863
    },
    {
      "epoch": 24.0,
      "grad_norm": 1.006925106048584,
      "learning_rate": 1.3164021164021166e-05,
      "loss": 0.0833,
      "step": 1944
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.34625303745269775,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.661,
      "eval_steps_per_second": 52.383,
      "step": 1944
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.506279706954956,
      "learning_rate": 1.288183421516755e-05,
      "loss": 0.0754,
      "step": 2025
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.9432624113475178,
      "eval_loss": 0.34365448355674744,
      "eval_runtime": 0.3432,
      "eval_samples_per_second": 821.691,
      "eval_steps_per_second": 52.448,
      "step": 2025
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.1998976171016693,
      "learning_rate": 1.2596119929453263e-05,
      "loss": 0.0772,
      "step": 2106
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.3350883424282074,
      "eval_runtime": 0.3435,
      "eval_samples_per_second": 820.852,
      "eval_steps_per_second": 52.395,
      "step": 2106
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.19478876888751984,
      "learning_rate": 1.2310405643738979e-05,
      "loss": 0.076,
      "step": 2187
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.9468085106382979,
      "eval_loss": 0.4145265519618988,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.483,
      "eval_steps_per_second": 52.244,
      "step": 2187
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.27469512820243835,
      "learning_rate": 1.2024691358024691e-05,
      "loss": 0.0625,
      "step": 2268
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.44451093673706055,
      "eval_runtime": 0.3439,
      "eval_samples_per_second": 819.913,
      "eval_steps_per_second": 52.335,
      "step": 2268
    },
    {
      "epoch": 29.0,
      "grad_norm": 26.14291000366211,
      "learning_rate": 1.1738977072310408e-05,
      "loss": 0.0741,
      "step": 2349
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.9468085106382979,
      "eval_loss": 0.29801085591316223,
      "eval_runtime": 0.3448,
      "eval_samples_per_second": 817.812,
      "eval_steps_per_second": 52.201,
      "step": 2349
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.0004499799106270075,
      "learning_rate": 1.145326278659612e-05,
      "loss": 0.0649,
      "step": 2430
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.28359255194664,
      "eval_runtime": 0.3442,
      "eval_samples_per_second": 819.247,
      "eval_steps_per_second": 52.292,
      "step": 2430
    },
    {
      "epoch": 31.0,
      "grad_norm": 0.0018564946949481964,
      "learning_rate": 1.1167548500881835e-05,
      "loss": 0.0688,
      "step": 2511
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.21793903410434723,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.498,
      "eval_steps_per_second": 52.245,
      "step": 2511
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.0009469461510889232,
      "learning_rate": 1.088183421516755e-05,
      "loss": 0.0735,
      "step": 2592
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.22946923971176147,
      "eval_runtime": 0.3449,
      "eval_samples_per_second": 817.666,
      "eval_steps_per_second": 52.191,
      "step": 2592
    },
    {
      "epoch": 33.0,
      "grad_norm": 0.4778638184070587,
      "learning_rate": 1.0596119929453263e-05,
      "loss": 0.0648,
      "step": 2673
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.9468085106382979,
      "eval_loss": 0.42410480976104736,
      "eval_runtime": 0.3433,
      "eval_samples_per_second": 821.406,
      "eval_steps_per_second": 52.43,
      "step": 2673
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.21737487614154816,
      "learning_rate": 1.031040564373898e-05,
      "loss": 0.0672,
      "step": 2754
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.2829430401325226,
      "eval_runtime": 0.3447,
      "eval_samples_per_second": 818.124,
      "eval_steps_per_second": 52.221,
      "step": 2754
    },
    {
      "epoch": 35.0,
      "grad_norm": 0.08269879966974258,
      "learning_rate": 1.0024691358024692e-05,
      "loss": 0.067,
      "step": 2835
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.9468085106382979,
      "eval_loss": 0.3723122179508209,
      "eval_runtime": 0.3448,
      "eval_samples_per_second": 817.778,
      "eval_steps_per_second": 52.199,
      "step": 2835
    },
    {
      "epoch": 36.0,
      "grad_norm": 0.3665499687194824,
      "learning_rate": 9.738977072310406e-06,
      "loss": 0.0768,
      "step": 2916
    },
    {
      "epoch": 36.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.25441667437553406,
      "eval_runtime": 0.3447,
      "eval_samples_per_second": 818.182,
      "eval_steps_per_second": 52.224,
      "step": 2916
    },
    {
      "epoch": 37.0,
      "grad_norm": 0.11919476091861725,
      "learning_rate": 9.45326278659612e-06,
      "loss": 0.0691,
      "step": 2997
    },
    {
      "epoch": 37.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.20481815934181213,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.558,
      "eval_steps_per_second": 52.248,
      "step": 2997
    },
    {
      "epoch": 38.0,
      "grad_norm": 0.0036801116075366735,
      "learning_rate": 9.167548500881835e-06,
      "loss": 0.0661,
      "step": 3078
    },
    {
      "epoch": 38.0,
      "eval_accuracy": 0.9680851063829787,
      "eval_loss": 0.20478524267673492,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.468,
      "eval_steps_per_second": 52.243,
      "step": 3078
    },
    {
      "epoch": 39.0,
      "grad_norm": 0.12663815915584564,
      "learning_rate": 8.88183421516755e-06,
      "loss": 0.0409,
      "step": 3159
    },
    {
      "epoch": 39.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.18502239882946014,
      "eval_runtime": 0.3434,
      "eval_samples_per_second": 821.144,
      "eval_steps_per_second": 52.413,
      "step": 3159
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.06950168311595917,
      "learning_rate": 8.596119929453264e-06,
      "loss": 0.0424,
      "step": 3240
    },
    {
      "epoch": 40.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.20747074484825134,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.693,
      "eval_steps_per_second": 52.257,
      "step": 3240
    },
    {
      "epoch": 41.0,
      "grad_norm": 0.09251494705677032,
      "learning_rate": 8.310405643738978e-06,
      "loss": 0.0381,
      "step": 3321
    },
    {
      "epoch": 41.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.2633875906467438,
      "eval_runtime": 0.3468,
      "eval_samples_per_second": 813.14,
      "eval_steps_per_second": 51.903,
      "step": 3321
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.06917154043912888,
      "learning_rate": 8.024691358024692e-06,
      "loss": 0.0383,
      "step": 3402
    },
    {
      "epoch": 42.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.3520617187023163,
      "eval_runtime": 0.3447,
      "eval_samples_per_second": 818.036,
      "eval_steps_per_second": 52.215,
      "step": 3402
    },
    {
      "epoch": 43.0,
      "grad_norm": 0.0010325413895770907,
      "learning_rate": 7.738977072310407e-06,
      "loss": 0.0288,
      "step": 3483
    },
    {
      "epoch": 43.0,
      "eval_accuracy": 0.9680851063829787,
      "eval_loss": 0.2726523280143738,
      "eval_runtime": 0.3428,
      "eval_samples_per_second": 822.588,
      "eval_steps_per_second": 52.506,
      "step": 3483
    },
    {
      "epoch": 44.0,
      "grad_norm": 0.04726780578494072,
      "learning_rate": 7.45326278659612e-06,
      "loss": 0.035,
      "step": 3564
    },
    {
      "epoch": 44.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.2995310127735138,
      "eval_runtime": 0.3442,
      "eval_samples_per_second": 819.308,
      "eval_steps_per_second": 52.296,
      "step": 3564
    },
    {
      "epoch": 45.0,
      "grad_norm": 0.09283600747585297,
      "learning_rate": 7.167548500881835e-06,
      "loss": 0.0265,
      "step": 3645
    },
    {
      "epoch": 45.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.33694958686828613,
      "eval_runtime": 0.3443,
      "eval_samples_per_second": 818.994,
      "eval_steps_per_second": 52.276,
      "step": 3645
    },
    {
      "epoch": 46.0,
      "grad_norm": 0.03685113787651062,
      "learning_rate": 6.881834215167549e-06,
      "loss": 0.0217,
      "step": 3726
    },
    {
      "epoch": 46.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.35722091794013977,
      "eval_runtime": 0.3438,
      "eval_samples_per_second": 820.281,
      "eval_steps_per_second": 52.358,
      "step": 3726
    },
    {
      "epoch": 47.0,
      "grad_norm": 0.04708189144730568,
      "learning_rate": 6.596119929453263e-06,
      "loss": 0.0259,
      "step": 3807
    },
    {
      "epoch": 47.0,
      "eval_accuracy": 0.9716312056737588,
      "eval_loss": 0.21833930909633636,
      "eval_runtime": 0.3427,
      "eval_samples_per_second": 822.913,
      "eval_steps_per_second": 52.526,
      "step": 3807
    },
    {
      "epoch": 48.0,
      "grad_norm": 0.06329997628927231,
      "learning_rate": 6.310405643738977e-06,
      "loss": 0.0264,
      "step": 3888
    },
    {
      "epoch": 48.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.2745024561882019,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.777,
      "eval_steps_per_second": 52.39,
      "step": 3888
    },
    {
      "epoch": 49.0,
      "grad_norm": 0.13020673394203186,
      "learning_rate": 6.024691358024692e-06,
      "loss": 0.027,
      "step": 3969
    },
    {
      "epoch": 49.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.3425739109516144,
      "eval_runtime": 0.3449,
      "eval_samples_per_second": 817.548,
      "eval_steps_per_second": 52.184,
      "step": 3969
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.04181819409132004,
      "learning_rate": 5.7389770723104065e-06,
      "loss": 0.023,
      "step": 4050
    },
    {
      "epoch": 50.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.37068530917167664,
      "eval_runtime": 0.3441,
      "eval_samples_per_second": 819.471,
      "eval_steps_per_second": 52.307,
      "step": 4050
    },
    {
      "epoch": 51.0,
      "grad_norm": 0.03754027560353279,
      "learning_rate": 5.453262786596121e-06,
      "loss": 0.0241,
      "step": 4131
    },
    {
      "epoch": 51.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.3041815459728241,
      "eval_runtime": 0.3443,
      "eval_samples_per_second": 819.127,
      "eval_steps_per_second": 52.285,
      "step": 4131
    },
    {
      "epoch": 52.0,
      "grad_norm": 0.06724414229393005,
      "learning_rate": 5.167548500881835e-06,
      "loss": 0.0248,
      "step": 4212
    },
    {
      "epoch": 52.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.3282240927219391,
      "eval_runtime": 0.3433,
      "eval_samples_per_second": 821.512,
      "eval_steps_per_second": 52.437,
      "step": 4212
    },
    {
      "epoch": 53.0,
      "grad_norm": 0.044111430644989014,
      "learning_rate": 4.881834215167549e-06,
      "loss": 0.0267,
      "step": 4293
    },
    {
      "epoch": 53.0,
      "eval_accuracy": 0.9680851063829787,
      "eval_loss": 0.2480100840330124,
      "eval_runtime": 0.3438,
      "eval_samples_per_second": 820.176,
      "eval_steps_per_second": 52.352,
      "step": 4293
    },
    {
      "epoch": 54.0,
      "grad_norm": 0.09385800361633301,
      "learning_rate": 4.596119929453263e-06,
      "loss": 0.019,
      "step": 4374
    },
    {
      "epoch": 54.0,
      "eval_accuracy": 0.9680851063829787,
      "eval_loss": 0.2954387366771698,
      "eval_runtime": 0.3444,
      "eval_samples_per_second": 818.748,
      "eval_steps_per_second": 52.261,
      "step": 4374
    },
    {
      "epoch": 55.0,
      "grad_norm": 0.00036285247188061476,
      "learning_rate": 4.3104056437389775e-06,
      "loss": 0.0233,
      "step": 4455
    },
    {
      "epoch": 55.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.26300373673439026,
      "eval_runtime": 0.3483,
      "eval_samples_per_second": 809.563,
      "eval_steps_per_second": 51.674,
      "step": 4455
    },
    {
      "epoch": 56.0,
      "grad_norm": 0.03549063578248024,
      "learning_rate": 4.024691358024692e-06,
      "loss": 0.0231,
      "step": 4536
    },
    {
      "epoch": 56.0,
      "eval_accuracy": 0.9645390070921985,
      "eval_loss": 0.26614007353782654,
      "eval_runtime": 0.3434,
      "eval_samples_per_second": 821.294,
      "eval_steps_per_second": 52.423,
      "step": 4536
    },
    {
      "epoch": 57.0,
      "grad_norm": 0.0008688592351973057,
      "learning_rate": 3.7389770723104058e-06,
      "loss": 0.0188,
      "step": 4617
    },
    {
      "epoch": 57.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.3676702678203583,
      "eval_runtime": 0.3441,
      "eval_samples_per_second": 819.514,
      "eval_steps_per_second": 52.309,
      "step": 4617
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.00031407736241817474,
      "learning_rate": 3.4532627865961205e-06,
      "loss": 0.0263,
      "step": 4698
    },
    {
      "epoch": 58.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.36925771832466125,
      "eval_runtime": 0.348,
      "eval_samples_per_second": 810.368,
      "eval_steps_per_second": 51.726,
      "step": 4698
    },
    {
      "epoch": 59.0,
      "grad_norm": 0.040128860622644424,
      "learning_rate": 3.1675485008818345e-06,
      "loss": 0.019,
      "step": 4779
    },
    {
      "epoch": 59.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.35094693303108215,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.815,
      "eval_steps_per_second": 52.392,
      "step": 4779
    },
    {
      "epoch": 60.0,
      "grad_norm": 0.0004439246258698404,
      "learning_rate": 2.881834215167549e-06,
      "loss": 0.0202,
      "step": 4860
    },
    {
      "epoch": 60.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.3040333092212677,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.559,
      "eval_steps_per_second": 52.248,
      "step": 4860
    },
    {
      "epoch": 61.0,
      "grad_norm": 0.07529360055923462,
      "learning_rate": 2.5961199294532628e-06,
      "loss": 0.0208,
      "step": 4941
    },
    {
      "epoch": 61.0,
      "eval_accuracy": 0.9468085106382979,
      "eval_loss": 0.5039365887641907,
      "eval_runtime": 0.3439,
      "eval_samples_per_second": 819.902,
      "eval_steps_per_second": 52.334,
      "step": 4941
    },
    {
      "epoch": 62.0,
      "grad_norm": 0.00026053638430312276,
      "learning_rate": 2.310405643738977e-06,
      "loss": 0.0242,
      "step": 5022
    },
    {
      "epoch": 62.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.4803861677646637,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.64,
      "eval_steps_per_second": 52.254,
      "step": 5022
    },
    {
      "epoch": 63.0,
      "grad_norm": 0.06742388755083084,
      "learning_rate": 2.0246913580246915e-06,
      "loss": 0.023,
      "step": 5103
    },
    {
      "epoch": 63.0,
      "eval_accuracy": 0.9609929078014184,
      "eval_loss": 0.3538144826889038,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.51,
      "eval_steps_per_second": 52.245,
      "step": 5103
    },
    {
      "epoch": 64.0,
      "grad_norm": 0.00042550539365038276,
      "learning_rate": 1.7389770723104056e-06,
      "loss": 0.0189,
      "step": 5184
    },
    {
      "epoch": 64.0,
      "eval_accuracy": 0.9574468085106383,
      "eval_loss": 0.37617096304893494,
      "eval_runtime": 0.3442,
      "eval_samples_per_second": 819.198,
      "eval_steps_per_second": 52.289,
      "step": 5184
    },
    {
      "epoch": 65.0,
      "grad_norm": 0.02407378889620304,
      "learning_rate": 1.45326278659612e-06,
      "loss": 0.0209,
      "step": 5265
    },
    {
      "epoch": 65.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.43608424067497253,
      "eval_runtime": 0.3438,
      "eval_samples_per_second": 820.243,
      "eval_steps_per_second": 52.356,
      "step": 5265
    },
    {
      "epoch": 66.0,
      "grad_norm": 0.054311446845531464,
      "learning_rate": 1.1675485008818344e-06,
      "loss": 0.0209,
      "step": 5346
    },
    {
      "epoch": 66.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.41794532537460327,
      "eval_runtime": 0.3436,
      "eval_samples_per_second": 820.791,
      "eval_steps_per_second": 52.391,
      "step": 5346
    },
    {
      "epoch": 67.0,
      "grad_norm": 0.04109662398695946,
      "learning_rate": 8.818342151675485e-07,
      "loss": 0.0198,
      "step": 5427
    },
    {
      "epoch": 67.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.3815895617008209,
      "eval_runtime": 0.3443,
      "eval_samples_per_second": 819.013,
      "eval_steps_per_second": 52.277,
      "step": 5427
    },
    {
      "epoch": 68.0,
      "grad_norm": 0.13629287481307983,
      "learning_rate": 5.961199294532629e-07,
      "loss": 0.0197,
      "step": 5508
    },
    {
      "epoch": 68.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.39786896109580994,
      "eval_runtime": 0.3445,
      "eval_samples_per_second": 818.46,
      "eval_steps_per_second": 52.242,
      "step": 5508
    },
    {
      "epoch": 69.0,
      "grad_norm": 0.039983708411455154,
      "learning_rate": 3.104056437389771e-07,
      "loss": 0.0192,
      "step": 5589
    },
    {
      "epoch": 69.0,
      "eval_accuracy": 0.950354609929078,
      "eval_loss": 0.411296546459198,
      "eval_runtime": 0.3435,
      "eval_samples_per_second": 820.901,
      "eval_steps_per_second": 52.398,
      "step": 5589
    },
    {
      "epoch": 70.0,
      "grad_norm": 0.00027353325276635587,
      "learning_rate": 2.469135802469136e-08,
      "loss": 0.0177,
      "step": 5670
    },
    {
      "epoch": 70.0,
      "eval_accuracy": 0.9539007092198581,
      "eval_loss": 0.40772485733032227,
      "eval_runtime": 0.3437,
      "eval_samples_per_second": 820.466,
      "eval_steps_per_second": 52.37,
      "step": 5670
    }
  ],
  "logging_steps": 100,
  "max_steps": 5670,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 70,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9735501528974304.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}