{
  "best_metric": 1.6399972438812256,
  "best_model_checkpoint": "miner_id_24/checkpoint-75",
  "epoch": 0.8463251670378619,
  "eval_steps": 25,
  "global_step": 95,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008908685968819599,
      "grad_norm": 0.18496087193489075,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.741,
      "step": 1
    },
    {
      "epoch": 0.008908685968819599,
      "eval_loss": 3.07926607131958,
      "eval_runtime": 1.3178,
      "eval_samples_per_second": 37.942,
      "eval_steps_per_second": 9.865,
      "step": 1
    },
    {
      "epoch": 0.017817371937639197,
      "grad_norm": 0.30081647634506226,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.9502,
      "step": 2
    },
    {
      "epoch": 0.026726057906458798,
      "grad_norm": 0.3343985676765442,
      "learning_rate": 0.0001,
      "loss": 2.002,
      "step": 3
    },
    {
      "epoch": 0.035634743875278395,
      "grad_norm": 0.41109001636505127,
      "learning_rate": 9.997376600647783e-05,
      "loss": 2.201,
      "step": 4
    },
    {
      "epoch": 0.044543429844097995,
      "grad_norm": 0.7292845249176025,
      "learning_rate": 9.989509461357426e-05,
      "loss": 2.2034,
      "step": 5
    },
    {
      "epoch": 0.053452115812917596,
      "grad_norm": 0.8778089284896851,
      "learning_rate": 9.976407754861426e-05,
      "loss": 2.2094,
      "step": 6
    },
    {
      "epoch": 0.062360801781737196,
      "grad_norm": 0.951178789138794,
      "learning_rate": 9.958086757163489e-05,
      "loss": 2.2606,
      "step": 7
    },
    {
      "epoch": 0.07126948775055679,
      "grad_norm": 1.0270860195159912,
      "learning_rate": 9.934567829727386e-05,
      "loss": 2.0743,
      "step": 8
    },
    {
      "epoch": 0.0801781737193764,
      "grad_norm": 1.2767945528030396,
      "learning_rate": 9.905878394570453e-05,
      "loss": 2.098,
      "step": 9
    },
    {
      "epoch": 0.08908685968819599,
      "grad_norm": 1.7894222736358643,
      "learning_rate": 9.872051902290737e-05,
      "loss": 2.1384,
      "step": 10
    },
    {
      "epoch": 0.09799554565701558,
      "grad_norm": 3.396165609359741,
      "learning_rate": 9.833127793065098e-05,
      "loss": 2.1703,
      "step": 11
    },
    {
      "epoch": 0.10690423162583519,
      "grad_norm": 5.618720054626465,
      "learning_rate": 9.789151450663723e-05,
      "loss": 2.5506,
      "step": 12
    },
    {
      "epoch": 0.11581291759465479,
      "grad_norm": 2.275839328765869,
      "learning_rate": 9.740174149534693e-05,
      "loss": 1.8587,
      "step": 13
    },
    {
      "epoch": 0.12472160356347439,
      "grad_norm": 2.746622085571289,
      "learning_rate": 9.686252995020249e-05,
      "loss": 1.798,
      "step": 14
    },
    {
      "epoch": 0.133630289532294,
      "grad_norm": 2.8444738388061523,
      "learning_rate": 9.627450856774539e-05,
      "loss": 1.9514,
      "step": 15
    },
    {
      "epoch": 0.14253897550111358,
      "grad_norm": 2.115684747695923,
      "learning_rate": 9.563836295460398e-05,
      "loss": 1.9542,
      "step": 16
    },
    {
      "epoch": 0.1514476614699332,
      "grad_norm": 0.6602462530136108,
      "learning_rate": 9.495483482810688e-05,
      "loss": 2.104,
      "step": 17
    },
    {
      "epoch": 0.1603563474387528,
      "grad_norm": 0.881719172000885,
      "learning_rate": 9.422472115147382e-05,
      "loss": 1.9833,
      "step": 18
    },
    {
      "epoch": 0.16926503340757237,
      "grad_norm": 1.1861454248428345,
      "learning_rate": 9.3448873204592e-05,
      "loss": 2.0378,
      "step": 19
    },
    {
      "epoch": 0.17817371937639198,
      "grad_norm": 1.3595082759857178,
      "learning_rate": 9.2628195591462e-05,
      "loss": 1.9566,
      "step": 20
    },
    {
      "epoch": 0.1870824053452116,
      "grad_norm": 1.370354413986206,
      "learning_rate": 9.176364518546989e-05,
      "loss": 1.8311,
      "step": 21
    },
    {
      "epoch": 0.19599109131403117,
      "grad_norm": 1.342836856842041,
      "learning_rate": 9.08562300137157e-05,
      "loss": 1.6923,
      "step": 22
    },
    {
      "epoch": 0.20489977728285078,
      "grad_norm": 2.256216287612915,
      "learning_rate": 8.990700808169889e-05,
      "loss": 1.8718,
      "step": 23
    },
    {
      "epoch": 0.21380846325167038,
      "grad_norm": 2.138756036758423,
      "learning_rate": 8.891708613973126e-05,
      "loss": 1.4693,
      "step": 24
    },
    {
      "epoch": 0.22271714922049,
      "grad_norm": 9.809110641479492,
      "learning_rate": 8.788761839251559e-05,
      "loss": 2.4945,
      "step": 25
    },
    {
      "epoch": 0.22271714922049,
      "eval_loss": 1.8954325914382935,
      "eval_runtime": 1.3524,
      "eval_samples_per_second": 36.973,
      "eval_steps_per_second": 9.613,
      "step": 25
    },
    {
      "epoch": 0.23162583518930957,
      "grad_norm": 0.8373345732688904,
      "learning_rate": 8.681980515339464e-05,
      "loss": 1.6706,
      "step": 26
    },
    {
      "epoch": 0.24053452115812918,
      "grad_norm": 1.163488507270813,
      "learning_rate": 8.571489144483944e-05,
      "loss": 1.7301,
      "step": 27
    },
    {
      "epoch": 0.24944320712694878,
      "grad_norm": 1.1382529735565186,
      "learning_rate": 8.457416554680877e-05,
      "loss": 2.0414,
      "step": 28
    },
    {
      "epoch": 0.2583518930957684,
      "grad_norm": 1.076238989830017,
      "learning_rate": 8.339895749467238e-05,
      "loss": 1.8797,
      "step": 29
    },
    {
      "epoch": 0.267260579064588,
      "grad_norm": 0.6631773114204407,
      "learning_rate": 8.219063752844926e-05,
      "loss": 1.9993,
      "step": 30
    },
    {
      "epoch": 0.27616926503340755,
      "grad_norm": 0.5751520395278931,
      "learning_rate": 8.095061449516903e-05,
      "loss": 2.0176,
      "step": 31
    },
    {
      "epoch": 0.28507795100222716,
      "grad_norm": 0.6364066004753113,
      "learning_rate": 7.968033420621935e-05,
      "loss": 1.9842,
      "step": 32
    },
    {
      "epoch": 0.29398663697104677,
      "grad_norm": 0.9461715221405029,
      "learning_rate": 7.838127775159452e-05,
      "loss": 1.8146,
      "step": 33
    },
    {
      "epoch": 0.3028953229398664,
      "grad_norm": 238.696044921875,
      "learning_rate": 7.705495977301078e-05,
      "loss": 2.3933,
      "step": 34
    },
    {
      "epoch": 0.311804008908686,
      "grad_norm": 1.6554421186447144,
      "learning_rate": 7.570292669790186e-05,
      "loss": 1.832,
      "step": 35
    },
    {
      "epoch": 0.3207126948775056,
      "grad_norm": 2.2369461059570312,
      "learning_rate": 7.43267549363537e-05,
      "loss": 1.7595,
      "step": 36
    },
    {
      "epoch": 0.32962138084632514,
      "grad_norm": 3.7828192710876465,
      "learning_rate": 7.292804904308087e-05,
      "loss": 1.7807,
      "step": 37
    },
    {
      "epoch": 0.33853006681514475,
      "grad_norm": 0.3242321312427521,
      "learning_rate": 7.150843984658754e-05,
      "loss": 1.6361,
      "step": 38
    },
    {
      "epoch": 0.34743875278396436,
      "grad_norm": 0.272431343793869,
      "learning_rate": 7.006958254769438e-05,
      "loss": 1.5175,
      "step": 39
    },
    {
      "epoch": 0.35634743875278396,
      "grad_norm": 0.3239157795906067,
      "learning_rate": 6.861315478964841e-05,
      "loss": 1.7234,
      "step": 40
    },
    {
      "epoch": 0.36525612472160357,
      "grad_norm": 0.33828893303871155,
      "learning_rate": 6.714085470206609e-05,
      "loss": 1.8196,
      "step": 41
    },
    {
      "epoch": 0.3741648106904232,
      "grad_norm": 0.2657528519630432,
      "learning_rate": 6.56543989209901e-05,
      "loss": 1.9443,
      "step": 42
    },
    {
      "epoch": 0.3830734966592428,
      "grad_norm": 0.2869246006011963,
      "learning_rate": 6.415552058736854e-05,
      "loss": 1.8781,
      "step": 43
    },
    {
      "epoch": 0.39198218262806234,
      "grad_norm": 0.45465391874313354,
      "learning_rate": 6.264596732629e-05,
      "loss": 1.9318,
      "step": 44
    },
    {
      "epoch": 0.40089086859688194,
      "grad_norm": 0.48262226581573486,
      "learning_rate": 6.112749920933111e-05,
      "loss": 1.8857,
      "step": 45
    },
    {
      "epoch": 0.40979955456570155,
      "grad_norm": 0.5205314755439758,
      "learning_rate": 5.960188670239154e-05,
      "loss": 1.8159,
      "step": 46
    },
    {
      "epoch": 0.41870824053452116,
      "grad_norm": 0.5820050835609436,
      "learning_rate": 5.80709086014102e-05,
      "loss": 1.7626,
      "step": 47
    },
    {
      "epoch": 0.42761692650334077,
      "grad_norm": 0.580387532711029,
      "learning_rate": 5.653634995836856e-05,
      "loss": 1.79,
      "step": 48
    },
    {
      "epoch": 0.4365256124721604,
      "grad_norm": 1.2774957418441772,
      "learning_rate": 5.500000000000001e-05,
      "loss": 1.5497,
      "step": 49
    },
    {
      "epoch": 0.44543429844098,
      "grad_norm": 3.3732056617736816,
      "learning_rate": 5.346365004163145e-05,
      "loss": 1.9875,
      "step": 50
    },
    {
      "epoch": 0.44543429844098,
      "eval_loss": 1.6830428838729858,
      "eval_runtime": 1.3544,
      "eval_samples_per_second": 36.918,
      "eval_steps_per_second": 9.599,
      "step": 50
    },
    {
      "epoch": 0.45434298440979953,
      "grad_norm": 0.1749906837940216,
      "learning_rate": 5.192909139858981e-05,
      "loss": 1.4573,
      "step": 51
    },
    {
      "epoch": 0.46325167037861914,
      "grad_norm": 0.24041377007961273,
      "learning_rate": 5.0398113297608465e-05,
      "loss": 1.5727,
      "step": 52
    },
    {
      "epoch": 0.47216035634743875,
      "grad_norm": 0.2814582288265228,
      "learning_rate": 4.887250079066892e-05,
      "loss": 1.9047,
      "step": 53
    },
    {
      "epoch": 0.48106904231625836,
      "grad_norm": 0.2837788164615631,
      "learning_rate": 4.7354032673710005e-05,
      "loss": 1.8496,
      "step": 54
    },
    {
      "epoch": 0.48997772828507796,
      "grad_norm": 0.39212217926979065,
      "learning_rate": 4.584447941263149e-05,
      "loss": 1.8599,
      "step": 55
    },
    {
      "epoch": 0.49888641425389757,
      "grad_norm": 0.38298889994621277,
      "learning_rate": 4.43456010790099e-05,
      "loss": 2.0186,
      "step": 56
    },
    {
      "epoch": 0.5077951002227171,
      "grad_norm": 0.43488070368766785,
      "learning_rate": 4.285914529793391e-05,
      "loss": 1.9477,
      "step": 57
    },
    {
      "epoch": 0.5167037861915368,
      "grad_norm": 0.38449931144714355,
      "learning_rate": 4.13868452103516e-05,
      "loss": 1.8224,
      "step": 58
    },
    {
      "epoch": 0.5256124721603563,
      "grad_norm": 0.3880489468574524,
      "learning_rate": 3.9930417452305626e-05,
      "loss": 1.7091,
      "step": 59
    },
    {
      "epoch": 0.534521158129176,
      "grad_norm": 0.4715963900089264,
      "learning_rate": 3.8491560153412466e-05,
      "loss": 1.7315,
      "step": 60
    },
    {
      "epoch": 0.5434298440979956,
      "grad_norm": 0.715391218662262,
      "learning_rate": 3.707195095691913e-05,
      "loss": 1.5321,
      "step": 61
    },
    {
      "epoch": 0.5523385300668151,
      "grad_norm": 2.0922036170959473,
      "learning_rate": 3.567324506364632e-05,
      "loss": 1.5336,
      "step": 62
    },
    {
      "epoch": 0.5612472160356348,
      "grad_norm": 0.21782808005809784,
      "learning_rate": 3.4297073302098156e-05,
      "loss": 1.6343,
      "step": 63
    },
    {
      "epoch": 0.5701559020044543,
      "grad_norm": 0.19122806191444397,
      "learning_rate": 3.2945040226989244e-05,
      "loss": 1.7443,
      "step": 64
    },
    {
      "epoch": 0.579064587973274,
      "grad_norm": 0.21472224593162537,
      "learning_rate": 3.16187222484055e-05,
      "loss": 1.9332,
      "step": 65
    },
    {
      "epoch": 0.5879732739420935,
      "grad_norm": 0.26734206080436707,
      "learning_rate": 3.0319665793780648e-05,
      "loss": 1.8899,
      "step": 66
    },
    {
      "epoch": 0.5968819599109132,
      "grad_norm": 0.25757184624671936,
      "learning_rate": 2.9049385504830985e-05,
      "loss": 1.8129,
      "step": 67
    },
    {
      "epoch": 0.6057906458797327,
      "grad_norm": 0.2645043730735779,
      "learning_rate": 2.7809362471550748e-05,
      "loss": 1.9754,
      "step": 68
    },
    {
      "epoch": 0.6146993318485523,
      "grad_norm": 0.29911720752716064,
      "learning_rate": 2.660104250532764e-05,
      "loss": 1.9157,
      "step": 69
    },
    {
      "epoch": 0.623608017817372,
      "grad_norm": 0.28725001215934753,
      "learning_rate": 2.5425834453191232e-05,
      "loss": 1.9434,
      "step": 70
    },
    {
      "epoch": 0.6325167037861915,
      "grad_norm": 0.3202161192893982,
      "learning_rate": 2.4285108555160577e-05,
      "loss": 1.6969,
      "step": 71
    },
    {
      "epoch": 0.6414253897550112,
      "grad_norm": 0.407610148191452,
      "learning_rate": 2.3180194846605367e-05,
      "loss": 1.6947,
      "step": 72
    },
    {
      "epoch": 0.6503340757238307,
      "grad_norm": 0.6003431081771851,
      "learning_rate": 2.2112381607484417e-05,
      "loss": 1.6117,
      "step": 73
    },
    {
      "epoch": 0.6592427616926503,
      "grad_norm": 0.8933898210525513,
      "learning_rate": 2.1082913860268765e-05,
      "loss": 1.4222,
      "step": 74
    },
    {
      "epoch": 0.6681514476614699,
      "grad_norm": 3.1637096405029297,
      "learning_rate": 2.0092991918301108e-05,
      "loss": 1.941,
      "step": 75
    },
    {
      "epoch": 0.6681514476614699,
      "eval_loss": 1.6399972438812256,
      "eval_runtime": 1.3568,
      "eval_samples_per_second": 36.852,
      "eval_steps_per_second": 9.582,
      "step": 75
    },
    {
      "epoch": 0.6770601336302895,
      "grad_norm": 0.16422314941883087,
      "learning_rate": 1.91437699862843e-05,
      "loss": 1.5677,
      "step": 76
    },
    {
      "epoch": 0.6859688195991092,
      "grad_norm": 0.21063150465488434,
      "learning_rate": 1.8236354814530112e-05,
      "loss": 1.7556,
      "step": 77
    },
    {
      "epoch": 0.6948775055679287,
      "grad_norm": 0.2691607177257538,
      "learning_rate": 1.7371804408538024e-05,
      "loss": 1.8171,
      "step": 78
    },
    {
      "epoch": 0.7037861915367484,
      "grad_norm": 0.29943981766700745,
      "learning_rate": 1.6551126795408016e-05,
      "loss": 1.8864,
      "step": 79
    },
    {
      "epoch": 0.7126948775055679,
      "grad_norm": 0.3224969804286957,
      "learning_rate": 1.577527884852619e-05,
      "loss": 1.8952,
      "step": 80
    },
    {
      "epoch": 0.7216035634743875,
      "grad_norm": 0.35002103447914124,
      "learning_rate": 1.5045165171893116e-05,
      "loss": 1.9489,
      "step": 81
    },
    {
      "epoch": 0.7305122494432071,
      "grad_norm": 0.3734034597873688,
      "learning_rate": 1.4361637045396029e-05,
      "loss": 1.7525,
      "step": 82
    },
    {
      "epoch": 0.7394209354120267,
      "grad_norm": 0.4094945788383484,
      "learning_rate": 1.3725491432254624e-05,
      "loss": 1.911,
      "step": 83
    },
    {
      "epoch": 0.7483296213808464,
      "grad_norm": 0.4211490750312805,
      "learning_rate": 1.313747004979751e-05,
      "loss": 1.6963,
      "step": 84
    },
    {
      "epoch": 0.7572383073496659,
      "grad_norm": 0.5119789242744446,
      "learning_rate": 1.2598258504653081e-05,
      "loss": 1.7085,
      "step": 85
    },
    {
      "epoch": 0.7661469933184856,
      "grad_norm": 0.638528048992157,
      "learning_rate": 1.2108485493362765e-05,
      "loss": 1.4974,
      "step": 86
    },
    {
      "epoch": 0.7750556792873051,
      "grad_norm": 1.150501012802124,
      "learning_rate": 1.1668722069349041e-05,
      "loss": 1.3799,
      "step": 87
    },
    {
      "epoch": 0.7839643652561247,
      "grad_norm": 0.244547039270401,
      "learning_rate": 1.1279480977092635e-05,
      "loss": 1.5573,
      "step": 88
    },
    {
      "epoch": 0.7928730512249443,
      "grad_norm": 0.22487600147724152,
      "learning_rate": 1.094121605429547e-05,
      "loss": 1.4302,
      "step": 89
    },
    {
      "epoch": 0.8017817371937639,
      "grad_norm": 0.21676325798034668,
      "learning_rate": 1.0654321702726141e-05,
      "loss": 1.7492,
      "step": 90
    },
    {
      "epoch": 0.8106904231625836,
      "grad_norm": 0.2692321538925171,
      "learning_rate": 1.0419132428365116e-05,
      "loss": 1.7248,
      "step": 91
    },
    {
      "epoch": 0.8195991091314031,
      "grad_norm": 0.3116702735424042,
      "learning_rate": 1.0235922451385733e-05,
      "loss": 1.7725,
      "step": 92
    },
    {
      "epoch": 0.8285077951002228,
      "grad_norm": 0.2740122675895691,
      "learning_rate": 1.0104905386425733e-05,
      "loss": 1.913,
      "step": 93
    },
    {
      "epoch": 0.8374164810690423,
      "grad_norm": 0.298614501953125,
      "learning_rate": 1.002623399352217e-05,
      "loss": 2.0478,
      "step": 94
    },
    {
      "epoch": 0.8463251670378619,
      "grad_norm": 0.35496339201927185,
      "learning_rate": 1e-05,
      "loss": 1.8879,
      "step": 95
    }
  ],
  "logging_steps": 1,
  "max_steps": 95,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.01808564908458e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}