{
  "best_metric": 0.06628672778606415,
  "best_model_checkpoint": "miner_id_24/checkpoint-500",
  "epoch": 0.22381378692927484,
  "eval_steps": 50,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004476275738585497,
      "eval_loss": 0.7005916237831116,
      "eval_runtime": 56.7667,
      "eval_samples_per_second": 16.577,
      "eval_steps_per_second": 4.157,
      "step": 1
    },
    {
      "epoch": 0.004476275738585497,
      "grad_norm": 4.427389621734619,
      "learning_rate": 4.24e-05,
      "loss": 0.778,
      "step": 10
    },
    {
      "epoch": 0.008952551477170993,
      "grad_norm": 1.9455581903457642,
      "learning_rate": 8.48e-05,
      "loss": 0.2889,
      "step": 20
    },
    {
      "epoch": 0.01342882721575649,
      "grad_norm": 2.1114604473114014,
      "learning_rate": 0.0001272,
      "loss": 0.2659,
      "step": 30
    },
    {
      "epoch": 0.017905102954341987,
      "grad_norm": 1.851693034172058,
      "learning_rate": 0.0001696,
      "loss": 0.2646,
      "step": 40
    },
    {
      "epoch": 0.022381378692927483,
      "grad_norm": 3.312408208847046,
      "learning_rate": 0.000212,
      "loss": 0.3177,
      "step": 50
    },
    {
      "epoch": 0.022381378692927483,
      "eval_loss": 0.22718137502670288,
      "eval_runtime": 56.5677,
      "eval_samples_per_second": 16.635,
      "eval_steps_per_second": 4.172,
      "step": 50
    },
    {
      "epoch": 0.02685765443151298,
      "grad_norm": 2.3215768337249756,
      "learning_rate": 0.00021174178932754136,
      "loss": 0.3498,
      "step": 60
    },
    {
      "epoch": 0.03133393017009848,
      "grad_norm": 1.7366793155670166,
      "learning_rate": 0.00021096841528660647,
      "loss": 0.2283,
      "step": 70
    },
    {
      "epoch": 0.03581020590868397,
      "grad_norm": 2.2174038887023926,
      "learning_rate": 0.0002096836456777834,
      "loss": 0.238,
      "step": 80
    },
    {
      "epoch": 0.04028648164726947,
      "grad_norm": 1.7410643100738525,
      "learning_rate": 0.00020789373976946182,
      "loss": 0.1995,
      "step": 90
    },
    {
      "epoch": 0.044762757385854966,
      "grad_norm": 2.036144733428955,
      "learning_rate": 0.0002056074178033063,
      "loss": 0.5017,
      "step": 100
    },
    {
      "epoch": 0.044762757385854966,
      "eval_loss": 0.20847293734550476,
      "eval_runtime": 56.567,
      "eval_samples_per_second": 16.635,
      "eval_steps_per_second": 4.172,
      "step": 100
    },
    {
      "epoch": 0.049239033124440466,
      "grad_norm": 4.98552942276001,
      "learning_rate": 0.00020283581851011567,
      "loss": 0.427,
      "step": 110
    },
    {
      "epoch": 0.05371530886302596,
      "grad_norm": 1.9600409269332886,
      "learning_rate": 0.00019959244484304625,
      "loss": 0.2183,
      "step": 120
    },
    {
      "epoch": 0.05819158460161146,
      "grad_norm": 2.0890045166015625,
      "learning_rate": 0.00019589309819258114,
      "loss": 0.2125,
      "step": 130
    },
    {
      "epoch": 0.06266786034019696,
      "grad_norm": 1.7276463508605957,
      "learning_rate": 0.00019175580140374444,
      "loss": 0.1975,
      "step": 140
    },
    {
      "epoch": 0.06714413607878246,
      "grad_norm": 4.4569268226623535,
      "learning_rate": 0.00018720071097061167,
      "loss": 0.3504,
      "step": 150
    },
    {
      "epoch": 0.06714413607878246,
      "eval_loss": 0.1679604947566986,
      "eval_runtime": 56.7224,
      "eval_samples_per_second": 16.59,
      "eval_steps_per_second": 4.161,
      "step": 150
    },
    {
      "epoch": 0.07162041181736795,
      "grad_norm": 1.5052324533462524,
      "learning_rate": 0.00018225001883589702,
      "loss": 0.2832,
      "step": 160
    },
    {
      "epoch": 0.07609668755595345,
      "grad_norm": 1.6397607326507568,
      "learning_rate": 0.00017692784427403898,
      "loss": 0.1907,
      "step": 170
    },
    {
      "epoch": 0.08057296329453895,
      "grad_norm": 1.8498625755310059,
      "learning_rate": 0.00017126011638451976,
      "loss": 0.2125,
      "step": 180
    },
    {
      "epoch": 0.08504923903312445,
      "grad_norm": 1.0760177373886108,
      "learning_rate": 0.00016527444776789915,
      "loss": 0.1955,
      "step": 190
    },
    {
      "epoch": 0.08952551477170993,
      "grad_norm": 3.997589111328125,
      "learning_rate": 0.00015900000000000002,
      "loss": 0.2774,
      "step": 200
    },
    {
      "epoch": 0.08952551477170993,
      "eval_loss": 0.15109291672706604,
      "eval_runtime": 56.7556,
      "eval_samples_per_second": 16.58,
      "eval_steps_per_second": 4.158,
      "step": 200
    },
    {
      "epoch": 0.09400179051029543,
      "grad_norm": 0.8544609546661377,
      "learning_rate": 0.0001524673415596422,
      "loss": 0.2676,
      "step": 210
    },
    {
      "epoch": 0.09847806624888093,
      "grad_norm": 8.311532974243164,
      "learning_rate": 0.00014570829890208668,
      "loss": 0.2037,
      "step": 220
    },
    {
      "epoch": 0.10295434198746643,
      "grad_norm": 0.8494248390197754,
      "learning_rate": 0.00013875580140374443,
      "loss": 0.188,
      "step": 230
    },
    {
      "epoch": 0.10743061772605192,
      "grad_norm": 1.2756179571151733,
      "learning_rate": 0.00013164372093356477,
      "loss": 0.1783,
      "step": 240
    },
    {
      "epoch": 0.11190689346463742,
      "grad_norm": 1.4278101921081543,
      "learning_rate": 0.00012440670683269464,
      "loss": 0.2238,
      "step": 250
    },
    {
      "epoch": 0.11190689346463742,
      "eval_loss": 0.13769862055778503,
      "eval_runtime": 56.6904,
      "eval_samples_per_second": 16.599,
      "eval_steps_per_second": 4.163,
      "step": 250
    },
    {
      "epoch": 0.11638316920322292,
      "grad_norm": 1.384413242340088,
      "learning_rate": 0.00011708001710637128,
      "loss": 0.2849,
      "step": 260
    },
    {
      "epoch": 0.12085944494180842,
      "grad_norm": 1.2294275760650635,
      "learning_rate": 0.00010969934665046512,
      "loss": 0.1591,
      "step": 270
    },
    {
      "epoch": 0.12533572068039392,
      "grad_norm": 1.8471887111663818,
      "learning_rate": 0.00010230065334953492,
      "loss": 0.206,
      "step": 280
    },
    {
      "epoch": 0.12981199641897942,
      "grad_norm": 0.8707221746444702,
      "learning_rate": 9.491998289362875e-05,
      "loss": 0.1345,
      "step": 290
    },
    {
      "epoch": 0.13428827215756492,
      "grad_norm": 2.1860179901123047,
      "learning_rate": 8.759329316730539e-05,
      "loss": 0.2196,
      "step": 300
    },
    {
      "epoch": 0.13428827215756492,
      "eval_loss": 0.10647980868816376,
      "eval_runtime": 56.7117,
      "eval_samples_per_second": 16.593,
      "eval_steps_per_second": 4.161,
      "step": 300
    },
    {
      "epoch": 0.1387645478961504,
      "grad_norm": 0.8854772448539734,
      "learning_rate": 8.035627906643523e-05,
      "loss": 0.2294,
      "step": 310
    },
    {
      "epoch": 0.1432408236347359,
      "grad_norm": 0.7382193803787231,
      "learning_rate": 7.324419859625559e-05,
      "loss": 0.1443,
      "step": 320
    },
    {
      "epoch": 0.1477170993733214,
      "grad_norm": 0.7851634621620178,
      "learning_rate": 6.629170109791332e-05,
      "loss": 0.1584,
      "step": 330
    },
    {
      "epoch": 0.1521933751119069,
      "grad_norm": 0.8075612187385559,
      "learning_rate": 5.9532658440357784e-05,
      "loss": 0.1667,
      "step": 340
    },
    {
      "epoch": 0.1566696508504924,
      "grad_norm": 1.8064610958099365,
      "learning_rate": 5.300000000000002e-05,
      "loss": 0.1634,
      "step": 350
    },
    {
      "epoch": 0.1566696508504924,
      "eval_loss": 0.08859492838382721,
      "eval_runtime": 56.9347,
      "eval_samples_per_second": 16.528,
      "eval_steps_per_second": 4.145,
      "step": 350
    },
    {
      "epoch": 0.1611459265890779,
      "grad_norm": 0.7478625774383545,
      "learning_rate": 4.672555223210085e-05,
      "loss": 0.1664,
      "step": 360
    },
    {
      "epoch": 0.1656222023276634,
      "grad_norm": 0.8703305721282959,
      "learning_rate": 4.073988361548022e-05,
      "loss": 0.117,
      "step": 370
    },
    {
      "epoch": 0.1700984780662489,
      "grad_norm": 1.1630523204803467,
      "learning_rate": 3.507215572596106e-05,
      "loss": 0.1343,
      "step": 380
    },
    {
      "epoch": 0.17457475380483437,
      "grad_norm": 0.8155301809310913,
      "learning_rate": 2.9749981164102997e-05,
      "loss": 0.1345,
      "step": 390
    },
    {
      "epoch": 0.17905102954341987,
      "grad_norm": 2.1470611095428467,
      "learning_rate": 2.479928902938834e-05,
      "loss": 0.1763,
      "step": 400
    },
    {
      "epoch": 0.17905102954341987,
      "eval_loss": 0.07403463125228882,
      "eval_runtime": 56.9196,
      "eval_samples_per_second": 16.532,
      "eval_steps_per_second": 4.146,
      "step": 400
    },
    {
      "epoch": 0.18352730528200537,
      "grad_norm": 0.6138676404953003,
      "learning_rate": 2.024419859625558e-05,
      "loss": 0.1626,
      "step": 410
    },
    {
      "epoch": 0.18800358102059087,
      "grad_norm": 0.581366240978241,
      "learning_rate": 1.610690180741885e-05,
      "loss": 0.1102,
      "step": 420
    },
    {
      "epoch": 0.19247985675917637,
      "grad_norm": 0.7073346376419067,
      "learning_rate": 1.240755515695374e-05,
      "loss": 0.1405,
      "step": 430
    },
    {
      "epoch": 0.19695613249776187,
      "grad_norm": 0.80199134349823,
      "learning_rate": 9.164181489884296e-06,
      "loss": 0.1096,
      "step": 440
    },
    {
      "epoch": 0.20143240823634737,
      "grad_norm": 1.6628501415252686,
      "learning_rate": 6.392582196693718e-06,
      "loss": 0.1787,
      "step": 450
    },
    {
      "epoch": 0.20143240823634737,
      "eval_loss": 0.06836262345314026,
      "eval_runtime": 56.6998,
      "eval_samples_per_second": 16.596,
      "eval_steps_per_second": 4.162,
      "step": 450
    },
    {
      "epoch": 0.20590868397493287,
      "grad_norm": 0.6762747168540955,
      "learning_rate": 4.106260230538197e-06,
      "loss": 0.1374,
      "step": 460
    },
    {
      "epoch": 0.21038495971351837,
      "grad_norm": 0.873978853225708,
      "learning_rate": 2.316354322216597e-06,
      "loss": 0.1061,
      "step": 470
    },
    {
      "epoch": 0.21486123545210384,
      "grad_norm": 0.9010151028633118,
      "learning_rate": 1.0315847133935416e-06,
      "loss": 0.1034,
      "step": 480
    },
    {
      "epoch": 0.21933751119068934,
      "grad_norm": 0.5987867712974548,
      "learning_rate": 2.582106724586351e-07,
      "loss": 0.1206,
      "step": 490
    },
    {
      "epoch": 0.22381378692927484,
      "grad_norm": 1.7397042512893677,
      "learning_rate": 0.0,
      "loss": 0.1681,
      "step": 500
    },
    {
      "epoch": 0.22381378692927484,
      "eval_loss": 0.06628672778606415,
      "eval_runtime": 56.633,
      "eval_samples_per_second": 16.616,
      "eval_steps_per_second": 4.167,
      "step": 500
    }
  ],
  "logging_steps": 10,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.033185098727424e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}