{
  "best_metric": 2.03886079788208,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.010009258564171859,
  "eval_steps": 100,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.00462928208593e-05,
      "eval_loss": 3.846459150314331,
      "eval_runtime": 1003.2613,
      "eval_samples_per_second": 8.387,
      "eval_steps_per_second": 4.193,
      "step": 1
    },
    {
      "epoch": 0.0005004629282085929,
      "grad_norm": 20.418994903564453,
      "learning_rate": 2.5e-06,
      "loss": 15.4386,
      "step": 10
    },
    {
      "epoch": 0.0010009258564171858,
      "grad_norm": 18.080631256103516,
      "learning_rate": 5e-06,
      "loss": 14.6548,
      "step": 20
    },
    {
      "epoch": 0.0015013887846257788,
      "grad_norm": 18.937583923339844,
      "learning_rate": 7.5e-06,
      "loss": 14.0867,
      "step": 30
    },
    {
      "epoch": 0.0020018517128343716,
      "grad_norm": 17.106592178344727,
      "learning_rate": 1e-05,
      "loss": 12.3985,
      "step": 40
    },
    {
      "epoch": 0.0025023146410429646,
      "grad_norm": 14.523176193237305,
      "learning_rate": 1.25e-05,
      "loss": 12.3045,
      "step": 50
    },
    {
      "epoch": 0.0030027775692515577,
      "grad_norm": 16.606340408325195,
      "learning_rate": 1.5e-05,
      "loss": 10.9264,
      "step": 60
    },
    {
      "epoch": 0.0035032404974601507,
      "grad_norm": 16.362361907958984,
      "learning_rate": 1.75e-05,
      "loss": 10.3025,
      "step": 70
    },
    {
      "epoch": 0.004003703425668743,
      "grad_norm": 17.150707244873047,
      "learning_rate": 2e-05,
      "loss": 10.0724,
      "step": 80
    },
    {
      "epoch": 0.004504166353877337,
      "grad_norm": 15.049479484558105,
      "learning_rate": 2.25e-05,
      "loss": 9.6367,
      "step": 90
    },
    {
      "epoch": 0.005004629282085929,
      "grad_norm": 17.835363388061523,
      "learning_rate": 2.5e-05,
      "loss": 8.511,
      "step": 100
    },
    {
      "epoch": 0.005004629282085929,
      "eval_loss": 2.1609840393066406,
      "eval_runtime": 1007.6429,
      "eval_samples_per_second": 8.35,
      "eval_steps_per_second": 4.175,
      "step": 100
    },
    {
      "epoch": 0.005505092210294523,
      "grad_norm": 18.81438636779785,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 8.4712,
      "step": 110
    },
    {
      "epoch": 0.006005555138503115,
      "grad_norm": 16.96966552734375,
      "learning_rate": 3e-05,
      "loss": 8.4061,
      "step": 120
    },
    {
      "epoch": 0.006506018066711708,
      "grad_norm": 18.02526092529297,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 8.3852,
      "step": 130
    },
    {
      "epoch": 0.007006480994920301,
      "grad_norm": 13.94727611541748,
      "learning_rate": 3.5e-05,
      "loss": 8.2849,
      "step": 140
    },
    {
      "epoch": 0.007506943923128894,
      "grad_norm": 13.599745750427246,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 7.4514,
      "step": 150
    },
    {
      "epoch": 0.008007406851337487,
      "grad_norm": 15.027945518493652,
      "learning_rate": 4e-05,
      "loss": 8.1085,
      "step": 160
    },
    {
      "epoch": 0.00850786977954608,
      "grad_norm": 11.868462562561035,
      "learning_rate": 4.25e-05,
      "loss": 8.9385,
      "step": 170
    },
    {
      "epoch": 0.009008332707754673,
      "grad_norm": 15.937177658081055,
      "learning_rate": 4.5e-05,
      "loss": 8.7974,
      "step": 180
    },
    {
      "epoch": 0.009508795635963267,
      "grad_norm": 14.528044700622559,
      "learning_rate": 4.75e-05,
      "loss": 7.9633,
      "step": 190
    },
    {
      "epoch": 0.010009258564171859,
      "grad_norm": 17.103893280029297,
      "learning_rate": 5e-05,
      "loss": 8.3624,
      "step": 200
    },
    {
      "epoch": 0.010009258564171859,
      "eval_loss": 2.03886079788208,
      "eval_runtime": 996.4987,
      "eval_samples_per_second": 8.444,
      "eval_steps_per_second": 4.222,
      "step": 200
    }
  ],
  "logging_steps": 10,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.31471423946752e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}