{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.14519056261343014,
  "eval_steps": 25,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005807622504537205,
      "grad_norm": NaN,
      "learning_rate": 1e-05,
      "loss": 0.0,
      "step": 1
    },
    {
      "epoch": 0.005807622504537205,
      "eval_loss": NaN,
      "eval_runtime": 95.3201,
      "eval_samples_per_second": 3.042,
      "eval_steps_per_second": 1.521,
      "step": 1
    },
    {
      "epoch": 0.01161524500907441,
      "grad_norm": NaN,
      "learning_rate": 2e-05,
      "loss": 0.0,
      "step": 2
    },
    {
      "epoch": 0.017422867513611617,
      "grad_norm": NaN,
      "learning_rate": 3e-05,
      "loss": 0.0,
      "step": 3
    },
    {
      "epoch": 0.02323049001814882,
      "grad_norm": NaN,
      "learning_rate": 4e-05,
      "loss": 3896.2488,
      "step": 4
    },
    {
      "epoch": 0.029038112522686024,
      "grad_norm": NaN,
      "learning_rate": 5e-05,
      "loss": 657.6468,
      "step": 5
    },
    {
      "epoch": 0.03484573502722323,
      "grad_norm": NaN,
      "learning_rate": 6e-05,
      "loss": 2.4658,
      "step": 6
    },
    {
      "epoch": 0.040653357531760435,
      "grad_norm": NaN,
      "learning_rate": 7e-05,
      "loss": 3.41,
      "step": 7
    },
    {
      "epoch": 0.04646098003629764,
      "grad_norm": NaN,
      "learning_rate": 8e-05,
      "loss": 35.8081,
      "step": 8
    },
    {
      "epoch": 0.052268602540834846,
      "grad_norm": NaN,
      "learning_rate": 9e-05,
      "loss": 843.6981,
      "step": 9
    },
    {
      "epoch": 0.05807622504537205,
      "grad_norm": NaN,
      "learning_rate": 0.0001,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.06388384754990925,
      "grad_norm": NaN,
      "learning_rate": 9.99695413509548e-05,
      "loss": 0.0,
      "step": 11
    },
    {
      "epoch": 0.06969147005444647,
      "grad_norm": NaN,
      "learning_rate": 9.987820251299122e-05,
      "loss": 0.0,
      "step": 12
    },
    {
      "epoch": 0.07549909255898367,
      "grad_norm": NaN,
      "learning_rate": 9.972609476841367e-05,
      "loss": 0.0,
      "step": 13
    },
    {
      "epoch": 0.08130671506352087,
      "grad_norm": NaN,
      "learning_rate": 9.951340343707852e-05,
      "loss": 21.9721,
      "step": 14
    },
    {
      "epoch": 0.08711433756805807,
      "grad_norm": NaN,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.09292196007259527,
      "grad_norm": NaN,
      "learning_rate": 9.890738003669029e-05,
      "loss": 15.3499,
      "step": 16
    },
    {
      "epoch": 0.09872958257713249,
      "grad_norm": NaN,
      "learning_rate": 9.851478631379982e-05,
      "loss": 0.0,
      "step": 17
    },
    {
      "epoch": 0.10453720508166969,
      "grad_norm": NaN,
      "learning_rate": 9.806308479691595e-05,
      "loss": 0.0,
      "step": 18
    },
    {
      "epoch": 0.1103448275862069,
      "grad_norm": NaN,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.0,
      "step": 19
    },
    {
      "epoch": 0.1161524500907441,
      "grad_norm": NaN,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.12196007259528131,
      "grad_norm": NaN,
      "learning_rate": 9.635919272833938e-05,
      "loss": 0.0,
      "step": 21
    },
    {
      "epoch": 0.1277676950998185,
      "grad_norm": NaN,
      "learning_rate": 9.567727288213005e-05,
      "loss": 61.7461,
      "step": 22
    },
    {
      "epoch": 0.1335753176043557,
      "grad_norm": NaN,
      "learning_rate": 9.493970231495835e-05,
      "loss": 539.3531,
      "step": 23
    },
    {
      "epoch": 0.13938294010889293,
      "grad_norm": NaN,
      "learning_rate": 9.414737964294636e-05,
      "loss": 0.0,
      "step": 24
    },
    {
      "epoch": 0.14519056261343014,
      "grad_norm": NaN,
      "learning_rate": 9.330127018922194e-05,
      "loss": 33.2995,
      "step": 25
    },
    {
      "epoch": 0.14519056261343014,
      "eval_loss": NaN,
      "eval_runtime": 9.6805,
      "eval_samples_per_second": 29.957,
      "eval_steps_per_second": 14.979,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.9620119382523904e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}