{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.8421052631578947,
  "eval_steps": 5,
  "global_step": 20,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.042105263157894736,
      "grad_norm": 4.890755653381348,
      "learning_rate": 1e-05,
      "loss": 178.0,
      "step": 1
    },
    {
      "epoch": 0.042105263157894736,
      "eval_loss": 11.126523971557617,
      "eval_runtime": 18.6746,
      "eval_samples_per_second": 2.196,
      "eval_steps_per_second": 1.125,
      "step": 1
    },
    {
      "epoch": 0.08421052631578947,
      "grad_norm": 4.624600887298584,
      "learning_rate": 2e-05,
      "loss": 177.9375,
      "step": 2
    },
    {
      "epoch": 0.12631578947368421,
      "grad_norm": 5.196778297424316,
      "learning_rate": 3e-05,
      "loss": 177.9375,
      "step": 3
    },
    {
      "epoch": 0.16842105263157894,
      "grad_norm": 5.148807048797607,
      "learning_rate": 4e-05,
      "loss": 177.875,
      "step": 4
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 4.628167152404785,
      "learning_rate": 5e-05,
      "loss": 177.8125,
      "step": 5
    },
    {
      "epoch": 0.21052631578947367,
      "eval_loss": 11.123476028442383,
      "eval_runtime": 0.2718,
      "eval_samples_per_second": 150.863,
      "eval_steps_per_second": 77.271,
      "step": 5
    },
    {
      "epoch": 0.25263157894736843,
      "grad_norm": 4.84880256652832,
      "learning_rate": 6e-05,
      "loss": 178.1875,
      "step": 6
    },
    {
      "epoch": 0.29473684210526313,
      "grad_norm": 4.858393669128418,
      "learning_rate": 7e-05,
      "loss": 178.0,
      "step": 7
    },
    {
      "epoch": 0.3368421052631579,
      "grad_norm": 5.128612518310547,
      "learning_rate": 8e-05,
      "loss": 177.8125,
      "step": 8
    },
    {
      "epoch": 0.37894736842105264,
      "grad_norm": 4.928903579711914,
      "learning_rate": 9e-05,
      "loss": 177.8125,
      "step": 9
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 4.953742027282715,
      "learning_rate": 0.0001,
      "loss": 177.75,
      "step": 10
    },
    {
      "epoch": 0.42105263157894735,
      "eval_loss": 11.11128044128418,
      "eval_runtime": 0.2692,
      "eval_samples_per_second": 152.275,
      "eval_steps_per_second": 77.995,
      "step": 10
    },
    {
      "epoch": 0.4631578947368421,
      "grad_norm": 5.218900680541992,
      "learning_rate": 9.755282581475769e-05,
      "loss": 177.625,
      "step": 11
    },
    {
      "epoch": 0.5052631578947369,
      "grad_norm": 5.077646732330322,
      "learning_rate": 9.045084971874738e-05,
      "loss": 177.9375,
      "step": 12
    },
    {
      "epoch": 0.5473684210526316,
      "grad_norm": 5.308207035064697,
      "learning_rate": 7.938926261462366e-05,
      "loss": 177.5,
      "step": 13
    },
    {
      "epoch": 0.5894736842105263,
      "grad_norm": 5.133080959320068,
      "learning_rate": 6.545084971874738e-05,
      "loss": 177.4375,
      "step": 14
    },
    {
      "epoch": 0.631578947368421,
      "grad_norm": 5.122928619384766,
      "learning_rate": 5e-05,
      "loss": 177.75,
      "step": 15
    },
    {
      "epoch": 0.631578947368421,
      "eval_loss": 11.108231544494629,
      "eval_runtime": 0.2812,
      "eval_samples_per_second": 145.805,
      "eval_steps_per_second": 74.681,
      "step": 15
    },
    {
      "epoch": 0.6736842105263158,
      "grad_norm": 5.448623180389404,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 177.5,
      "step": 16
    },
    {
      "epoch": 0.7157894736842105,
      "grad_norm": 5.380776405334473,
      "learning_rate": 2.061073738537635e-05,
      "loss": 177.625,
      "step": 17
    },
    {
      "epoch": 0.7578947368421053,
      "grad_norm": 5.429207801818848,
      "learning_rate": 9.549150281252633e-06,
      "loss": 177.6875,
      "step": 18
    },
    {
      "epoch": 0.8,
      "grad_norm": 5.550320625305176,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 177.3125,
      "step": 19
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 5.13893461227417,
      "learning_rate": 0.0,
      "loss": 177.4375,
      "step": 20
    },
    {
      "epoch": 0.8421052631578947,
      "eval_loss": 11.105182647705078,
      "eval_runtime": 0.2631,
      "eval_samples_per_second": 155.807,
      "eval_steps_per_second": 79.803,
      "step": 20
    }
  ],
  "logging_steps": 1,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 771584163840.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}