{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.02321899736147757,
  "eval_steps": 9,
  "global_step": 99,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00023453532688361186,
      "eval_loss": 11.765689849853516,
      "eval_runtime": 61.549,
      "eval_samples_per_second": 116.671,
      "eval_steps_per_second": 14.59,
      "step": 1
    },
    {
      "epoch": 0.0007036059806508355,
      "grad_norm": 0.014479922130703926,
      "learning_rate": 3e-05,
      "loss": 11.764,
      "step": 3
    },
    {
      "epoch": 0.001407211961301671,
      "grad_norm": 0.013588850386440754,
      "learning_rate": 6e-05,
      "loss": 11.7651,
      "step": 6
    },
    {
      "epoch": 0.0021108179419525065,
      "grad_norm": 0.01391168124973774,
      "learning_rate": 9e-05,
      "loss": 11.7638,
      "step": 9
    },
    {
      "epoch": 0.0021108179419525065,
      "eval_loss": 11.76555061340332,
      "eval_runtime": 61.7667,
      "eval_samples_per_second": 116.26,
      "eval_steps_per_second": 14.539,
      "step": 9
    },
    {
      "epoch": 0.002814423922603342,
      "grad_norm": 0.013432534411549568,
      "learning_rate": 9.987820251299122e-05,
      "loss": 11.7671,
      "step": 12
    },
    {
      "epoch": 0.003518029903254178,
      "grad_norm": 0.012567996978759766,
      "learning_rate": 9.924038765061042e-05,
      "loss": 11.7669,
      "step": 15
    },
    {
      "epoch": 0.004221635883905013,
      "grad_norm": 0.01628461852669716,
      "learning_rate": 9.806308479691595e-05,
      "loss": 11.7668,
      "step": 18
    },
    {
      "epoch": 0.004221635883905013,
      "eval_loss": 11.765201568603516,
      "eval_runtime": 62.0467,
      "eval_samples_per_second": 115.735,
      "eval_steps_per_second": 14.473,
      "step": 18
    },
    {
      "epoch": 0.004925241864555849,
      "grad_norm": 0.016282685101032257,
      "learning_rate": 9.635919272833938e-05,
      "loss": 11.7656,
      "step": 21
    },
    {
      "epoch": 0.005628847845206684,
      "grad_norm": 0.018926674500107765,
      "learning_rate": 9.414737964294636e-05,
      "loss": 11.7655,
      "step": 24
    },
    {
      "epoch": 0.0063324538258575196,
      "grad_norm": 0.015565341338515282,
      "learning_rate": 9.145187862775209e-05,
      "loss": 11.7618,
      "step": 27
    },
    {
      "epoch": 0.0063324538258575196,
      "eval_loss": 11.764826774597168,
      "eval_runtime": 61.9058,
      "eval_samples_per_second": 115.999,
      "eval_steps_per_second": 14.506,
      "step": 27
    },
    {
      "epoch": 0.007036059806508356,
      "grad_norm": 0.013811266981065273,
      "learning_rate": 8.83022221559489e-05,
      "loss": 11.7644,
      "step": 30
    },
    {
      "epoch": 0.007739665787159191,
      "grad_norm": 0.01674593612551689,
      "learning_rate": 8.473291852294987e-05,
      "loss": 11.7648,
      "step": 33
    },
    {
      "epoch": 0.008443271767810026,
      "grad_norm": 0.01648666523396969,
      "learning_rate": 8.07830737662829e-05,
      "loss": 11.7639,
      "step": 36
    },
    {
      "epoch": 0.008443271767810026,
      "eval_loss": 11.76441764831543,
      "eval_runtime": 61.945,
      "eval_samples_per_second": 115.925,
      "eval_steps_per_second": 14.497,
      "step": 36
    },
    {
      "epoch": 0.009146877748460862,
      "grad_norm": 0.01990756392478943,
      "learning_rate": 7.649596321166024e-05,
      "loss": 11.7622,
      "step": 39
    },
    {
      "epoch": 0.009850483729111698,
      "grad_norm": 0.018198205158114433,
      "learning_rate": 7.191855733945387e-05,
      "loss": 11.764,
      "step": 42
    },
    {
      "epoch": 0.010554089709762533,
      "grad_norm": 0.020231924951076508,
      "learning_rate": 6.710100716628344e-05,
      "loss": 11.7632,
      "step": 45
    },
    {
      "epoch": 0.010554089709762533,
      "eval_loss": 11.763989448547363,
      "eval_runtime": 61.9657,
      "eval_samples_per_second": 115.887,
      "eval_steps_per_second": 14.492,
      "step": 45
    },
    {
      "epoch": 0.011257695690413369,
      "grad_norm": 0.018417371436953545,
      "learning_rate": 6.209609477998338e-05,
      "loss": 11.7635,
      "step": 48
    },
    {
      "epoch": 0.011961301671064205,
      "grad_norm": 0.02288312464952469,
      "learning_rate": 5.695865504800327e-05,
      "loss": 11.7645,
      "step": 51
    },
    {
      "epoch": 0.012664907651715039,
      "grad_norm": 0.023976603522896767,
      "learning_rate": 5.174497483512506e-05,
      "loss": 11.7627,
      "step": 54
    },
    {
      "epoch": 0.012664907651715039,
      "eval_loss": 11.763579368591309,
      "eval_runtime": 61.9779,
      "eval_samples_per_second": 115.864,
      "eval_steps_per_second": 14.489,
      "step": 54
    },
    {
      "epoch": 0.013368513632365875,
      "grad_norm": 0.02347044087946415,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 11.7644,
      "step": 57
    },
    {
      "epoch": 0.014072119613016711,
      "grad_norm": 0.02534397318959236,
      "learning_rate": 4.131759111665349e-05,
      "loss": 11.7632,
      "step": 60
    },
    {
      "epoch": 0.014775725593667546,
      "grad_norm": 0.025036999955773354,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 11.7658,
      "step": 63
    },
    {
      "epoch": 0.014775725593667546,
      "eval_loss": 11.763214111328125,
      "eval_runtime": 61.9795,
      "eval_samples_per_second": 115.861,
      "eval_steps_per_second": 14.489,
      "step": 63
    },
    {
      "epoch": 0.015479331574318382,
      "grad_norm": 0.024829844012856483,
      "learning_rate": 3.12696703292044e-05,
      "loss": 11.7636,
      "step": 66
    },
    {
      "epoch": 0.016182937554969218,
      "grad_norm": 0.024385523051023483,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 11.7658,
      "step": 69
    },
    {
      "epoch": 0.016886543535620052,
      "grad_norm": 0.025778386741876602,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 11.7636,
      "step": 72
    },
    {
      "epoch": 0.016886543535620052,
      "eval_loss": 11.762946128845215,
      "eval_runtime": 62.007,
      "eval_samples_per_second": 115.809,
      "eval_steps_per_second": 14.482,
      "step": 72
    },
    {
      "epoch": 0.01759014951627089,
      "grad_norm": 0.031147191300988197,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 11.7629,
      "step": 75
    },
    {
      "epoch": 0.018293755496921724,
      "grad_norm": 0.029022900387644768,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 11.7636,
      "step": 78
    },
    {
      "epoch": 0.01899736147757256,
      "grad_norm": 0.032287679612636566,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 11.7613,
      "step": 81
    },
    {
      "epoch": 0.01899736147757256,
      "eval_loss": 11.762779235839844,
      "eval_runtime": 61.9762,
      "eval_samples_per_second": 115.867,
      "eval_steps_per_second": 14.489,
      "step": 81
    },
    {
      "epoch": 0.019700967458223397,
      "grad_norm": 0.030149852856993675,
      "learning_rate": 7.597595192178702e-06,
      "loss": 11.7631,
      "step": 84
    },
    {
      "epoch": 0.02040457343887423,
      "grad_norm": 0.027208149433135986,
      "learning_rate": 5.060297685041659e-06,
      "loss": 11.7624,
      "step": 87
    },
    {
      "epoch": 0.021108179419525065,
      "grad_norm": 0.02712392993271351,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 11.7627,
      "step": 90
    },
    {
      "epoch": 0.021108179419525065,
      "eval_loss": 11.762706756591797,
      "eval_runtime": 61.9821,
      "eval_samples_per_second": 115.856,
      "eval_steps_per_second": 14.488,
      "step": 90
    },
    {
      "epoch": 0.021811785400175903,
      "grad_norm": 0.023097006604075432,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 11.7629,
      "step": 93
    },
    {
      "epoch": 0.022515391380826737,
      "grad_norm": 0.028477627784013748,
      "learning_rate": 4.865965629214819e-07,
      "loss": 11.7626,
      "step": 96
    },
    {
      "epoch": 0.02321899736147757,
      "grad_norm": 0.030084462836384773,
      "learning_rate": 3.04586490452119e-08,
      "loss": 11.7609,
      "step": 99
    },
    {
      "epoch": 0.02321899736147757,
      "eval_loss": 11.762691497802734,
      "eval_runtime": 61.9707,
      "eval_samples_per_second": 115.877,
      "eval_steps_per_second": 14.491,
      "step": 99
    }
  ],
  "logging_steps": 3,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 9,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 77100466569216.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}