{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9893390191897654,
  "eval_steps": 100,
  "global_step": 58,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 607.8772506713867,
      "epoch": 0.017057569296375266,
      "grad_norm": 0.5273867845535278,
      "kl": 0.0,
      "learning_rate": 5e-07,
      "loss": 0.0344,
      "reward": 0.623883955180645,
      "reward_std": 0.35039480216801167,
      "rewards/accuracy_reward": 0.623883955180645,
      "rewards/format_reward": 0.0,
      "step": 1
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.515926361084,
      "epoch": 0.08528784648187633,
      "grad_norm": 0.6771370768547058,
      "kl": 0.0002727210521697998,
      "learning_rate": 2.5e-06,
      "loss": 0.0197,
      "reward": 0.6063058273866773,
      "reward_std": 0.35399555414915085,
      "rewards/accuracy_reward": 0.6063058273866773,
      "rewards/format_reward": 0.0,
      "step": 5
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 613.4475708007812,
      "epoch": 0.17057569296375266,
      "grad_norm": 434.467529296875,
      "kl": 0.13070230484008788,
      "learning_rate": 2.956412726139078e-06,
      "loss": 0.0762,
      "reward": 0.6729911021888256,
      "reward_std": 0.30352607890963557,
      "rewards/accuracy_reward": 0.6729911021888256,
      "rewards/format_reward": 0.0,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.9748016357422,
      "epoch": 0.255863539445629,
      "grad_norm": 6.989502429962158,
      "kl": 0.010321807861328126,
      "learning_rate": 2.7836719084521715e-06,
      "loss": 0.0651,
      "reward": 0.7546875357627869,
      "reward_std": 0.2243445560336113,
      "rewards/accuracy_reward": 0.7546875357627869,
      "rewards/format_reward": 0.0,
      "step": 15
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.692211151123,
      "epoch": 0.3411513859275053,
      "grad_norm": 1.143784761428833,
      "kl": 0.005150604248046875,
      "learning_rate": 2.4946839873611927e-06,
      "loss": 0.0444,
      "reward": 0.7678571790456772,
      "reward_std": 0.19258424239233135,
      "rewards/accuracy_reward": 0.7678571790456772,
      "rewards/format_reward": 0.0,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.5303825378418,
      "epoch": 0.42643923240938164,
      "grad_norm": 0.8599573969841003,
      "kl": 0.007095909118652344,
      "learning_rate": 2.1156192081791355e-06,
      "loss": 0.0425,
      "reward": 0.7613839656114578,
      "reward_std": 0.1907089645974338,
      "rewards/accuracy_reward": 0.7613839656114578,
      "rewards/format_reward": 0.0,
      "step": 25
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.4375267028809,
      "epoch": 0.511727078891258,
      "grad_norm": 5.434655666351318,
      "kl": 0.01061248779296875,
      "learning_rate": 1.6808050203829845e-06,
      "loss": 0.0416,
      "reward": 0.7439732477068901,
      "reward_std": 0.19269280936568975,
      "rewards/accuracy_reward": 0.7439732477068901,
      "rewards/format_reward": 0.0,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.9435531616211,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.14064043760299683,
      "kl": 0.0053131103515625,
      "learning_rate": 1.2296174432791415e-06,
      "loss": 0.035,
      "reward": 0.7352678939700127,
      "reward_std": 0.1949661049991846,
      "rewards/accuracy_reward": 0.7352678939700127,
      "rewards/format_reward": 0.0,
      "step": 35
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.1169914245605,
      "epoch": 0.6823027718550106,
      "grad_norm": 0.16957306861877441,
      "kl": 0.008118057250976562,
      "learning_rate": 8.029152419343472e-07,
      "loss": 0.0458,
      "reward": 0.754241107404232,
      "reward_std": 0.1894925835542381,
      "rewards/accuracy_reward": 0.754241107404232,
      "rewards/format_reward": 0.0,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.106046295166,
      "epoch": 0.767590618336887,
      "grad_norm": 0.16693688929080963,
      "kl": 0.005321121215820313,
      "learning_rate": 4.3933982822017883e-07,
      "loss": 0.0399,
      "reward": 0.7424107521772385,
      "reward_std": 0.1981898881494999,
      "rewards/accuracy_reward": 0.7424107521772385,
      "rewards/format_reward": 0.0,
      "step": 45
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.446231842041,
      "epoch": 0.8528784648187633,
      "grad_norm": 0.11692611128091812,
      "kl": 0.008246612548828126,
      "learning_rate": 1.718159615201853e-07,
      "loss": 0.0403,
      "reward": 0.7426339596509933,
      "reward_std": 0.19860187945887448,
      "rewards/accuracy_reward": 0.7426339596509933,
      "rewards/format_reward": 0.0,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.1578414916992,
      "epoch": 0.9381663113006397,
      "grad_norm": 0.16423751413822174,
      "kl": 0.00835113525390625,
      "learning_rate": 2.4570139579284723e-08,
      "loss": 0.0402,
      "reward": 0.7723214656114579,
      "reward_std": 0.2039511138573289,
      "rewards/accuracy_reward": 0.7723214656114579,
      "rewards/format_reward": 0.0,
      "step": 55
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.5102348327637,
      "epoch": 0.9893390191897654,
      "kl": 0.007818222045898438,
      "reward": 0.7630208705862364,
      "reward_std": 0.18133078018824259,
      "rewards/accuracy_reward": 0.7630208705862364,
      "rewards/format_reward": 0.0,
      "step": 58,
      "total_flos": 0.0,
      "train_loss": 0.0446709881954152,
      "train_runtime": 10923.1234,
      "train_samples_per_second": 0.687,
      "train_steps_per_second": 0.005
    }
  ],
  "logging_steps": 5,
  "max_steps": 58,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}