Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +3 -3
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +3 -3
trainer_state.json +876 -510
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jun-liang-chen-the-hong-kong-polytechnic-university/huggingface/runs/cc1xx7bd)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jun-liang-chen-the-hong-kong-polytechnic-university/huggingface/runs/bomcw3b5)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": -0.0028305855572698046,
-    "train_runtime": 255598.0178,
     "train_samples": 7500,
-    "train_samples_per_second": 0.029,
     "train_steps_per_second": 0.001
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.2665646580783036,
+    "train_runtime": 484901.6937,
     "train_samples": 7500,
+    "train_samples_per_second": 0.015,
     "train_steps_per_second": 0.001
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20ddd578f7ba02967882b6b1a6ee1713d1e8175c167a6396b6215aa62f335a0c
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:29eaeace24738554f7e6e05e2ed92758752732e7e4cd1e62af9519cbed06d2cc
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53d2190ccdaf6cdd91a502322c095c49eb7ea96305a5502738f63272e751f764
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:d00d4d8b88b12a1c5903e1bd82c1eb6b5a34d3091ce4a1d1a703b8d9276fcf26
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89b98c13cf5f9547bdf3e911547b28e46abb518bf8424c4d4054c14a4f7cd657
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:736625042166c57ba72783a3df20e860c03a83719e89257119c8b83ec51ccfad
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36fdb9373e4f639847e1323c6b2479392a455e607795106e96b6030c41bc5716
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:18ffebf5a0285c8b31fd711c517f01fb1dc3ee9de44769b1c9053dacafea52b9
 size 1089994880

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": -0.0028305855572698046,
-    "train_runtime": 255598.0178,
     "train_samples": 7500,
-    "train_samples_per_second": 0.029,
     "train_steps_per_second": 0.001
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.2665646580783036,
+    "train_runtime": 484901.6937,
     "train_samples": 7500,
+    "train_samples_per_second": 0.015,
     "train_steps_per_second": 0.001
 }

trainer_state.json CHANGED Viewed

@@ -1,796 +1,1162 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9968,
-  "eval_steps": 200,
-  "global_step": 267,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
-      "completion_length": 584.2053571428571,
-      "epoch": 0.0037333333333333333,
-      "grad_norm": 0.0,
-      "kl": 3.123922007424491e-07,
-      "learning_rate": 1.1111111111111111e-07,
-      "loss": -0.0051,
-      "reward": 0.6517857142857143,
-      "reward_std": 0.35586076974868774,
-      "rewards/accuracy_reward": 0.6517857142857143,
       "rewards/format_reward": 0.0,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 590.6540178571429,
-      "epoch": 0.018666666666666668,
-      "grad_norm": 0.1855999380350113,
-      "kl": 0.00017639675310679844,
-      "learning_rate": 5.555555555555555e-07,
-      "loss": -0.024,
-      "reward": 0.6004464285714286,
-      "reward_std": 0.30399111764771597,
-      "rewards/accuracy_reward": 0.6004464285714286,
       "rewards/format_reward": 0.0,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 577.3446428571428,
-      "epoch": 0.037333333333333336,
-      "grad_norm": 0.10475708544254303,
-      "kl": 0.00021860003471374512,
-      "learning_rate": 1.111111111111111e-06,
-      "loss": -0.0247,
-      "reward": 0.6017857142857143,
-      "reward_std": 0.32809826050485885,
-      "rewards/accuracy_reward": 0.6017857142857143,
       "rewards/format_reward": 0.0,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 635.5607142857143,
-      "epoch": 0.056,
-      "grad_norm": 0.022834666073322296,
-      "kl": 0.00047294582639421733,
-      "learning_rate": 1.6666666666666669e-06,
-      "loss": -0.0105,
-      "reward": 0.5839285714285715,
-      "reward_std": 0.32206040705953326,
-      "rewards/accuracy_reward": 0.5839285714285715,
       "rewards/format_reward": 0.0,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 608.0660714285714,
-      "epoch": 0.07466666666666667,
-      "grad_norm": 1.4037145376205444,
-      "kl": 0.003454787390572684,
-      "learning_rate": 2.222222222222222e-06,
-      "loss": -0.0408,
-      "reward": 0.5660714285714286,
-      "reward_std": 0.30615685411861965,
-      "rewards/accuracy_reward": 0.5660714285714286,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 585.6625,
-      "epoch": 0.09333333333333334,
-      "grad_norm": 0.04715263098478317,
-      "kl": 0.006245636940002441,
-      "learning_rate": 2.777777777777778e-06,
-      "loss": -0.0257,
-      "reward": 0.5785714285714286,
-      "reward_std": 0.3421275573117392,
-      "rewards/accuracy_reward": 0.5785714285714286,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 592.3142857142857,
-      "epoch": 0.112,
-      "grad_norm": 0.022860102355480194,
-      "kl": 0.3629974705832345,
-      "learning_rate": 2.9988435543610844e-06,
-      "loss": -0.0083,
-      "reward": 0.6392857142857142,
-      "reward_std": 0.30530826789992194,
-      "rewards/accuracy_reward": 0.6392857142857142,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 606.3267857142857,
-      "epoch": 0.13066666666666665,
-      "grad_norm": 0.11820275336503983,
-      "kl": 6.243857077189854,
-      "learning_rate": 2.99178284305241e-06,
-      "loss": 0.3173,
-      "reward": 0.5857142857142857,
-      "reward_std": 0.3432325610092708,
-      "rewards/accuracy_reward": 0.5857142857142857,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 572.0892857142857,
-      "epoch": 0.14933333333333335,
-      "grad_norm": 21.97744369506836,
-      "kl": 0.33153715814862933,
-      "learning_rate": 2.978334088587117e-06,
-      "loss": -0.0104,
-      "reward": 0.6625,
-      "reward_std": 0.33634612134524755,
-      "rewards/accuracy_reward": 0.6607142857142857,
-      "rewards/format_reward": 0.0017857142857142857,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 600.6875,
-      "epoch": 0.168,
-      "grad_norm": 0.17174075543880463,
-      "kl": 0.3202719347817557,
-      "learning_rate": 2.958554880596515e-06,
-      "loss": 0.0072,
-      "reward": 0.6,
-      "reward_std": 0.3338796964713505,
-      "rewards/accuracy_reward": 0.6,
       "rewards/format_reward": 0.0,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 616.7535714285714,
-      "epoch": 0.18666666666666668,
-      "grad_norm": 0.09551213681697845,
-      "kl": 0.33372737339564734,
-      "learning_rate": 2.9325299166857803e-06,
-      "loss": 0.0081,
-      "reward": 0.6071428571428571,
-      "reward_std": 0.3335836121014186,
-      "rewards/accuracy_reward": 0.6071428571428571,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.6660714285714,
-      "epoch": 0.20533333333333334,
-      "grad_norm": 0.12027700990438461,
-      "kl": 0.20207279750279017,
-      "learning_rate": 2.9003706397458025e-06,
-      "loss": 0.0048,
-      "reward": 0.6446428571428572,
-      "reward_std": 0.3487179126058306,
-      "rewards/accuracy_reward": 0.6446428571428572,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 576.2642857142857,
-      "epoch": 0.224,
-      "grad_norm": 0.594131588935852,
-      "kl": 0.24056614467075893,
-      "learning_rate": 2.862214760737622e-06,
-      "loss": -0.0414,
-      "reward": 0.6232142857142857,
-      "reward_std": 0.33634612134524755,
-      "rewards/accuracy_reward": 0.6232142857142857,
       "rewards/format_reward": 0.0,
       "step": 60
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 578.2357142857143,
-      "epoch": 0.24266666666666667,
-      "grad_norm": 0.3320864140987396,
-      "kl": 0.17519269670758927,
-      "learning_rate": 2.818225668992948e-06,
-      "loss": -0.0211,
-      "reward": 0.6125,
-      "reward_std": 0.32176432268960137,
-      "rewards/accuracy_reward": 0.6125,
       "rewards/format_reward": 0.0,
       "step": 65
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 569.9196428571429,
-      "epoch": 0.2613333333333333,
-      "grad_norm": 0.42868152260780334,
-      "kl": 0.07821709769112724,
-      "learning_rate": 2.7685917325559604e-06,
-      "loss": -0.0073,
-      "reward": 0.6,
-      "reward_std": 0.35862327899251667,
-      "rewards/accuracy_reward": 0.6,
       "rewards/format_reward": 0.0,
       "step": 70
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 592.0357142857143,
-      "epoch": 0.28,
-      "grad_norm": 0.0943068340420723,
-      "kl": 0.06971386500767299,
-      "learning_rate": 2.713525491562421e-06,
-      "loss": -0.0088,
-      "reward": 0.6053571428571428,
-      "reward_std": 0.32537541815212795,
-      "rewards/accuracy_reward": 0.6053571428571428,
       "rewards/format_reward": 0.0,
       "step": 75
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 578.4678571428572,
-      "epoch": 0.2986666666666667,
-      "grad_norm": 0.011618987657129765,
-      "kl": 0.08212520054408483,
-      "learning_rate": 2.6532627481101893e-06,
-      "loss": -0.0353,
-      "reward": 0.6267857142857143,
-      "reward_std": 0.2574786084038871,
-      "rewards/accuracy_reward": 0.6267857142857143,
       "rewards/format_reward": 0.0,
       "step": 80
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 622.4571428571429,
-      "epoch": 0.31733333333333336,
-      "grad_norm": 0.7904458045959473,
-      "kl": 0.05238505772181919,
-      "learning_rate": 2.5880615565184313e-06,
-      "loss": -0.0003,
-      "reward": 0.6267857142857143,
-      "reward_std": 0.2849450332777841,
-      "rewards/accuracy_reward": 0.6267857142857143,
       "rewards/format_reward": 0.0,
       "step": 85
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 557.3285714285714,
-      "epoch": 0.336,
-      "grad_norm": 0.15280544757843018,
-      "kl": 0.17704980032784598,
-      "learning_rate": 2.518201118299413e-06,
-      "loss": 0.0103,
-      "reward": 0.6214285714285714,
-      "reward_std": 0.3481654107570648,
-      "rewards/accuracy_reward": 0.6214285714285714,
       "rewards/format_reward": 0.0,
       "step": 90
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 613.6553571428572,
-      "epoch": 0.3546666666666667,
-      "grad_norm": 0.21528230607509613,
-      "kl": 0.09126150948660715,
-      "learning_rate": 2.4439805865747562e-06,
-      "loss": -0.0161,
-      "reward": 0.6196428571428572,
-      "reward_std": 0.3066696890762874,
-      "rewards/accuracy_reward": 0.6196428571428572,
       "rewards/format_reward": 0.0,
       "step": 95
     },
     {
-      "clip_ratio": 0.0,
-      "completion_length": 579.3107142857143,
-      "epoch": 0.37333333333333335,
-      "grad_norm": 0.20065245032310486,
-      "kl": 0.17014105660574777,
-      "learning_rate": 2.3657177850558505e-06,
-      "loss": -0.0211,
-      "reward": 0.6392857142857142,
-      "reward_std": 0.3195939821856362,
-      "rewards/accuracy_reward": 0.6392857142857142,
-      "rewards/format_reward": 0.0,
       "step": 100
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 617.9732142857143,
-      "epoch": 0.392,
-      "grad_norm": 0.010423385538160801,
-      "kl": 0.06536189488002232,
-      "learning_rate": 2.2837478470739234e-06,
-      "loss": -0.0072,
-      "reward": 0.5732142857142857,
-      "reward_std": 0.34157505546297345,
-      "rewards/accuracy_reward": 0.5732142857142857,
       "rewards/format_reward": 0.0,
       "step": 105
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.2910714285714,
-      "epoch": 0.4106666666666667,
-      "grad_norm": 0.14102862775325775,
-      "kl": 0.1574784415108817,
-      "learning_rate": 2.198421780487667e-06,
-      "loss": -0.0464,
-      "reward": 0.6053571428571428,
-      "reward_std": 0.3215475721018655,
-      "rewards/accuracy_reward": 0.6053571428571428,
       "rewards/format_reward": 0.0,
       "step": 110
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 592.3178571428572,
-      "epoch": 0.42933333333333334,
-      "grad_norm": 0.10852164775133133,
-      "kl": 0.11443628583635602,
-      "learning_rate": 2.1101049646137005e-06,
-      "loss": -0.0282,
-      "reward": 0.5714285714285714,
-      "reward_std": 0.3459554033620017,
-      "rewards/accuracy_reward": 0.5714285714285714,
       "rewards/format_reward": 0.0,
       "step": 115
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 618.7821428571428,
-      "epoch": 0.448,
-      "grad_norm": 0.6055614948272705,
-      "kl": 0.16327661786760603,
-      "learning_rate": 2.0191755856162397e-06,
-      "loss": -0.0015,
-      "reward": 0.6017857142857143,
-      "reward_std": 0.30254575865609307,
-      "rewards/accuracy_reward": 0.6017857142857143,
       "rewards/format_reward": 0.0,
       "step": 120
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 586.575,
-      "epoch": 0.4666666666666667,
-      "grad_norm": 0.33487093448638916,
-      "kl": 0.2866717747279576,
-      "learning_rate": 1.9260230170558845e-06,
-      "loss": -0.0131,
-      "reward": 0.5660714285714286,
-      "reward_std": 0.34650790521076746,
-      "rewards/accuracy_reward": 0.5660714285714286,
       "rewards/format_reward": 0.0,
       "step": 125
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 598.3553571428571,
-      "epoch": 0.48533333333333334,
-      "grad_norm": 0.4094862639904022,
-      "kl": 0.2726052965436663,
-      "learning_rate": 1.8310461525322523e-06,
-      "loss": -0.0308,
-      "reward": 0.6160714285714286,
-      "reward_std": 0.34790899327823094,
-      "rewards/accuracy_reward": 0.6160714285714286,
       "rewards/format_reward": 0.0,
       "step": 130
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 615.3178571428572,
-      "epoch": 0.504,
-      "grad_norm": 0.5523812770843506,
-      "kl": 0.39636241367885044,
-      "learning_rate": 1.7346516975603465e-06,
-      "loss": -0.0353,
-      "reward": 0.5767857142857142,
-      "reward_std": 0.33332719462258475,
-      "rewards/accuracy_reward": 0.5767857142857142,
       "rewards/format_reward": 0.0,
       "step": 135
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 626.4767857142857,
-      "epoch": 0.5226666666666666,
-      "grad_norm": 0.08616114407777786,
-      "kl": 0.4847276960100446,
-      "learning_rate": 1.637252427995104e-06,
-      "loss": -0.0036,
-      "reward": 0.5392857142857143,
-      "reward_std": 0.30309826050485883,
-      "rewards/accuracy_reward": 0.5392857142857143,
       "rewards/format_reward": 0.0,
       "step": 140
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 605.8607142857143,
-      "epoch": 0.5413333333333333,
-      "grad_norm": 0.35899537801742554,
-      "kl": 1.201324244907924,
-      "learning_rate": 1.53926542246181e-06,
-      "loss": -0.0055,
-      "reward": 0.5928571428571429,
-      "reward_std": 0.3091361139501844,
-      "rewards/accuracy_reward": 0.5928571428571429,
       "rewards/format_reward": 0.0,
       "step": 145
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.8107142857143,
-      "epoch": 0.56,
-      "grad_norm": 0.16239966452121735,
-      "kl": 0.4776475633893694,
-      "learning_rate": 1.4411102763613975e-06,
-      "loss": -0.0096,
-      "reward": 0.5910714285714286,
-      "reward_std": 0.36189862319401334,
-      "rewards/accuracy_reward": 0.5910714285714286,
       "rewards/format_reward": 0.0,
       "step": 150
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 579.8357142857143,
-      "epoch": 0.5786666666666667,
-      "grad_norm": 0.2588573098182678,
-      "kl": 0.37055963788713725,
-      "learning_rate": 1.3432073050985201e-06,
-      "loss": -0.0182,
-      "reward": 0.5892857142857143,
-      "reward_std": 0.3256318356309618,
-      "rewards/accuracy_reward": 0.5892857142857143,
       "rewards/format_reward": 0.0,
       "step": 155
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 636.9660714285715,
-      "epoch": 0.5973333333333334,
-      "grad_norm": 0.3046307861804962,
-      "kl": 0.18770294189453124,
-      "learning_rate": 1.245975744226463e-06,
-      "loss": -0.0251,
-      "reward": 0.6071428571428571,
-      "reward_std": 0.32452683193343024,
-      "rewards/accuracy_reward": 0.6071428571428571,
       "rewards/format_reward": 0.0,
       "step": 160
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.6803571428571,
-      "epoch": 0.616,
-      "grad_norm": 0.19371181726455688,
-      "kl": 0.3922314235142299,
-      "learning_rate": 1.1498319542161423e-06,
-      "loss": -0.0093,
-      "reward": 0.5875,
-      "reward_std": 0.3490139969757625,
-      "rewards/accuracy_reward": 0.5875,
       "rewards/format_reward": 0.0,
       "step": 165
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 584.7196428571428,
-      "epoch": 0.6346666666666667,
-      "grad_norm": 0.10712730884552002,
-      "kl": 0.3678185599190848,
-      "learning_rate": 1.0551876375366437e-06,
-      "loss": -0.0021,
-      "reward": 0.5875,
-      "reward_std": 0.33443219832011634,
-      "rewards/accuracy_reward": 0.5875,
       "rewards/format_reward": 0.0,
       "step": 170
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.0017857142857,
-      "epoch": 0.6533333333333333,
-      "grad_norm": 1.3254014253616333,
-      "kl": 0.6625612531389509,
-      "learning_rate": 9.624480756820497e-07,
-      "loss": 0.0012,
-      "reward": 0.625,
-      "reward_std": 0.3338796964713505,
-      "rewards/accuracy_reward": 0.625,
       "rewards/format_reward": 0.0,
       "step": 175
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 586.9053571428572,
-      "epoch": 0.672,
-      "grad_norm": 5.647360324859619,
-      "kl": 1.4718305315290179,
-      "learning_rate": 8.720103936938583e-07,
-      "loss": 0.0312,
-      "reward": 0.5928571428571429,
-      "reward_std": 0.3011843374797276,
-      "rewards/accuracy_reward": 0.5928571428571429,
       "rewards/format_reward": 0.0,
       "step": 180
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 624.6,
-      "epoch": 0.6906666666666667,
-      "grad_norm": 0.3304588198661804,
-      "kl": 1.4476038251604353,
-      "learning_rate": 7.842618596105873e-07,
-      "loss": -0.0088,
-      "reward": 0.5571428571428572,
-      "reward_std": 0.3657661361353738,
-      "rewards/accuracy_reward": 0.5571428571428572,
       "rewards/format_reward": 0.0,
       "step": 185
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 609.3267857142857,
-      "epoch": 0.7093333333333334,
-      "grad_norm": 0.0052251736633479595,
-      "kl": 0.7994631086077009,
-      "learning_rate": 6.995782261265828e-07,
-      "loss": -0.0033,
-      "reward": 0.6571428571428571,
-      "reward_std": 0.3195939821856362,
-      "rewards/accuracy_reward": 0.6571428571428571,
       "rewards/format_reward": 0.0,
       "step": 190
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 627.0696428571429,
-      "epoch": 0.728,
-      "grad_norm": 0.8703639507293701,
-      "kl": 0.4258202144077846,
-      "learning_rate": 6.183221215612905e-07,
-      "loss": -0.0207,
-      "reward": 0.5607142857142857,
-      "reward_std": 0.3360897038664137,
-      "rewards/accuracy_reward": 0.5607142857142857,
       "rewards/format_reward": 0.0,
       "step": 195
     },
     {
-      "epoch": 0.7466666666666667,
-      "grad_norm": 0.2712614834308624,
-      "learning_rate": 5.40841497029123e-07,
-      "loss": 0.0225,
       "step": 200
     },
     {
-      "epoch": 0.7466666666666667,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 581.896,
-      "eval_kl": 0.6586514877319336,
-      "eval_loss": -0.014948751777410507,
-      "eval_reward": 0.49185,
-      "eval_reward_std": 0.3328778264760971,
-      "eval_rewards/accuracy_reward": 0.49185,
-      "eval_rewards/format_reward": 0.0,
-      "eval_runtime": 80126.5226,
-      "eval_samples_per_second": 0.062,
-      "eval_steps_per_second": 0.016,
       "step": 200
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.6607142857143,
-      "epoch": 0.7653333333333333,
-      "grad_norm": 0.17807097733020782,
-      "kl": 0.6059337615966797,
-      "learning_rate": 4.674681364593688e-07,
-      "loss": 0.0047,
-      "reward": 0.5991071428571428,
-      "reward_std": 0.30915594739573343,
-      "rewards/accuracy_reward": 0.5991071428571428,
       "rewards/format_reward": 0.0,
       "step": 205
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 645.5696428571429,
-      "epoch": 0.784,
-      "grad_norm": 1.1000945568084717,
-      "kl": 0.31501290457589287,
-      "learning_rate": 3.98516235846472e-07,
-      "loss": 0.0128,
-      "reward": 0.6053571428571428,
-      "reward_std": 0.3121470332145691,
-      "rewards/accuracy_reward": 0.6035714285714285,
-      "rewards/format_reward": 0.0017857142857142857,
       "step": 210
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 614.0910714285715,
-      "epoch": 0.8026666666666666,
-      "grad_norm": 0.3984079360961914,
-      "kl": 0.5104325430733817,
-      "learning_rate": 3.3428105781454364e-07,
-      "loss": 0.0147,
-      "reward": 0.575,
-      "reward_std": 0.3561171872275216,
-      "rewards/accuracy_reward": 0.575,
       "rewards/format_reward": 0.0,
       "step": 215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 577.9607142857143,
-      "epoch": 0.8213333333333334,
-      "grad_norm": 0.9381574392318726,
-      "kl": 0.5813296726771764,
-      "learning_rate": 2.750376672574816e-07,
-      "loss": -0.0266,
-      "reward": 0.6232142857142857,
-      "reward_std": 0.32235649142946515,
-      "rewards/accuracy_reward": 0.6232142857142857,
       "rewards/format_reward": 0.0,
       "step": 220
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 625.3107142857143,
-      "epoch": 0.84,
-      "grad_norm": 0.2192346155643463,
-      "kl": 0.5947923932756697,
-      "learning_rate": 2.2103975346886175e-07,
-      "loss": 0.0184,
-      "reward": 0.6017857142857143,
-      "reward_std": 0.3096886157989502,
-      "rewards/accuracy_reward": 0.6017857142857143,
       "rewards/format_reward": 0.0,
       "step": 225
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 609.7071428571429,
-      "epoch": 0.8586666666666667,
-      "grad_norm": 1.8841651678085327,
-      "kl": 0.9176664079938616,
-      "learning_rate": 1.7251854380543735e-07,
-      "loss": -0.0191,
-      "reward": 0.5982142857142857,
-      "reward_std": 0.3261843374797276,
-      "rewards/accuracy_reward": 0.5982142857142857,
       "rewards/format_reward": 0.0,
       "step": 230
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 614.4732142857143,
-      "epoch": 0.8773333333333333,
-      "grad_norm": 0.18197353184223175,
-      "kl": 0.8367650713239397,
-      "learning_rate": 1.2968181353609853e-07,
-      "loss": 0.0089,
-      "reward": 0.6214285714285714,
-      "reward_std": 0.28277469277381895,
-      "rewards/accuracy_reward": 0.6214285714285714,
       "rewards/format_reward": 0.0,
       "step": 235
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.1607142857143,
-      "epoch": 0.896,
-      "grad_norm": 0.9800770282745361,
-      "kl": 1.4477369035993304,
-      "learning_rate": 9.271299611627392e-08,
-      "loss": -0.0131,
-      "reward": 0.6142857142857143,
-      "reward_std": 0.3237179126058306,
-      "rewards/accuracy_reward": 0.6142857142857143,
       "rewards/format_reward": 0.0,
       "step": 240
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 598.5571428571428,
-      "epoch": 0.9146666666666666,
-      "grad_norm": 1.9400585889816284,
-      "kl": 1.4993116106305804,
-      "learning_rate": 6.177039769771042e-08,
-      "loss": -0.0213,
-      "reward": 0.5803571428571429,
-      "reward_std": 0.36108970386641365,
-      "rewards/accuracy_reward": 0.5803571428571429,
       "rewards/format_reward": 0.0,
       "step": 245
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 625.3357142857143,
-      "epoch": 0.9333333333333333,
-      "grad_norm": 1.5598750114440918,
-      "kl": 0.9994749886648996,
-      "learning_rate": 3.698651923723101e-08,
-      "loss": -0.0048,
-      "reward": 0.6071428571428571,
-      "reward_std": 0.39846149512699675,
-      "rewards/accuracy_reward": 0.6071428571428571,
       "rewards/format_reward": 0.0,
       "step": 250
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 589.4857142857143,
-      "epoch": 0.952,
-      "grad_norm": 1.0319033861160278,
-      "kl": 1.174580601283482,
-      "learning_rate": 1.846748910729351e-08,
-      "loss": -0.0229,
-      "reward": 0.6053571428571428,
-      "reward_std": 0.3490139969757625,
-      "rewards/accuracy_reward": 0.6053571428571428,
       "rewards/format_reward": 0.0,
       "step": 255
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 602.9089285714285,
-      "epoch": 0.9706666666666667,
-      "grad_norm": 0.4708018898963928,
-      "kl": 0.8759209769112724,
-      "learning_rate": 6.292608638007513e-09,
-      "loss": 0.0268,
-      "reward": 0.6160714285714286,
-      "reward_std": 0.32809826050485885,
-      "rewards/accuracy_reward": 0.6160714285714286,
       "rewards/format_reward": 0.0,
       "step": 260
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 609.9160714285714,
-      "epoch": 0.9893333333333333,
-      "grad_norm": 0.7122711539268494,
-      "kl": 1.1589093889508928,
-      "learning_rate": 5.140125366641102e-10,
-      "loss": 0.008,
-      "reward": 0.6017857142857143,
-      "reward_std": 0.3146214655467442,
-      "rewards/accuracy_reward": 0.6017857142857143,
       "rewards/format_reward": 0.0,
       "step": 265
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 585.875,
-      "epoch": 0.9968,
-      "kl": 1.7515335083007812,
-      "reward": 0.5803571428571429,
-      "reward_std": 0.327693800841059,
-      "rewards/accuracy_reward": 0.5803571428571429,
       "rewards/format_reward": 0.0,
-      "step": 267,
       "total_flos": 0.0,
-      "train_loss": -0.0028305855572698046,
-      "train_runtime": 255598.0178,
-      "train_samples_per_second": 0.029,
       "train_steps_per_second": 0.001
     }
   ],
   "logging_steps": 5,
-  "max_steps": 267,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9981333333333333,
+  "eval_steps": 100,
+  "global_step": 394,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "clip_ratio": 0.0,
+      "completion_length": 579.8596701371042,
+      "epoch": 0.002533333333333333,
+      "grad_norm": 0.2689627707004547,
+      "kl": -9.097551044664885e-08,
+      "learning_rate": 7.500000000000001e-08,
+      "loss": 0.0054,
+      "reward": 0.6754386079938788,
+      "reward_std": 0.29693952202796936,
+      "rewards/accuracy_reward": 0.6754386079938788,
       "rewards/format_reward": 0.0,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 623.1096651177658,
+      "epoch": 0.012666666666666666,
+      "grad_norm": 0.34043097496032715,
+      "kl": 0.00013973210987291838,
+      "learning_rate": 3.75e-07,
+      "loss": -0.0101,
+      "reward": 0.6052631694627436,
+      "reward_std": 0.3655273945708024,
+      "rewards/accuracy_reward": 0.6052631694627436,
       "rewards/format_reward": 0.0,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 574.2947516190378,
+      "epoch": 0.025333333333333333,
+      "grad_norm": 0.16866758465766907,
+      "kl": 0.0002021940130936472,
+      "learning_rate": 7.5e-07,
+      "loss": -0.0133,
+      "reward": 0.6228070329678687,
+      "reward_std": 0.3261075675487518,
+      "rewards/accuracy_reward": 0.6228070329678687,
       "rewards/format_reward": 0.0,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 593.8473849647924,
+      "epoch": 0.038,
+      "grad_norm": 0.13506826758384705,
+      "kl": 0.00030391090794613484,
+      "learning_rate": 1.125e-06,
+      "loss": -0.0171,
+      "reward": 0.6192982615608918,
+      "reward_std": 0.3493922035945089,
+      "rewards/accuracy_reward": 0.6192982615608918,
       "rewards/format_reward": 0.0,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 614.5087890625,
+      "epoch": 0.050666666666666665,
+      "grad_norm": 0.37117841839790344,
+      "kl": 0.0014222195273951481,
+      "learning_rate": 1.5e-06,
+      "loss": -0.0263,
+      "reward": 0.6087719443597291,
+      "reward_std": 0.35981847079176654,
+      "rewards/accuracy_reward": 0.6087719443597291,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 610.6105422170539,
+      "epoch": 0.06333333333333334,
+      "grad_norm": 0.6702502369880676,
+      "kl": 0.008063848395096627,
+      "learning_rate": 1.875e-06,
+      "loss": -0.0323,
+      "reward": 0.6000000163128502,
+      "reward_std": 0.3776336585220538,
+      "rewards/accuracy_reward": 0.6000000163128502,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 581.708786171361,
+      "epoch": 0.076,
+      "grad_norm": 0.13385862112045288,
+      "kl": 0.08222049913908305,
+      "learning_rate": 2.25e-06,
+      "loss": -0.003,
+      "reward": 0.5719298386260083,
+      "reward_std": 0.3216610023849889,
+      "rewards/accuracy_reward": 0.5719298386260083,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 580.1789640727796,
+      "epoch": 0.08866666666666667,
+      "grad_norm": 0.1613887995481491,
+      "kl": 0.4072471217105263,
+      "learning_rate": 2.6250000000000003e-06,
+      "loss": -0.0034,
+      "reward": 0.5684210676895944,
+      "reward_std": 0.3606692671775818,
+      "rewards/accuracy_reward": 0.5684210676895944,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 573.603520443565,
+      "epoch": 0.10133333333333333,
+      "grad_norm": 4.28112268447876,
+      "kl": 0.28351083052785775,
+      "learning_rate": 3e-06,
+      "loss": -0.0148,
+      "reward": 0.6192982620314548,
+      "reward_std": 0.34681932079164607,
+      "rewards/accuracy_reward": 0.6192982620314548,
+      "rewards/format_reward": 0.0,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 597.3666823537726,
+      "epoch": 0.114,
+      "grad_norm": 0.09016856551170349,
+      "kl": 0.1709989447342722,
+      "learning_rate": 2.998523534736735e-06,
+      "loss": -0.0274,
+      "reward": 0.6052631729527523,
+      "reward_std": 0.37054079206366286,
+      "rewards/accuracy_reward": 0.6052631729527523,
       "rewards/format_reward": 0.0,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 588.608786171361,
+      "epoch": 0.12666666666666668,
+      "grad_norm": 0.2084578275680542,
+      "kl": 0.2026009107890882,
+      "learning_rate": 2.994097045546504e-06,
+      "loss": -0.0133,
+      "reward": 0.5824561528469386,
+      "reward_std": 0.3644034429600364,
+      "rewards/accuracy_reward": 0.5824561528469386,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 592.9579096743935,
+      "epoch": 0.13933333333333334,
+      "grad_norm": 1.332377552986145,
+      "kl": 0.253752979479338,
+      "learning_rate": 2.986729246506011e-06,
+      "loss": -0.0199,
+      "reward": 0.6315789619558736,
+      "reward_std": 0.34024513646175986,
+      "rewards/accuracy_reward": 0.6315789619558736,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 580.366682032535,
+      "epoch": 0.152,
+      "grad_norm": 0.056244488805532455,
+      "kl": 17.54536361694336,
+      "learning_rate": 2.976434642014389e-06,
+      "loss": 0.8101,
+      "reward": 0.6280701911763141,
+      "reward_std": 0.3611795199544806,
+      "rewards/accuracy_reward": 0.6280701911763141,
       "rewards/format_reward": 0.0,
       "step": 60
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 602.4929979826275,
+      "epoch": 0.16466666666666666,
+      "grad_norm": 2.9207770824432373,
+      "kl": 0.25210153680098685,
+      "learning_rate": 2.9632334982395456e-06,
+      "loss": 0.0016,
+      "reward": 0.6473684381497534,
+      "reward_std": 0.3406482906718003,
+      "rewards/accuracy_reward": 0.6473684381497534,
       "rewards/format_reward": 0.0,
       "step": 65
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 550.657911119963,
+      "epoch": 0.17733333333333334,
+      "grad_norm": 2.1469576358795166,
+      "kl": 1.1785144203587583,
+      "learning_rate": 2.947151803221774e-06,
+      "loss": 0.0246,
+      "reward": 0.5982456306093618,
+      "reward_std": 0.3625405713131553,
+      "rewards/accuracy_reward": 0.5982456306093618,
       "rewards/format_reward": 0.0,
       "step": 70
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 630.1982622648541,
+      "epoch": 0.19,
+      "grad_norm": 0.437906414270401,
+      "kl": 0.2049952456825658,
+      "learning_rate": 2.928221215713164e-06,
+      "loss": -0.0136,
+      "reward": 0.6368421231445514,
+      "reward_std": 0.3507869362831116,
+      "rewards/accuracy_reward": 0.6368421231445514,
       "rewards/format_reward": 0.0,
       "step": 75
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 554.66141614412,
+      "epoch": 0.20266666666666666,
+      "grad_norm": 0.20336699485778809,
+      "kl": 0.840125154194079,
+      "learning_rate": 2.906479002853542e-06,
+      "loss": -0.0331,
+      "reward": 0.6403508934535478,
+      "reward_std": 0.33991540262573644,
+      "rewards/accuracy_reward": 0.6403508934535478,
       "rewards/format_reward": 0.0,
       "step": 80
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 571.3140498111122,
+      "epoch": 0.21533333333333332,
+      "grad_norm": 0.566848874092102,
+      "kl": 0.42301218133223684,
+      "learning_rate": 2.8819679668056195e-06,
+      "loss": -0.0154,
+      "reward": 0.6754386137974889,
+      "reward_std": 0.3516690385969062,
+      "rewards/accuracy_reward": 0.6754386137974889,
       "rewards/format_reward": 0.0,
       "step": 85
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 576.1280825966282,
+      "epoch": 0.228,
+      "grad_norm": 5.783878326416016,
+      "kl": 0.3097421746504934,
+      "learning_rate": 2.8547363604937856e-06,
+      "loss": 0.0077,
+      "reward": 0.612280716237269,
+      "reward_std": 0.355850856241427,
+      "rewards/accuracy_reward": 0.612280716237269,
       "rewards/format_reward": 0.0,
       "step": 90
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 615.8421213250411,
+      "epoch": 0.24066666666666667,
+      "grad_norm": 0.29518190026283264,
+      "kl": 0.10967632092927632,
+      "learning_rate": 2.824837792612416e-06,
+      "loss": -0.0353,
+      "reward": 0.6122807160804146,
+      "reward_std": 0.3359477858794363,
+      "rewards/accuracy_reward": 0.6122807160804146,
       "rewards/format_reward": 0.0,
       "step": 95
     },
     {
+      "epoch": 0.25333333333333335,
+      "grad_norm": 0.09735328704118729,
+      "learning_rate": 2.792331122090709e-06,
+      "loss": -0.0192,
+      "step": 100
+    },
+    {
+      "epoch": 0.25333333333333335,
+      "eval_clip_ratio": 0.0,
+      "eval_completion_length": 581.6460822784423,
+      "eval_kl": 0.4462999359130859,
+      "eval_loss": -0.020424701273441315,
+      "eval_reward": 0.4882333454877138,
+      "eval_reward_std": 0.3652301513493061,
+      "eval_rewards/accuracy_reward": 0.4882333454877138,
+      "eval_rewards/format_reward": 0.0,
+      "eval_runtime": 95085.0702,
+      "eval_samples_per_second": 0.053,
+      "eval_steps_per_second": 0.009,
       "step": 100
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 560.9368566412675,
+      "epoch": 0.266,
+      "grad_norm": 13.26487922668457,
+      "kl": 0.22525361713610198,
+      "learning_rate": 2.7572803422217976e-06,
+      "loss": -0.0193,
+      "reward": 0.6263158046885541,
+      "reward_std": 0.3673114654264952,
+      "rewards/accuracy_reward": 0.6263158046885541,
       "rewards/format_reward": 0.0,
       "step": 105
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 572.0772078664679,
+      "epoch": 0.2786666666666667,
+      "grad_norm": 5.774922847747803,
+      "kl": 1.1548378392269736,
+      "learning_rate": 2.71975445468425e-06,
+      "loss": -0.0186,
+      "reward": 0.6631579132456529,
+      "reward_std": 0.3699968554471668,
+      "rewards/accuracy_reward": 0.6631579132456529,
       "rewards/format_reward": 0.0,
       "step": 110
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 617.7017713044819,
+      "epoch": 0.29133333333333333,
+      "grad_norm": 0.3488950729370117,
+      "kl": 0.4739940442537007,
+      "learning_rate": 2.679827333703964e-06,
+      "loss": 0.0054,
+      "reward": 0.5789473808125446,
+      "reward_std": 0.359339523942847,
+      "rewards/accuracy_reward": 0.5789473808125446,
       "rewards/format_reward": 0.0,
       "step": 115
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 584.6894883005242,
+      "epoch": 0.304,
+      "grad_norm": 2.7635438442230225,
+      "kl": 0.8890348735608553,
+      "learning_rate": 2.637577580623858e-06,
+      "loss": -0.0151,
+      "reward": 0.5947368579475503,
+      "reward_std": 0.34380959868431094,
+      "rewards/accuracy_reward": 0.5947368579475503,
       "rewards/format_reward": 0.0,
       "step": 120
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 615.0772094726562,
+      "epoch": 0.31666666666666665,
+      "grad_norm": 1.1497012376785278,
+      "kl": 0.36164293791118424,
+      "learning_rate": 2.593088369167671e-06,
+      "loss": -0.0181,
+      "reward": 0.6192982593649312,
+      "reward_std": 0.3435111723448101,
+      "rewards/accuracy_reward": 0.6192982593649312,
       "rewards/format_reward": 0.0,
       "step": 125
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 576.5666825143915,
+      "epoch": 0.3293333333333333,
+      "grad_norm": 6.164768695831299,
+      "kl": 0.5363926937705592,
+      "learning_rate": 2.5464472817024772e-06,
+      "loss": 0.018,
+      "reward": 0.6684210694149921,
+      "reward_std": 0.368413172583831,
+      "rewards/accuracy_reward": 0.6684210694149921,
       "rewards/format_reward": 0.0,
       "step": 130
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 566.4719445479543,
+      "epoch": 0.342,
+      "grad_norm": 2.0130836963653564,
+      "kl": 1.256256103515625,
+      "learning_rate": 2.497746136822254e-06,
+      "loss": 0.0444,
+      "reward": 0.642105276176804,
+      "reward_std": 0.33451331728383116,
+      "rewards/accuracy_reward": 0.642105276176804,
       "rewards/format_reward": 0.0,
       "step": 135
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 615.5193124871505,
+      "epoch": 0.3546666666666667,
+      "grad_norm": 2.369405746459961,
+      "kl": 0.7050068102384869,
+      "learning_rate": 2.4470808085919304e-06,
+      "loss": -0.0144,
+      "reward": 0.6421052804118709,
+      "reward_std": 0.3574345387910542,
+      "rewards/accuracy_reward": 0.6421052804118709,
       "rewards/format_reward": 0.0,
       "step": 140
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 576.3912459524055,
+      "epoch": 0.36733333333333335,
+      "grad_norm": 4.594287872314453,
+      "kl": 2.437645841899671,
+      "learning_rate": 2.3945510378077523e-06,
+      "loss": 0.0796,
+      "reward": 0.6842105448246002,
+      "reward_std": 0.350753252757223,
+      "rewards/accuracy_reward": 0.6842105448246002,
       "rewards/format_reward": 0.0,
       "step": 145
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 596.2193150570519,
+      "epoch": 0.38,
+      "grad_norm": 2.5179603099823,
+      "kl": 1.6508487099095395,
+      "learning_rate": 2.340260235645519e-06,
+      "loss": 0.0431,
+      "reward": 0.663157911363401,
+      "reward_std": 0.3722002707029644,
+      "rewards/accuracy_reward": 0.663157911363401,
       "rewards/format_reward": 0.0,
       "step": 150
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 579.5965046129728,
+      "epoch": 0.39266666666666666,
+      "grad_norm": 76.81166076660156,
+      "kl": 4.629216886821546,
+      "learning_rate": 2.2843152800832416e-06,
+      "loss": 0.094,
+      "reward": 0.5807017698099739,
+      "reward_std": 0.37164790002923265,
+      "rewards/accuracy_reward": 0.5807017698099739,
       "rewards/format_reward": 0.0,
       "step": 155
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 604.2456311677631,
+      "epoch": 0.4053333333333333,
+      "grad_norm": 2.316026210784912,
+      "kl": 5.967475971422697,
+      "learning_rate": 2.2268263054989753e-06,
+      "loss": 0.242,
+      "reward": 0.5666666804175627,
+      "reward_std": 0.3491695720898478,
+      "rewards/accuracy_reward": 0.5666666804175627,
       "rewards/format_reward": 0.0,
       "step": 160
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 585.1210690146999,
+      "epoch": 0.418,
+      "grad_norm": 1.3882242441177368,
+      "kl": 1.542066072162829,
+      "learning_rate": 2.167906485858047e-06,
+      "loss": 0.031,
+      "reward": 0.6631579112065465,
+      "reward_std": 0.32709676968423945,
+      "rewards/accuracy_reward": 0.6631579112065465,
       "rewards/format_reward": 0.0,
       "step": 165
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 609.7789647152549,
+      "epoch": 0.43066666666666664,
+      "grad_norm": 23.364316940307617,
+      "kl": 3.0389545641447366,
+      "learning_rate": 2.1076718119164804e-06,
+      "loss": 0.0985,
+      "reward": 0.5368421203211734,
+      "reward_std": 0.36661528725373116,
+      "rewards/accuracy_reward": 0.5368421203211734,
       "rewards/format_reward": 0.0,
       "step": 170
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 589.2105436626233,
+      "epoch": 0.44333333333333336,
+      "grad_norm": 2.261157274246216,
+      "kl": 3.034598581414474,
+      "learning_rate": 2.0462408628792335e-06,
+      "loss": 0.0464,
+      "reward": 0.5877193132513447,
+      "reward_std": 0.32118205584977805,
+      "rewards/accuracy_reward": 0.5877193132513447,
       "rewards/format_reward": 0.0,
       "step": 175
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 583.0210664447985,
+      "epoch": 0.456,
+      "grad_norm": 1.490301251411438,
+      "kl": 4.092078279194079,
+      "learning_rate": 1.9837345729627633e-06,
+      "loss": 0.0794,
+      "reward": 0.6087719440460205,
+      "reward_std": 0.34601063853815983,
+      "rewards/accuracy_reward": 0.6087719440460205,
       "rewards/format_reward": 0.0,
       "step": 180
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 591.0193131296259,
+      "epoch": 0.4686666666666667,
+      "grad_norm": 3.377087354660034,
+      "kl": 39.17373753597862,
+      "learning_rate": 1.9202759933214665e-06,
+      "loss": 1.5296,
+      "reward": 0.5684210672190315,
+      "reward_std": 0.3722002681932951,
+      "rewards/accuracy_reward": 0.5684210672190315,
       "rewards/format_reward": 0.0,
       "step": 185
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 628.3315945273952,
+      "epoch": 0.48133333333333334,
+      "grad_norm": 15.796894073486328,
+      "kl": 8.018802682976974,
+      "learning_rate": 1.8559900498066726e-06,
+      "loss": 0.2629,
+      "reward": 0.5877193149767423,
+      "reward_std": 0.3454245896715867,
+      "rewards/accuracy_reward": 0.5877193149767423,
       "rewards/format_reward": 0.0,
       "step": 190
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 616.9403683311061,
+      "epoch": 0.494,
+      "grad_norm": 0.7116127014160156,
+      "kl": 11.00859888980263,
+      "learning_rate": 1.7910032970350677e-06,
+      "loss": 0.5039,
+      "reward": 0.614035103195592,
+      "reward_std": 0.3618389898224881,
+      "rewards/accuracy_reward": 0.614035103195592,
       "rewards/format_reward": 0.0,
       "step": 195
     },
     {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 0.7055822014808655,
+      "learning_rate": 1.7254436692507058e-06,
+      "loss": 0.2295,
       "step": 200
     },
     {
+      "epoch": 0.5066666666666667,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 581.6460156143188,
+      "eval_kl": 44.771087231445314,
+      "eval_loss": 1.8106327056884766,
+      "eval_reward": 0.4892333455443382,
+      "eval_reward_std": 0.362811917424202,
+      "eval_rewards/accuracy_reward": 0.4891666788816452,
+      "eval_rewards/format_reward": 6.666666865348816e-05,
+      "eval_runtime": 95474.2074,
+      "eval_samples_per_second": 0.052,
+      "eval_steps_per_second": 0.009,
       "step": 200
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 624.9587893837377,
+      "epoch": 0.5193333333333333,
+      "grad_norm": 0.2618827223777771,
+      "kl": 4.135612246864721,
+      "learning_rate": 1.6594402284710481e-06,
+      "loss": 0.0336,
+      "reward": 0.564035101783903,
+      "reward_std": 0.3579249236144518,
+      "rewards/accuracy_reward": 0.564035101783903,
       "rewards/format_reward": 0.0,
       "step": 205
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 621.8368573640522,
+      "epoch": 0.532,
+      "grad_norm": 1.038638710975647,
+      "kl": 0.783648681640625,
+      "learning_rate": 1.593122910412851e-06,
+      "loss": 0.0144,
+      "reward": 0.6175438767985294,
+      "reward_std": 0.35596638729697777,
+      "rewards/accuracy_reward": 0.6175438767985294,
+      "rewards/format_reward": 0.0,
       "step": 210
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 612.468435990183,
+      "epoch": 0.5446666666666666,
+      "grad_norm": 15.33467960357666,
+      "kl": 5.278036338404605,
+      "learning_rate": 1.5266222686980693e-06,
+      "loss": 0.2523,
+      "reward": 0.5964912433373301,
+      "reward_std": 0.344139332834043,
+      "rewards/accuracy_reward": 0.5964912433373301,
       "rewards/format_reward": 0.0,
       "step": 215
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 579.1210691753187,
+      "epoch": 0.5573333333333333,
+      "grad_norm": 14.52474308013916,
+      "kl": 0.7972836143092106,
+      "learning_rate": 1.460069217843338e-06,
+      "loss": -0.0145,
+      "reward": 0.5754386097192764,
+      "reward_std": 0.3417132879558362,
+      "rewards/accuracy_reward": 0.5754386097192764,
       "rewards/format_reward": 0.0,
       "step": 220
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 567.8386103579872,
+      "epoch": 0.57,
+      "grad_norm": 4.826749324798584,
+      "kl": 1.95933837890625,
+      "learning_rate": 1.3935947755389924e-06,
+      "loss": -0.0023,
+      "reward": 0.6614035228365346,
+      "reward_std": 0.33425700288069876,
+      "rewards/accuracy_reward": 0.6614035228365346,
       "rewards/format_reward": 0.0,
       "step": 225
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 609.7438760857833,
+      "epoch": 0.5826666666666667,
+      "grad_norm": 2.4607062339782715,
+      "kl": 2.425996800472862,
+      "learning_rate": 1.3273298047249756e-06,
+      "loss": 0.0442,
+      "reward": 0.542105278059056,
+      "reward_std": 0.3630532004331288,
+      "rewards/accuracy_reward": 0.542105278059056,
       "rewards/format_reward": 0.0,
       "step": 230
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 633.8508912739001,
+      "epoch": 0.5953333333333334,
+      "grad_norm": 1.241820216178894,
+      "kl": 4.220809454666941,
+      "learning_rate": 1.2614047559713923e-06,
+      "loss": 0.1149,
+      "reward": 0.5491228218141355,
+      "reward_std": 0.3291172884012524,
+      "rewards/accuracy_reward": 0.5491228218141355,
       "rewards/format_reward": 0.0,
       "step": 235
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 607.8807173879524,
+      "epoch": 0.608,
+      "grad_norm": 4.545963287353516,
+      "kl": 1.1027640894839639,
+      "learning_rate": 1.1959494106708598e-06,
+      "loss": 0.0236,
+      "reward": 0.6000000144305982,
+      "reward_std": 0.36793422448007684,
+      "rewards/accuracy_reward": 0.6000000144305982,
       "rewards/format_reward": 0.0,
       "step": 240
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 598.5158052143298,
+      "epoch": 0.6206666666666667,
+      "grad_norm": 3.975374221801758,
+      "kl": 17.801213314658717,
+      "learning_rate": 1.1310926255482204e-06,
+      "loss": 0.6585,
+      "reward": 0.6385965044561185,
+      "reward_std": 0.33627751940175105,
+      "rewards/accuracy_reward": 0.6385965044561185,
       "rewards/format_reward": 0.0,
       "step": 245
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 573.9087850470291,
+      "epoch": 0.6333333333333333,
+      "grad_norm": 1.1734281778335571,
+      "kl": 2.3962697882401316,
+      "learning_rate": 1.0669620789905688e-06,
+      "loss": 0.027,
+      "reward": 0.5877193123102188,
+      "reward_std": 0.38500809261673374,
+      "rewards/accuracy_reward": 0.5877193123102188,
       "rewards/format_reward": 0.0,
       "step": 250
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 606.8912443462171,
+      "epoch": 0.646,
+      "grad_norm": 2.513296365737915,
+      "kl": 2.2693404348273027,
+      "learning_rate": 1.0036840196969795e-06,
+      "loss": 0.0564,
+      "reward": 0.6245614178870854,
+      "reward_std": 0.32143837056661906,
+      "rewards/accuracy_reward": 0.6245614178870854,
       "rewards/format_reward": 0.0,
       "step": 255
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 567.249137316252,
+      "epoch": 0.6586666666666666,
+      "grad_norm": 1.0174099206924438,
+      "kl": 3.5286929481907894,
+      "learning_rate": 9.413830181427508e-07,
+      "loss": 0.0882,
+      "reward": 0.6456140494660327,
+      "reward_std": 0.3340006878501491,
+      "rewards/accuracy_reward": 0.6456140494660327,
       "rewards/format_reward": 0.0,
       "step": 260
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 610.2052803441098,
+      "epoch": 0.6713333333333333,
+      "grad_norm": 1.029402256011963,
+      "kl": 2.918760922080592,
+      "learning_rate": 8.801817213474331e-07,
+      "loss": 0.0485,
+      "reward": 0.5929824714597903,
+      "reward_std": 0.34714905211800023,
+      "rewards/accuracy_reward": 0.5929824714597903,
       "rewards/format_reward": 0.0,
       "step": 265
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 638.8596645957546,
+      "epoch": 0.684,
+      "grad_norm": 1.5382988452911377,
+      "kl": 2.563796193976151,
+      "learning_rate": 8.202006114294044e-07,
+      "loss": 0.0392,
+      "reward": 0.5807017699668282,
+      "reward_std": 0.36489082386619165,
+      "rewards/accuracy_reward": 0.5807017699668282,
+      "rewards/format_reward": 0.0,
+      "step": 270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.0421232524671,
+      "epoch": 0.6966666666666667,
+      "grad_norm": 16.033626556396484,
+      "kl": 1.5960372121710527,
+      "learning_rate": 7.615577684223272e-07,
+      "loss": 0.0303,
+      "reward": 0.5894736991116875,
+      "reward_std": 0.3749873553451739,
+      "rewards/accuracy_reward": 0.5894736991116875,
+      "rewards/format_reward": 0.0,
+      "step": 275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.415805053711,
+      "epoch": 0.7093333333333334,
+      "grad_norm": 2.8626461029052734,
+      "kl": 1.9747047825863486,
+      "learning_rate": 7.043686378203864e-07,
+      "loss": 0.0147,
+      "reward": 0.6368421217328624,
+      "reward_std": 0.37260342334446156,
+      "rewards/accuracy_reward": 0.6368421217328624,
+      "rewards/format_reward": 0.0,
+      "step": 280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.5772094726562,
+      "epoch": 0.722,
+      "grad_norm": 1.4815430641174316,
+      "kl": 2.7695633737664473,
+      "learning_rate": 6.487458033099425e-07,
+      "loss": 0.0412,
+      "reward": 0.5385965032012839,
+      "reward_std": 0.35034166982299403,
+      "rewards/accuracy_reward": 0.5385965032012839,
+      "rewards/format_reward": 0.0,
+      "step": 285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 645.3333529823705,
+      "epoch": 0.7346666666666667,
+      "grad_norm": 0.6981754302978516,
+      "kl": 2.3487503854851974,
+      "learning_rate": 5.947987651349942e-07,
+      "loss": 0.0472,
+      "reward": 0.566666682927232,
+      "reward_std": 0.3772305058805566,
+      "rewards/accuracy_reward": 0.566666682927232,
+      "rewards/format_reward": 0.0,
+      "step": 290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.3684377569901,
+      "epoch": 0.7473333333333333,
+      "grad_norm": 2.056654214859009,
+      "kl": 2.483375308388158,
+      "learning_rate": 5.426337245327703e-07,
+      "loss": 0.0787,
+      "reward": 0.5491228204024465,
+      "reward_std": 0.3359477874479796,
+      "rewards/accuracy_reward": 0.5491228204024465,
+      "rewards/format_reward": 0.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.973532497882843,
+      "learning_rate": 4.923533746638108e-07,
+      "loss": 0.0014,
+      "step": 300
+    },
+    {
+      "epoch": 0.76,
+      "eval_clip_ratio": 0.0,
+      "eval_completion_length": 579.6517157089233,
+      "eval_kl": 2.4090683868408203,
+      "eval_loss": 0.046611957252025604,
+      "eval_reward": 0.49193334555327894,
+      "eval_reward_std": 0.35773685903549196,
+      "eval_rewards/accuracy_reward": 0.49193334555327894,
+      "eval_rewards/format_reward": 0.0,
+      "eval_runtime": 94754.8266,
+      "eval_samples_per_second": 0.053,
+      "eval_steps_per_second": 0.009,
+      "step": 300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.8903664036801,
+      "epoch": 0.7726666666666666,
+      "grad_norm": 0.28998905420303345,
+      "kl": 1.3069589715254935,
+      "learning_rate": 4.440566984481256e-07,
+      "loss": 0.0171,
+      "reward": 0.6210526459311184,
+      "reward_std": 0.34825076147129663,
+      "rewards/accuracy_reward": 0.6210526459311184,
+      "rewards/format_reward": 0.0,
+      "step": 305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.7473841616982,
+      "epoch": 0.7853333333333333,
+      "grad_norm": 0.46500492095947266,
+      "kl": 1.2823197214226973,
+      "learning_rate": 3.978387737053994e-07,
+      "loss": 0.0136,
+      "reward": 0.5666666805744172,
+      "reward_std": 0.32507625222206116,
+      "rewards/accuracy_reward": 0.5666666805744172,
+      "rewards/format_reward": 0.0,
+      "step": 310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.5772081877055,
+      "epoch": 0.798,
+      "grad_norm": 0.40139040350914,
+      "kl": 1.015325927734375,
+      "learning_rate": 3.5379058598286167e-07,
+      "loss": -0.0158,
+      "reward": 0.5438596634488356,
+      "reward_std": 0.3694023759741532,
+      "rewards/accuracy_reward": 0.5438596634488356,
+      "rewards/format_reward": 0.0,
+      "step": 315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.957911119963,
+      "epoch": 0.8106666666666666,
+      "grad_norm": 1.3908910751342773,
+      "kl": 1.2546104029605263,
+      "learning_rate": 3.119988494392894e-07,
+      "loss": 0.0289,
+      "reward": 0.6508772078313325,
+      "reward_std": 0.3327888513866224,
+      "rewards/accuracy_reward": 0.6508772078313325,
+      "rewards/format_reward": 0.0,
+      "step": 320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.7333484850432,
+      "epoch": 0.8233333333333334,
+      "grad_norm": 4.380345344543457,
+      "kl": 418.79378180252877,
+      "learning_rate": 2.725458361377465e-07,
+      "loss": 15.2043,
+      "reward": 0.608771941379497,
+      "reward_std": 0.34012960415137444,
+      "rewards/accuracy_reward": 0.608771941379497,
+      "rewards/format_reward": 0.0,
+      "step": 325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 634.2175588507401,
+      "epoch": 0.836,
+      "grad_norm": 6.396597862243652,
+      "kl": 1.1365401418585526,
+      "learning_rate": 2.3550921408312737e-07,
+      "loss": 0.0132,
+      "reward": 0.5859649261361675,
+      "reward_std": 0.34545827006038865,
+      "rewards/accuracy_reward": 0.5859649261361675,
+      "rewards/format_reward": 0.0,
+      "step": 330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.2140493292558,
+      "epoch": 0.8486666666666667,
+      "grad_norm": 0.9369886517524719,
+      "kl": 1.5584103232935855,
+      "learning_rate": 2.0096189432334195e-07,
+      "loss": 0.0201,
+      "reward": 0.6035087874061182,
+      "reward_std": 0.3459035368342149,
+      "rewards/accuracy_reward": 0.6035087874061182,
+      "rewards/format_reward": 0.0,
+      "step": 335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.8245766087582,
+      "epoch": 0.8613333333333333,
+      "grad_norm": 0.42530328035354614,
+      "kl": 1.4711069207442433,
+      "learning_rate": 1.6897188741514286e-07,
+      "loss": 0.0519,
+      "reward": 0.575438610503548,
+      "reward_std": 0.3146836676095661,
+      "rewards/accuracy_reward": 0.575438610503548,
+      "rewards/format_reward": 0.0,
+      "step": 340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.3737000314812,
+      "epoch": 0.874,
+      "grad_norm": 0.3861980140209198,
+      "kl": 1.7285689504523025,
+      "learning_rate": 1.396021695371582e-07,
+      "loss": -0.0088,
+      "reward": 0.6385965082206224,
+      "reward_std": 0.37675155840421976,
+      "rewards/accuracy_reward": 0.6385965082206224,
+      "rewards/format_reward": 0.0,
+      "step": 345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 629.012297941509,
+      "epoch": 0.8866666666666667,
+      "grad_norm": 4.221518039703369,
+      "kl": 1.9362998560855262,
+      "learning_rate": 1.1291055851370623e-07,
+      "loss": 0.056,
+      "reward": 0.582456154886045,
+      "reward_std": 0.38160365223884585,
+      "rewards/accuracy_reward": 0.582456154886045,
+      "rewards/format_reward": 0.0,
+      "step": 350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.6280856483861,
+      "epoch": 0.8993333333333333,
+      "grad_norm": 2.3517720699310303,
+      "kl": 1.8255171926398026,
+      "learning_rate": 8.894959999345015e-08,
+      "loss": 0.0361,
+      "reward": 0.5754386076801702,
+      "reward_std": 0.34303222267251265,
+      "rewards/accuracy_reward": 0.5754386076801702,
+      "rewards/format_reward": 0.0,
+      "step": 355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 629.0754549528423,
+      "epoch": 0.912,
+      "grad_norm": 1.3438383340835571,
+      "kl": 1.5210680509868422,
+      "learning_rate": 6.776646400696212e-08,
+      "loss": 0.0234,
+      "reward": 0.5789473809693989,
+      "reward_std": 0.3563298034040551,
+      "rewards/accuracy_reward": 0.5789473809693989,
+      "rewards/format_reward": 0.0,
+      "step": 360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.6263320119757,
+      "epoch": 0.9246666666666666,
+      "grad_norm": 1.6730248928070068,
+      "kl": 3.8371864720394737,
+      "learning_rate": 4.940285210684375e-08,
+      "loss": 0.075,
+      "reward": 0.6596491382310264,
+      "reward_std": 0.3641158220015074,
+      "rewards/accuracy_reward": 0.6596491382310264,
+      "rewards/format_reward": 0.0,
+      "step": 365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 634.8017714651007,
+      "epoch": 0.9373333333333334,
+      "grad_norm": 0.6605441570281982,
+      "kl": 1.9925395764802631,
+      "learning_rate": 3.389491527319999e-08,
+      "loss": 0.0375,
+      "reward": 0.6578947547234987,
+      "reward_std": 0.41116404282419305,
+      "rewards/accuracy_reward": 0.6578947547234987,
+      "rewards/format_reward": 0.0,
+      "step": 370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.2000179893092,
+      "epoch": 0.95,
+      "grad_norm": 1.5404088497161865,
+      "kl": 1.4656384919819079,
+      "learning_rate": 2.127318274608381e-08,
+      "loss": 0.0059,
+      "reward": 0.5789473817536706,
+      "reward_std": 0.350234569060175,
+      "rewards/accuracy_reward": 0.5789473817536706,
+      "rewards/format_reward": 0.0,
+      "step": 375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.8017702604595,
+      "epoch": 0.9626666666666667,
+      "grad_norm": 2.143493175506592,
+      "kl": 1.3233176783511513,
+      "learning_rate": 1.1562501925013125e-08,
+      "loss": 0.0301,
+      "reward": 0.6631579116771096,
+      "reward_std": 0.3379683045964492,
+      "rewards/accuracy_reward": 0.6631579116771096,
+      "rewards/format_reward": 0.0,
+      "step": 380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.8175617418791,
+      "epoch": 0.9753333333333334,
+      "grad_norm": 0.5864923596382141,
+      "kl": 1.3502071982935855,
+      "learning_rate": 4.781989453874814e-09,
+      "loss": 0.0052,
+      "reward": 0.5807017691825566,
+      "reward_std": 0.3575416382990385,
+      "rewards/accuracy_reward": 0.5807017691825566,
+      "rewards/format_reward": 0.0,
+      "step": 385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 612.1122984233656,
+      "epoch": 0.988,
+      "grad_norm": 0.3266775906085968,
+      "kl": 1.6176237407483554,
+      "learning_rate": 9.44993587509657e-10,
+      "loss": 0.0364,
+      "reward": 0.5947368560652984,
+      "reward_std": 0.300396885683662,
+      "rewards/accuracy_reward": 0.5947368560652984,
+      "rewards/format_reward": 0.0,
+      "step": 390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 612.8508915148283,
+      "epoch": 0.9981333333333333,
+      "kl": 1.1464434171977795,
+      "reward": 0.603070187529451,
+      "reward_std": 0.27440278663447026,
+      "rewards/accuracy_reward": 0.603070187529451,
       "rewards/format_reward": 0.0,
+      "step": 394,
       "total_flos": 0.0,
+      "train_loss": 0.2665646580783036,
+      "train_runtime": 484901.6937,
+      "train_samples_per_second": 0.015,
       "train_steps_per_second": 0.001
     }
   ],
   "logging_steps": 5,
+  "max_steps": 394,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b96515b2f249966954c886884a845d62fb82eb793b98e31490e2eebeff1e8f8
 size 8056

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae203872f9a89bc16deefba33d39589ccc25f8f69f4ffa2bb08e6a0560638856
 size 8056