Model save

Browse files

Files changed (5) hide show

README.md +67 -0
all_results.json +8 -0
generation_config.json +6 -0
train_results.json +8 -0
trainer_state.json +1417 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+model_name: Qwen2.5-3B-GRPO-Natural-Reasoning-stage-2
+tags:
+- generated_from_trainer
+- trl
+- grpo
+licence: license
+---
+# Model Card for Qwen2.5-3B-GRPO-Natural-Reasoning-stage-2
+This model is a fine-tuned version of [None](https://huggingface.co/None).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="qingyangzhang/Qwen2.5-3B-GRPO-Natural-Reasoning-stage-2", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/zqyoung1127-tianjin-university/huggingface/runs/7xqfcts4)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.14.0
+- Transformers: 4.48.3
+- Pytorch: 2.5.1
+- Datasets: 3.1.0
+- Tokenizers: 0.21.0
+## Citations
+Cite GRPO as:
+```bibtex
+@article{zhihong2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 1.7134473857538523e-08,
+    "train_runtime": 32762.3532,
+    "train_samples": 12058,
+    "train_samples_per_second": 0.368,
+    "train_steps_per_second": 0.004
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.48.3"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 1.7134473857538523e-08,
+    "train_runtime": 32762.3532,
+    "train_samples": 12058,
+    "train_samples_per_second": 0.368,
+    "train_steps_per_second": 0.004
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1417 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9950248756218906,
+  "eval_steps": 100,
+  "global_step": 125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 503.19444847106934,
+      "epoch": 0.007960199004975124,
+      "grad_norm": 0.0063313147984445095,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4730902863666415,
+      "reward_std": 0.19683137070387602,
+      "rewards/accuracy_reward": 0.4730902863666415,
+      "step": 1
+    },
+    {
+      "completion_length": 484.8585090637207,
+      "epoch": 0.015920398009950248,
+      "grad_norm": 0.007317787501960993,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4809027840383351,
+      "reward_std": 0.18855627719312906,
+      "rewards/accuracy_reward": 0.4809027840383351,
+      "step": 2
+    },
+    {
+      "completion_length": 491.93663787841797,
+      "epoch": 0.023880597014925373,
+      "grad_norm": 0.010451268404722214,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4279513950459659,
+      "reward_std": 0.21083470317535102,
+      "rewards/accuracy_reward": 0.4279513950459659,
+      "step": 3
+    },
+    {
+      "completion_length": 463.2604236602783,
+      "epoch": 0.031840796019900496,
+      "grad_norm": 0.005912041291594505,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4904513908550143,
+      "reward_std": 0.18155438522808254,
+      "rewards/accuracy_reward": 0.4904513908550143,
+      "step": 4
+    },
+    {
+      "completion_length": 464.4531307220459,
+      "epoch": 0.03980099502487562,
+      "grad_norm": 0.006213425658643246,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.508680566214025,
+      "reward_std": 0.19439041009172797,
+      "rewards/accuracy_reward": 0.508680566214025,
+      "step": 5
+    },
+    {
+      "completion_length": 444.0486183166504,
+      "epoch": 0.04776119402985075,
+      "grad_norm": 0.00726802833378315,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5290798731148243,
+      "reward_std": 0.16257907613180578,
+      "rewards/accuracy_reward": 0.5290798731148243,
+      "step": 6
+    },
+    {
+      "completion_length": 486.56163215637207,
+      "epoch": 0.05572139303482587,
+      "grad_norm": 0.00643517728894949,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.49262153543531895,
+      "reward_std": 0.21985508035868406,
+      "rewards/accuracy_reward": 0.49262153543531895,
+      "step": 7
+    },
+    {
+      "completion_length": 499.3489570617676,
+      "epoch": 0.06368159203980099,
+      "grad_norm": 0.006929068360477686,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.48090278450399637,
+      "reward_std": 0.2359681366942823,
+      "rewards/accuracy_reward": 0.48090278450399637,
+      "step": 8
+    },
+    {
+      "completion_length": 460.5434055328369,
+      "epoch": 0.07164179104477612,
+      "grad_norm": 0.006942449603229761,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5460069458931684,
+      "reward_std": 0.20838687336072326,
+      "rewards/accuracy_reward": 0.5460069458931684,
+      "step": 9
+    },
+    {
+      "completion_length": 482.6258773803711,
+      "epoch": 0.07960199004975124,
+      "grad_norm": 0.006102504674345255,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5121527821756899,
+      "reward_std": 0.21228309627622366,
+      "rewards/accuracy_reward": 0.5121527821756899,
+      "step": 10
+    },
+    {
+      "completion_length": 472.4791660308838,
+      "epoch": 0.08756218905472637,
+      "grad_norm": 0.006756069138646126,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5095486273057759,
+      "reward_std": 0.19290994992479682,
+      "rewards/accuracy_reward": 0.5095486273057759,
+      "step": 11
+    },
+    {
+      "completion_length": 458.9878520965576,
+      "epoch": 0.0955223880597015,
+      "grad_norm": 0.00719108572229743,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4908854253590107,
+      "reward_std": 0.2253248537890613,
+      "rewards/accuracy_reward": 0.4908854253590107,
+      "step": 12
+    },
+    {
+      "completion_length": 492.2612934112549,
+      "epoch": 0.10348258706467661,
+      "grad_norm": 0.01182724628597498,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5069444486871362,
+      "reward_std": 0.1993837202899158,
+      "rewards/accuracy_reward": 0.5069444486871362,
+      "step": 13
+    },
+    {
+      "completion_length": 480.2699718475342,
+      "epoch": 0.11144278606965174,
+      "grad_norm": 0.013605108484625816,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4383680592291057,
+      "reward_std": 0.19313253066502512,
+      "rewards/accuracy_reward": 0.4383680592291057,
+      "step": 14
+    },
+    {
+      "completion_length": 474.3836898803711,
+      "epoch": 0.11940298507462686,
+      "grad_norm": 0.005726557224988937,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5199652798473835,
+      "reward_std": 0.17557879141531885,
+      "rewards/accuracy_reward": 0.5199652798473835,
+      "step": 15
+    },
+    {
+      "completion_length": 479.70920753479004,
+      "epoch": 0.12736318407960198,
+      "grad_norm": 0.0056375423446297646,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5078125055879354,
+      "reward_std": 0.1571849612519145,
+      "rewards/accuracy_reward": 0.5078125055879354,
+      "step": 16
+    },
+    {
+      "completion_length": 482.3836860656738,
+      "epoch": 0.13532338308457711,
+      "grad_norm": 0.006233118008822203,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4396701483055949,
+      "reward_std": 0.169666429865174,
+      "rewards/accuracy_reward": 0.4396701483055949,
+      "step": 17
+    },
+    {
+      "completion_length": 461.2335090637207,
+      "epoch": 0.14328358208955225,
+      "grad_norm": 0.0069457427598536015,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5221354234963655,
+      "reward_std": 0.1818335736170411,
+      "rewards/accuracy_reward": 0.5221354234963655,
+      "step": 18
+    },
+    {
+      "completion_length": 497.4105911254883,
+      "epoch": 0.15124378109452735,
+      "grad_norm": 0.005326431710273027,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.48437500186264515,
+      "reward_std": 0.1591769636142999,
+      "rewards/accuracy_reward": 0.48437500186264515,
+      "step": 19
+    },
+    {
+      "completion_length": 465.51562881469727,
+      "epoch": 0.15920398009950248,
+      "grad_norm": 0.006370695307850838,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5729166744276881,
+      "reward_std": 0.1838494308758527,
+      "rewards/accuracy_reward": 0.5729166744276881,
+      "step": 20
+    },
+    {
+      "completion_length": 456.2621555328369,
+      "epoch": 0.16716417910447762,
+      "grad_norm": 0.006426139269024134,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5256076417863369,
+      "reward_std": 0.17757255700416863,
+      "rewards/accuracy_reward": 0.5256076417863369,
+      "step": 21
+    },
+    {
+      "completion_length": 463.6510467529297,
+      "epoch": 0.17512437810945275,
+      "grad_norm": 0.006063092965632677,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.46831597946584225,
+      "reward_std": 0.17084068548865616,
+      "rewards/accuracy_reward": 0.46831597946584225,
+      "step": 22
+    },
+    {
+      "completion_length": 494.66666412353516,
+      "epoch": 0.18308457711442785,
+      "grad_norm": 0.0067391162738204,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4826388955116272,
+      "reward_std": 0.23759194742888212,
+      "rewards/accuracy_reward": 0.4826388955116272,
+      "step": 23
+    },
+    {
+      "completion_length": 450.75694847106934,
+      "epoch": 0.191044776119403,
+      "grad_norm": 0.0065076653845608234,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5755208358168602,
+      "reward_std": 0.20574828935787082,
+      "rewards/accuracy_reward": 0.5755208358168602,
+      "step": 24
+    },
+    {
+      "completion_length": 481.1545238494873,
+      "epoch": 0.19900497512437812,
+      "grad_norm": 0.05355783551931381,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.544704869389534,
+      "reward_std": 0.20792170939967036,
+      "rewards/accuracy_reward": 0.544704869389534,
+      "step": 25
+    },
+    {
+      "completion_length": 493.2404556274414,
+      "epoch": 0.20696517412935322,
+      "grad_norm": 0.005157908424735069,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4583333386108279,
+      "reward_std": 0.1656919487286359,
+      "rewards/accuracy_reward": 0.4583333386108279,
+      "step": 26
+    },
+    {
+      "completion_length": 462.6414966583252,
+      "epoch": 0.21492537313432836,
+      "grad_norm": 0.006888694129884243,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5611979179084301,
+      "reward_std": 0.1818527397699654,
+      "rewards/accuracy_reward": 0.5611979179084301,
+      "step": 27
+    },
+    {
+      "completion_length": 465.3498344421387,
+      "epoch": 0.2228855721393035,
+      "grad_norm": 0.006233619060367346,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5138888899236917,
+      "reward_std": 0.18008951703086495,
+      "rewards/accuracy_reward": 0.5138888899236917,
+      "step": 28
+    },
+    {
+      "completion_length": 491.0295162200928,
+      "epoch": 0.2308457711442786,
+      "grad_norm": 0.006753553636372089,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4531250037252903,
+      "reward_std": 0.1917171513196081,
+      "rewards/accuracy_reward": 0.4531250037252903,
+      "step": 29
+    },
+    {
+      "completion_length": 500.3993110656738,
+      "epoch": 0.23880597014925373,
+      "grad_norm": 0.007253080140799284,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4483507014811039,
+      "reward_std": 0.2557898717932403,
+      "rewards/accuracy_reward": 0.4483507014811039,
+      "step": 30
+    },
+    {
+      "completion_length": 470.89931297302246,
+      "epoch": 0.24676616915422886,
+      "grad_norm": 0.006938918959349394,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5329861100763083,
+      "reward_std": 0.20399011299014091,
+      "rewards/accuracy_reward": 0.5329861100763083,
+      "step": 31
+    },
+    {
+      "completion_length": 509.3090305328369,
+      "epoch": 0.25472636815920396,
+      "grad_norm": 0.006779938004910946,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5164930569007993,
+      "reward_std": 0.20839094324037433,
+      "rewards/accuracy_reward": 0.5164930569007993,
+      "step": 32
+    },
+    {
+      "completion_length": 474.19010734558105,
+      "epoch": 0.2626865671641791,
+      "grad_norm": 0.018072878941893578,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5529513955116272,
+      "reward_std": 0.23518243874423206,
+      "rewards/accuracy_reward": 0.5529513955116272,
+      "step": 33
+    },
+    {
+      "completion_length": 467.2725715637207,
+      "epoch": 0.27064676616915423,
+      "grad_norm": 0.006513183005154133,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5225694482214749,
+      "reward_std": 0.17238700040616095,
+      "rewards/accuracy_reward": 0.5225694482214749,
+      "step": 34
+    },
+    {
+      "completion_length": 464.1111145019531,
+      "epoch": 0.27860696517412936,
+      "grad_norm": 0.006131773814558983,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.475260422565043,
+      "reward_std": 0.17684485344216228,
+      "rewards/accuracy_reward": 0.475260422565043,
+      "step": 35
+    },
+    {
+      "completion_length": 479.2005214691162,
+      "epoch": 0.2865671641791045,
+      "grad_norm": 0.006053759716451168,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5112847229465842,
+      "reward_std": 0.16745366132818162,
+      "rewards/accuracy_reward": 0.5112847229465842,
+      "step": 36
+    },
+    {
+      "completion_length": 474.2795162200928,
+      "epoch": 0.2945273631840796,
+      "grad_norm": 0.006722339428961277,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5043402817100286,
+      "reward_std": 0.1968160946853459,
+      "rewards/accuracy_reward": 0.5043402817100286,
+      "step": 37
+    },
+    {
+      "completion_length": 494.92275047302246,
+      "epoch": 0.3024875621890547,
+      "grad_norm": 0.006237765308469534,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4839409776031971,
+      "reward_std": 0.196247041458264,
+      "rewards/accuracy_reward": 0.4839409776031971,
+      "step": 38
+    },
+    {
+      "completion_length": 467.1024341583252,
+      "epoch": 0.31044776119402984,
+      "grad_norm": 0.005437185522168875,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4986979286186397,
+      "reward_std": 0.14949205331504345,
+      "rewards/accuracy_reward": 0.4986979286186397,
+      "step": 39
+    },
+    {
+      "completion_length": 500.1310806274414,
+      "epoch": 0.31840796019900497,
+      "grad_norm": 0.006678381934762001,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5742187593132257,
+      "reward_std": 0.2146851746365428,
+      "rewards/accuracy_reward": 0.5742187593132257,
+      "step": 40
+    },
+    {
+      "completion_length": 501.9566059112549,
+      "epoch": 0.3263681592039801,
+      "grad_norm": 0.006126942578703165,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.47439236333593726,
+      "reward_std": 0.185034736758098,
+      "rewards/accuracy_reward": 0.47439236333593726,
+      "step": 41
+    },
+    {
+      "completion_length": 442.15538787841797,
+      "epoch": 0.33432835820895523,
+      "grad_norm": 0.006063259672373533,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5737847294658422,
+      "reward_std": 0.16276894812472165,
+      "rewards/accuracy_reward": 0.5737847294658422,
+      "step": 42
+    },
+    {
+      "completion_length": 480.30816078186035,
+      "epoch": 0.34228855721393037,
+      "grad_norm": 0.035705793648958206,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5386284776031971,
+      "reward_std": 0.2133699539117515,
+      "rewards/accuracy_reward": 0.5386284776031971,
+      "step": 43
+    },
+    {
+      "completion_length": 477.8211860656738,
+      "epoch": 0.3502487562189055,
+      "grad_norm": 0.007010245230048895,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4769965298473835,
+      "reward_std": 0.17710949736647308,
+      "rewards/accuracy_reward": 0.4769965298473835,
+      "step": 44
+    },
+    {
+      "completion_length": 462.7925453186035,
+      "epoch": 0.3582089552238806,
+      "grad_norm": 0.007418088149279356,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5724826455116272,
+      "reward_std": 0.2099497839808464,
+      "rewards/accuracy_reward": 0.5724826455116272,
+      "step": 45
+    },
+    {
+      "completion_length": 470.4783020019531,
+      "epoch": 0.3661691542288557,
+      "grad_norm": 0.007191660813987255,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5125868069007993,
+      "reward_std": 0.19454265222884715,
+      "rewards/accuracy_reward": 0.5125868069007993,
+      "step": 46
+    },
+    {
+      "completion_length": 470.67709159851074,
+      "epoch": 0.37412935323383084,
+      "grad_norm": 0.006237688474357128,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5516493115574121,
+      "reward_std": 0.1919041178189218,
+      "rewards/accuracy_reward": 0.5516493115574121,
+      "step": 47
+    },
+    {
+      "completion_length": 467.4557342529297,
+      "epoch": 0.382089552238806,
+      "grad_norm": 0.005811754148453474,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4904513917863369,
+      "reward_std": 0.1371547463349998,
+      "rewards/accuracy_reward": 0.4904513917863369,
+      "step": 48
+    },
+    {
+      "completion_length": 465.5026092529297,
+      "epoch": 0.3900497512437811,
+      "grad_norm": 0.02730730175971985,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.47222222574055195,
+      "reward_std": 0.17791698593646288,
+      "rewards/accuracy_reward": 0.47222222574055195,
+      "step": 49
+    },
+    {
+      "completion_length": 478.4783020019531,
+      "epoch": 0.39800995024875624,
+      "grad_norm": 0.0069628264755010605,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.46788195008412004,
+      "reward_std": 0.1892542012501508,
+      "rewards/accuracy_reward": 0.46788195008412004,
+      "step": 50
+    },
+    {
+      "completion_length": 468.75087547302246,
+      "epoch": 0.4059701492537313,
+      "grad_norm": 0.008021087385714054,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4926215335726738,
+      "reward_std": 0.22644896060228348,
+      "rewards/accuracy_reward": 0.4926215335726738,
+      "step": 51
+    },
+    {
+      "completion_length": 498.5251808166504,
+      "epoch": 0.41393034825870645,
+      "grad_norm": 0.0064814710058271885,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.49218750232830644,
+      "reward_std": 0.17422490078024566,
+      "rewards/accuracy_reward": 0.49218750232830644,
+      "step": 52
+    },
+    {
+      "completion_length": 482.2578182220459,
+      "epoch": 0.4218905472636816,
+      "grad_norm": 0.005841956939548254,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4978298582136631,
+      "reward_std": 0.1794568970799446,
+      "rewards/accuracy_reward": 0.4978298582136631,
+      "step": 53
+    },
+    {
+      "completion_length": 470.75,
+      "epoch": 0.4298507462686567,
+      "grad_norm": 0.006833434570580721,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5460069440305233,
+      "reward_std": 0.17903496301732957,
+      "rewards/accuracy_reward": 0.5460069440305233,
+      "step": 54
+    },
+    {
+      "completion_length": 468.85677337646484,
+      "epoch": 0.43781094527363185,
+      "grad_norm": 0.05871806666254997,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5507812574505806,
+      "reward_std": 0.17186261457391083,
+      "rewards/accuracy_reward": 0.5507812574505806,
+      "step": 55
+    },
+    {
+      "completion_length": 446.83854484558105,
+      "epoch": 0.445771144278607,
+      "grad_norm": 0.006716958247125149,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5321180680766702,
+      "reward_std": 0.1578453336842358,
+      "rewards/accuracy_reward": 0.5321180680766702,
+      "step": 56
+    },
+    {
+      "completion_length": 449.37153244018555,
+      "epoch": 0.4537313432835821,
+      "grad_norm": 0.006345037836581469,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.547309035435319,
+      "reward_std": 0.1532673817127943,
+      "rewards/accuracy_reward": 0.547309035435319,
+      "step": 57
+    },
+    {
+      "completion_length": 466.7022590637207,
+      "epoch": 0.4616915422885572,
+      "grad_norm": 0.010852845385670662,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5611979253590107,
+      "reward_std": 0.1392110399901867,
+      "rewards/accuracy_reward": 0.5611979253590107,
+      "step": 58
+    },
+    {
+      "completion_length": 474.2534770965576,
+      "epoch": 0.4696517412935323,
+      "grad_norm": 0.006359429098665714,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.476562503259629,
+      "reward_std": 0.17301563546061516,
+      "rewards/accuracy_reward": 0.476562503259629,
+      "step": 59
+    },
+    {
+      "completion_length": 451.5312557220459,
+      "epoch": 0.47761194029850745,
+      "grad_norm": 0.007138302084058523,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.45269097946584225,
+      "reward_std": 0.19592578150331974,
+      "rewards/accuracy_reward": 0.45269097946584225,
+      "step": 60
+    },
+    {
+      "completion_length": 474.8932342529297,
+      "epoch": 0.4855721393034826,
+      "grad_norm": 0.006120054051280022,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4661458348855376,
+      "reward_std": 0.1684757302282378,
+      "rewards/accuracy_reward": 0.4661458348855376,
+      "step": 61
+    },
+    {
+      "completion_length": 469.56510734558105,
+      "epoch": 0.4935323383084577,
+      "grad_norm": 0.006903901230543852,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5125868087634444,
+      "reward_std": 0.20010435581207275,
+      "rewards/accuracy_reward": 0.5125868087634444,
+      "step": 62
+    },
+    {
+      "completion_length": 453.6145877838135,
+      "epoch": 0.5014925373134328,
+      "grad_norm": 0.0065674264915287495,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5347222294658422,
+      "reward_std": 0.14352841977961361,
+      "rewards/accuracy_reward": 0.5347222294658422,
+      "step": 63
+    },
+    {
+      "completion_length": 452.13455390930176,
+      "epoch": 0.5094527363184079,
+      "grad_norm": 0.006244272459298372,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5711805606260896,
+      "reward_std": 0.18628281145356596,
+      "rewards/accuracy_reward": 0.5711805606260896,
+      "step": 64
+    },
+    {
+      "completion_length": 453.6111125946045,
+      "epoch": 0.5174129353233831,
+      "grad_norm": 0.005630127154290676,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5633680566679686,
+      "reward_std": 0.13176781288348138,
+      "rewards/accuracy_reward": 0.5633680566679686,
+      "step": 65
+    },
+    {
+      "completion_length": 454.0685787200928,
+      "epoch": 0.5253731343283582,
+      "grad_norm": 0.006047699134796858,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5169270820915699,
+      "reward_std": 0.17424573958851397,
+      "rewards/accuracy_reward": 0.5169270820915699,
+      "step": 66
+    },
+    {
+      "completion_length": 467.2552089691162,
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.005964316893368959,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5078125037252903,
+      "reward_std": 0.1600186654832214,
+      "rewards/accuracy_reward": 0.5078125037252903,
+      "step": 67
+    },
+    {
+      "completion_length": 475.27604484558105,
+      "epoch": 0.5412935323383085,
+      "grad_norm": 0.007332879584282637,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5798611175268888,
+      "reward_std": 0.21456625079736114,
+      "rewards/accuracy_reward": 0.5798611175268888,
+      "step": 68
+    },
+    {
+      "completion_length": 457.26041984558105,
+      "epoch": 0.5492537313432836,
+      "grad_norm": 0.006759831681847572,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.48784722620621324,
+      "reward_std": 0.17781772650778294,
+      "rewards/accuracy_reward": 0.48784722620621324,
+      "step": 69
+    },
+    {
+      "completion_length": 449.7126770019531,
+      "epoch": 0.5572139303482587,
+      "grad_norm": 0.006766649428755045,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4978298647329211,
+      "reward_std": 0.1652932451106608,
+      "rewards/accuracy_reward": 0.4978298647329211,
+      "step": 70
+    },
+    {
+      "completion_length": 487.57726097106934,
+      "epoch": 0.5651741293532339,
+      "grad_norm": 0.007064457051455975,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4340277826413512,
+      "reward_std": 0.15119286242406815,
+      "rewards/accuracy_reward": 0.4340277826413512,
+      "step": 71
+    },
+    {
+      "completion_length": 425.9496593475342,
+      "epoch": 0.573134328358209,
+      "grad_norm": 0.007826046086847782,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5941840391606092,
+      "reward_std": 0.1813936980906874,
+      "rewards/accuracy_reward": 0.5941840391606092,
+      "step": 72
+    },
+    {
+      "completion_length": 469.32900047302246,
+      "epoch": 0.5810945273631841,
+      "grad_norm": 0.0057061235420405865,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5503472303971648,
+      "reward_std": 0.1599263979587704,
+      "rewards/accuracy_reward": 0.5503472303971648,
+      "step": 73
+    },
+    {
+      "completion_length": 420.5616340637207,
+      "epoch": 0.5890547263681593,
+      "grad_norm": 0.0060322158969938755,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.6349826510995626,
+      "reward_std": 0.14059699326753616,
+      "rewards/accuracy_reward": 0.6349826510995626,
+      "step": 74
+    },
+    {
+      "completion_length": 433.3845520019531,
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.00608411431312561,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5863715335726738,
+      "reward_std": 0.1365173237863928,
+      "rewards/accuracy_reward": 0.5863715335726738,
+      "step": 75
+    },
+    {
+      "completion_length": 438.9913215637207,
+      "epoch": 0.6049751243781094,
+      "grad_norm": 0.010838707908987999,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4947916679084301,
+      "reward_std": 0.16913633281365037,
+      "rewards/accuracy_reward": 0.4947916679084301,
+      "step": 76
+    },
+    {
+      "completion_length": 436.12413787841797,
+      "epoch": 0.6129353233830845,
+      "grad_norm": 0.0062843686901032925,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5416666697710752,
+      "reward_std": 0.13451572181656957,
+      "rewards/accuracy_reward": 0.5416666697710752,
+      "step": 77
+    },
+    {
+      "completion_length": 434.7196216583252,
+      "epoch": 0.6208955223880597,
+      "grad_norm": 0.007163195870816708,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5685763917863369,
+      "reward_std": 0.16896466561593115,
+      "rewards/accuracy_reward": 0.5685763917863369,
+      "step": 78
+    },
+    {
+      "completion_length": 425.51388931274414,
+      "epoch": 0.6288557213930348,
+      "grad_norm": 0.007178325206041336,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5069444458931684,
+      "reward_std": 0.17618598695844412,
+      "rewards/accuracy_reward": 0.5069444458931684,
+      "step": 79
+    },
+    {
+      "completion_length": 447.2517433166504,
+      "epoch": 0.6368159203980099,
+      "grad_norm": 0.00694573950022459,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5230034776031971,
+      "reward_std": 0.1816186774522066,
+      "rewards/accuracy_reward": 0.5230034776031971,
+      "step": 80
+    },
+    {
+      "completion_length": 440.2196235656738,
+      "epoch": 0.6447761194029851,
+      "grad_norm": 0.0065235113725066185,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.596354179084301,
+      "reward_std": 0.1535110066179186,
+      "rewards/accuracy_reward": 0.596354179084301,
+      "step": 81
+    },
+    {
+      "completion_length": 444.88368797302246,
+      "epoch": 0.6527363184079602,
+      "grad_norm": 0.006391232833266258,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5659722285345197,
+      "reward_std": 0.15076033398509026,
+      "rewards/accuracy_reward": 0.5659722285345197,
+      "step": 82
+    },
+    {
+      "completion_length": 455.1119842529297,
+      "epoch": 0.6606965174129353,
+      "grad_norm": 0.005797598976641893,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5381944524124265,
+      "reward_std": 0.14913518843241036,
+      "rewards/accuracy_reward": 0.5381944524124265,
+      "step": 83
+    },
+    {
+      "completion_length": 454.94879150390625,
+      "epoch": 0.6686567164179105,
+      "grad_norm": 0.006953164003789425,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5164930578321218,
+      "reward_std": 0.16644407669082284,
+      "rewards/accuracy_reward": 0.5164930578321218,
+      "step": 84
+    },
+    {
+      "completion_length": 454.31945037841797,
+      "epoch": 0.6766169154228856,
+      "grad_norm": 0.006526515819132328,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5381944517139345,
+      "reward_std": 0.17874250491149724,
+      "rewards/accuracy_reward": 0.5381944517139345,
+      "step": 85
+    },
+    {
+      "completion_length": 413.63195037841797,
+      "epoch": 0.6845771144278607,
+      "grad_norm": 0.006882105953991413,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4709201497025788,
+      "reward_std": 0.15343356225639582,
+      "rewards/accuracy_reward": 0.4709201497025788,
+      "step": 86
+    },
+    {
+      "completion_length": 477.28386306762695,
+      "epoch": 0.6925373134328359,
+      "grad_norm": 0.007171040400862694,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4626736184582114,
+      "reward_std": 0.17724345158785582,
+      "rewards/accuracy_reward": 0.4626736184582114,
+      "step": 87
+    },
+    {
+      "completion_length": 440.93230056762695,
+      "epoch": 0.700497512437811,
+      "grad_norm": 0.012264563702046871,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.539930559694767,
+      "reward_std": 0.2249910207465291,
+      "rewards/accuracy_reward": 0.539930559694767,
+      "step": 88
+    },
+    {
+      "completion_length": 446.6111183166504,
+      "epoch": 0.708457711442786,
+      "grad_norm": 0.007123625837266445,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5677083414047956,
+      "reward_std": 0.14550525438971817,
+      "rewards/accuracy_reward": 0.5677083414047956,
+      "step": 89
+    },
+    {
+      "completion_length": 443.06945419311523,
+      "epoch": 0.7164179104477612,
+      "grad_norm": 0.006765348371118307,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5434027817100286,
+      "reward_std": 0.14721272652968764,
+      "rewards/accuracy_reward": 0.5434027817100286,
+      "step": 90
+    },
+    {
+      "completion_length": 438.7204875946045,
+      "epoch": 0.7243781094527363,
+      "grad_norm": 0.007179305423051119,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5785590391606092,
+      "reward_std": 0.1922429515980184,
+      "rewards/accuracy_reward": 0.5785590391606092,
+      "step": 91
+    },
+    {
+      "completion_length": 435.45659828186035,
+      "epoch": 0.7323383084577114,
+      "grad_norm": 0.03627901151776314,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5690104262903333,
+      "reward_std": 0.20257419790141284,
+      "rewards/accuracy_reward": 0.5690104262903333,
+      "step": 92
+    },
+    {
+      "completion_length": 450.00347328186035,
+      "epoch": 0.7402985074626866,
+      "grad_norm": 0.0072410209104418755,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.45876736706122756,
+      "reward_std": 0.1358756278641522,
+      "rewards/accuracy_reward": 0.45876736706122756,
+      "step": 93
+    },
+    {
+      "completion_length": 445.3550338745117,
+      "epoch": 0.7482587064676617,
+      "grad_norm": 0.006944851018488407,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5486111212521791,
+      "reward_std": 0.14192489348351955,
+      "rewards/accuracy_reward": 0.5486111212521791,
+      "step": 94
+    },
+    {
+      "completion_length": 411.4861125946045,
+      "epoch": 0.7562189054726368,
+      "grad_norm": 0.007500652689486742,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5546875,
+      "reward_std": 0.16345718037337065,
+      "rewards/accuracy_reward": 0.5546875,
+      "step": 95
+    },
+    {
+      "completion_length": 434.6458377838135,
+      "epoch": 0.764179104477612,
+      "grad_norm": 0.008221461437642574,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5169270858168602,
+      "reward_std": 0.157486256910488,
+      "rewards/accuracy_reward": 0.5169270858168602,
+      "step": 96
+    },
+    {
+      "completion_length": 459.9088592529297,
+      "epoch": 0.7721393034825871,
+      "grad_norm": 0.008421896025538445,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4192708367481828,
+      "reward_std": 0.16910302848555148,
+      "rewards/accuracy_reward": 0.4192708367481828,
+      "step": 97
+    },
+    {
+      "completion_length": 441.1692752838135,
+      "epoch": 0.7800995024875622,
+      "grad_norm": 0.00576035724952817,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5894097305135801,
+      "reward_std": 0.09535378613509238,
+      "rewards/accuracy_reward": 0.5894097305135801,
+      "step": 98
+    },
+    {
+      "completion_length": 423.37239837646484,
+      "epoch": 0.7880597014925373,
+      "grad_norm": 0.007169231306761503,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5520833367481828,
+      "reward_std": 0.17009410122409463,
+      "rewards/accuracy_reward": 0.5520833367481828,
+      "step": 99
+    },
+    {
+      "completion_length": 447.38107681274414,
+      "epoch": 0.7960199004975125,
+      "grad_norm": 0.006430391687899828,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.478298619389534,
+      "reward_std": 0.1553269592113793,
+      "rewards/accuracy_reward": 0.478298619389534,
+      "step": 100
+    },
+    {
+      "completion_length": 434.5590305328369,
+      "epoch": 0.8039800995024876,
+      "grad_norm": 0.006948183756321669,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.6111111119389534,
+      "reward_std": 0.16623280476778746,
+      "rewards/accuracy_reward": 0.6111111119389534,
+      "step": 101
+    },
+    {
+      "completion_length": 438.5807304382324,
+      "epoch": 0.8119402985074626,
+      "grad_norm": 0.00873401015996933,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.554253475740552,
+      "reward_std": 0.12938219658099115,
+      "rewards/accuracy_reward": 0.554253475740552,
+      "step": 102
+    },
+    {
+      "completion_length": 440.63368225097656,
+      "epoch": 0.8199004975124378,
+      "grad_norm": 0.008209417574107647,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5355902817100286,
+      "reward_std": 0.15484802844002843,
+      "rewards/accuracy_reward": 0.5355902817100286,
+      "step": 103
+    },
+    {
+      "completion_length": 430.292537689209,
+      "epoch": 0.8278606965174129,
+      "grad_norm": 0.006974893156439066,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5351562616415322,
+      "reward_std": 0.15955675020813942,
+      "rewards/accuracy_reward": 0.5351562616415322,
+      "step": 104
+    },
+    {
+      "completion_length": 437.16406631469727,
+      "epoch": 0.835820895522388,
+      "grad_norm": 0.006820361595600843,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5325520914047956,
+      "reward_std": 0.13739590148907155,
+      "rewards/accuracy_reward": 0.5325520914047956,
+      "step": 105
+    },
+    {
+      "completion_length": 440.88281440734863,
+      "epoch": 0.8437810945273632,
+      "grad_norm": 0.007815063931047916,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5546875055879354,
+      "reward_std": 0.16753076948225498,
+      "rewards/accuracy_reward": 0.5546875055879354,
+      "step": 106
+    },
+    {
+      "completion_length": 440.1380310058594,
+      "epoch": 0.8517412935323383,
+      "grad_norm": 0.006534726824611425,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5225694496184587,
+      "reward_std": 0.14320432161912322,
+      "rewards/accuracy_reward": 0.5225694496184587,
+      "step": 107
+    },
+    {
+      "completion_length": 438.36284828186035,
+      "epoch": 0.8597014925373134,
+      "grad_norm": 0.008502320386469364,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5377604169771075,
+      "reward_std": 0.16942514828406274,
+      "rewards/accuracy_reward": 0.5377604169771075,
+      "step": 108
+    },
+    {
+      "completion_length": 433.4192771911621,
+      "epoch": 0.8676616915422886,
+      "grad_norm": 0.007831891067326069,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5112847285345197,
+      "reward_std": 0.1527788401581347,
+      "rewards/accuracy_reward": 0.5112847285345197,
+      "step": 109
+    },
+    {
+      "completion_length": 432.8906307220459,
+      "epoch": 0.8756218905472637,
+      "grad_norm": 0.007177690044045448,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5451388992369175,
+      "reward_std": 0.1557791151572019,
+      "rewards/accuracy_reward": 0.5451388992369175,
+      "step": 110
+    },
+    {
+      "completion_length": 444.034725189209,
+      "epoch": 0.8835820895522388,
+      "grad_norm": 0.007437328342348337,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5230034766718745,
+      "reward_std": 0.16494862362742424,
+      "rewards/accuracy_reward": 0.5230034766718745,
+      "step": 111
+    },
+    {
+      "completion_length": 431.6883716583252,
+      "epoch": 0.891542288557214,
+      "grad_norm": 0.007314461283385754,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5512152872979641,
+      "reward_std": 0.15400438173674047,
+      "rewards/accuracy_reward": 0.5512152872979641,
+      "step": 112
+    },
+    {
+      "completion_length": 417.52257347106934,
+      "epoch": 0.8995024875621891,
+      "grad_norm": 0.006493464577943087,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5915798712521791,
+      "reward_std": 0.10944067395757884,
+      "rewards/accuracy_reward": 0.5915798712521791,
+      "step": 113
+    },
+    {
+      "completion_length": 428.136287689209,
+      "epoch": 0.9074626865671642,
+      "grad_norm": 0.00739770894870162,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5920138908550143,
+      "reward_std": 0.14007845730520785,
+      "rewards/accuracy_reward": 0.5920138908550143,
+      "step": 114
+    },
+    {
+      "completion_length": 411.75086975097656,
+      "epoch": 0.9154228855721394,
+      "grad_norm": 0.012020394206047058,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5802951483055949,
+      "reward_std": 0.1439069788902998,
+      "rewards/accuracy_reward": 0.5802951483055949,
+      "step": 115
+    },
+    {
+      "completion_length": 440.9071216583252,
+      "epoch": 0.9233830845771144,
+      "grad_norm": 0.008760242722928524,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5147569524124265,
+      "reward_std": 0.18262152979150414,
+      "rewards/accuracy_reward": 0.5147569524124265,
+      "step": 116
+    },
+    {
+      "completion_length": 426.1597270965576,
+      "epoch": 0.9313432835820895,
+      "grad_norm": 0.008847164921462536,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5130208432674408,
+      "reward_std": 0.14971066592261195,
+      "rewards/accuracy_reward": 0.5130208432674408,
+      "step": 117
+    },
+    {
+      "completion_length": 403.698787689209,
+      "epoch": 0.9393034825870646,
+      "grad_norm": 0.00826039258390665,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5503472248092294,
+      "reward_std": 0.13589490437880158,
+      "rewards/accuracy_reward": 0.5503472248092294,
+      "step": 118
+    },
+    {
+      "completion_length": 430.99479484558105,
+      "epoch": 0.9472636815920398,
+      "grad_norm": 0.0083442572504282,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.4691840326413512,
+      "reward_std": 0.12581401481293142,
+      "rewards/accuracy_reward": 0.4691840326413512,
+      "step": 119
+    },
+    {
+      "completion_length": 428.2230930328369,
+      "epoch": 0.9552238805970149,
+      "grad_norm": 0.00736872386187315,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5703124995925464,
+      "reward_std": 0.13862833217717707,
+      "rewards/accuracy_reward": 0.5703124995925464,
+      "step": 120
+    },
+    {
+      "completion_length": 456.17274475097656,
+      "epoch": 0.96318407960199,
+      "grad_norm": 0.007083515170961618,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5169270895421505,
+      "reward_std": 0.1359748471295461,
+      "rewards/accuracy_reward": 0.5169270895421505,
+      "step": 121
+    },
+    {
+      "completion_length": 437.1475715637207,
+      "epoch": 0.9711442786069652,
+      "grad_norm": 0.012382179498672485,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5082465298473835,
+      "reward_std": 0.14862926630303264,
+      "rewards/accuracy_reward": 0.5082465298473835,
+      "step": 122
+    },
+    {
+      "completion_length": 423.105037689209,
+      "epoch": 0.9791044776119403,
+      "grad_norm": 0.0077844285406172276,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.514322922565043,
+      "reward_std": 0.14436206291429698,
+      "rewards/accuracy_reward": 0.514322922565043,
+      "step": 123
+    },
+    {
+      "completion_length": 408.1849002838135,
+      "epoch": 0.9870646766169154,
+      "grad_norm": 0.008202475495636463,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.5703125111758709,
+      "reward_std": 0.12822659336961806,
+      "rewards/accuracy_reward": 0.5703125111758709,
+      "step": 124
+    },
+    {
+      "completion_length": 402.60243797302246,
+      "epoch": 0.9950248756218906,
+      "grad_norm": 0.007635696791112423,
+      "learning_rate": 1e-06,
+      "loss": 0.0,
+      "reward": 0.6449652845039964,
+      "reward_std": 0.14181664236821234,
+      "rewards/accuracy_reward": 0.6449652845039964,
+      "step": 125
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "step": 125,
+      "total_flos": 0.0,
+      "train_loss": 1.7134473857538523e-08,
+      "train_runtime": 32762.3532,
+      "train_samples_per_second": 0.368,
+      "train_steps_per_second": 0.004
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}