Model save

Browse files

Files changed (10) hide show

README.md +3 -3
all_results.json +4 -4
config.json +10 -11
generation_config.json +5 -2
model.safetensors +3 -0
special_tokens_map.json +1 -1
tokenizer_config.json +1 -1
train_results.json +4 -4
trainer_state.json +461 -461
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Qwen/Qwen2.5-Math-7B
 library_name: transformers
 model_name: Qwen-2.5-7B-Simple-RL
 tags:
@@ -11,7 +11,7 @@ licence: license
 # Model Card for Qwen-2.5-7B-Simple-RL
-This model is a fine-tuned version of [Qwen/Qwen2.5-Math-7B](https://huggingface.co/Qwen/Qwen2.5-Math-7B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yinluu-cn/huggingface/runs/03s5hgsp)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ---
+base_model: Qwen/Qwen2.5-Math-1.5B-Instruct
 library_name: transformers
 model_name: Qwen-2.5-7B-Simple-RL
 tags:
 # Model Card for Qwen-2.5-7B-Simple-RL
+This model is a fine-tuned version of [Qwen/Qwen2.5-Math-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Math-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yinluu-cn/huggingface/runs/h7vr8p5k)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.06954928480375272,
-    "train_runtime": 34706.12,
     "train_samples": 7500,
-    "train_samples_per_second": 0.216,
-    "train_steps_per_second": 0.009
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.018009291775785804,
+    "train_runtime": 13979.803,
     "train_samples": 7500,
+    "train_samples_per_second": 0.536,
+    "train_steps_per_second": 0.022
 }

config.json CHANGED Viewed

@@ -1,30 +1,29 @@
 {
-  "_name_or_path": "Qwen/Qwen2.5-Math-7B",
   "architectures": [
     "Qwen2ForCausalLM"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
-  "eos_token_id": 151643,
   "hidden_act": "silu",
-  "hidden_size": 3584,
   "initializer_range": 0.02,
-  "intermediate_size": 18944,
   "max_position_embeddings": 4096,
-  "max_window_layers": 28,
   "model_type": "qwen2",
-  "num_attention_heads": 28,
   "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
-  "rope_theta": 10000,
   "sliding_window": 4096,
-  "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.49.0",
   "use_cache": false,
-  "use_mrope": false,
   "use_sliding_window": false,
-  "vocab_size": 152064
 }

 {
+  "_name_or_path": "Qwen/Qwen2.5-Math-1.5B-Instruct",
   "architectures": [
     "Qwen2ForCausalLM"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
+  "eos_token_id": 151645,
   "hidden_act": "silu",
+  "hidden_size": 1536,
   "initializer_range": 0.02,
+  "intermediate_size": 8960,
   "max_position_embeddings": 4096,
+  "max_window_layers": 21,
   "model_type": "qwen2",
+  "num_attention_heads": 12,
   "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
+  "rope_theta": 10000.0,
   "sliding_window": 4096,
+  "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.49.0",
   "use_cache": false,
   "use_sliding_window": false,
+  "vocab_size": 151936
 }

generation_config.json CHANGED Viewed

@@ -1,6 +1,9 @@
 {
   "bos_token_id": 151643,
-  "eos_token_id": 151643,
-  "max_new_tokens": 2048,
   "transformers_version": "4.49.0"
 }

 {
   "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
   "transformers_version": "4.49.0"
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7359282e727ae3eb613b036eef7f64a28cab27ec48f83ae15a48c9aad06468
+size 3087467144

special_tokens_map.json CHANGED Viewed

@@ -15,7 +15,7 @@
     "<|video_pad|>"
   ],
   "eos_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

     "<|video_pad|>"
   ],
   "eos_token": {
+    "content": "<|im_end|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer_config.json CHANGED Viewed

@@ -197,7 +197,7 @@
   "bos_token": null,
   "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'Please reason step by step, and put your final answer within \\\\boxed{}.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nPlease reason step by step, and put your final answer within \\\\boxed{}.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "<|endoftext|>",
   "errors": "replace",
   "extra_special_tokens": {},
   "model_max_length": 131072,

   "bos_token": null,
   "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'Please reason step by step, and put your final answer within \\\\boxed{}.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nPlease reason step by step, and put your final answer within \\\\boxed{}.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
   "model_max_length": 131072,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.06954928480375272,
-    "train_runtime": 34706.12,
     "train_samples": 7500,
-    "train_samples_per_second": 0.216,
-    "train_steps_per_second": 0.009
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.018009291775785804,
+    "train_runtime": 13979.803,
     "train_samples": 7500,
+    "train_samples_per_second": 0.536,
+    "train_steps_per_second": 0.022
 }

trainer_state.json CHANGED Viewed

@@ -10,925 +10,925 @@
   "log_history": [
     {
       "clip_ratio": 0.0,
-      "completion_length": 569.2916870117188,
       "epoch": 0.0032,
-      "grad_norm": 0.6810210347175598,
       "kl": 0.0,
       "learning_rate": 9.375e-08,
-      "loss": -0.0142,
-      "reward": 0.6250000149011612,
-      "reward_std": 0.28694797679781914,
-      "rewards/accuracy_reward": 0.6250000149011612,
       "rewards/format_reward": 0.0,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 589.1067867279053,
       "epoch": 0.016,
-      "grad_norm": 0.5563701391220093,
-      "kl": 0.00018343329429626465,
       "learning_rate": 4.6875e-07,
-      "loss": -0.0273,
-      "reward": 0.6406250172294676,
-      "reward_std": 0.3286146428436041,
-      "rewards/accuracy_reward": 0.6406250172294676,
       "rewards/format_reward": 0.0,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 589.9229347229004,
       "epoch": 0.032,
-      "grad_norm": 0.2431538701057434,
-      "kl": 0.00020442008972167968,
       "learning_rate": 9.375e-07,
-      "loss": -0.0048,
-      "reward": 0.6479166872799397,
-      "reward_std": 0.2744479771703482,
-      "rewards/accuracy_reward": 0.6479166872799397,
       "rewards/format_reward": 0.0,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 609.5458503723145,
       "epoch": 0.048,
-      "grad_norm": 0.9991121888160706,
-      "kl": 0.0006866693496704101,
       "learning_rate": 1.40625e-06,
-      "loss": 0.0165,
-      "reward": 0.6395833514630794,
-      "reward_std": 0.31963672377169133,
-      "rewards/accuracy_reward": 0.6395833514630794,
       "rewards/format_reward": 0.0,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 639.2354362487793,
       "epoch": 0.064,
-      "grad_norm": 1.0517014265060425,
-      "kl": 0.6095457077026367,
       "learning_rate": 1.875e-06,
-      "loss": -0.0132,
-      "reward": 0.6333333514630795,
-      "reward_std": 0.311947975680232,
-      "rewards/accuracy_reward": 0.6333333514630795,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 604.0208541870118,
       "epoch": 0.08,
-      "grad_norm": 0.4394618272781372,
-      "kl": 0.006474208831787109,
       "learning_rate": 2.3437500000000002e-06,
-      "loss": 0.0381,
-      "reward": 0.6479166842997074,
-      "reward_std": 0.22504628337919713,
-      "rewards/accuracy_reward": 0.6479166842997074,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 595.7833572387696,
       "epoch": 0.096,
-      "grad_norm": 7.958812236785889,
-      "kl": 0.017683982849121094,
       "learning_rate": 2.8125e-06,
-      "loss": 0.0652,
-      "reward": 0.7229166865348816,
-      "reward_std": 0.2058012742549181,
-      "rewards/accuracy_reward": 0.7229166865348816,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 620.6187690734863,
       "epoch": 0.112,
-      "grad_norm": 0.2736396789550781,
-      "kl": 0.006215381622314453,
       "learning_rate": 2.9991503375003e-06,
-      "loss": 0.0515,
-      "reward": 0.7458333507180214,
-      "reward_std": 0.18754628226161002,
-      "rewards/accuracy_reward": 0.7458333507180214,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 613.6250183105469,
       "epoch": 0.128,
-      "grad_norm": 0.28497475385665894,
-      "kl": 0.9405881881713867,
       "learning_rate": 2.993961440992859e-06,
-      "loss": 0.0365,
-      "reward": 0.7520833522081375,
-      "reward_std": 0.19394586011767387,
-      "rewards/accuracy_reward": 0.7520833522081375,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 599.8812660217285,
       "epoch": 0.144,
-      "grad_norm": 0.5031656622886658,
-      "kl": 0.005823993682861328,
       "learning_rate": 2.984071989079555e-06,
-      "loss": 0.0255,
-      "reward": 0.7500000139698386,
-      "reward_std": 0.16220085099339485,
-      "rewards/accuracy_reward": 0.7500000139698386,
       "rewards/format_reward": 0.0,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 597.2396011352539,
       "epoch": 0.16,
-      "grad_norm": 0.21613067388534546,
-      "kl": 0.0038125991821289064,
       "learning_rate": 2.9695130976348534e-06,
-      "loss": 0.0487,
-      "reward": 0.7708333551883697,
-      "reward_std": 0.17311252616345882,
-      "rewards/accuracy_reward": 0.7708333551883697,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 601.7229354858398,
       "epoch": 0.176,
-      "grad_norm": 1.0250929594039917,
-      "kl": 0.009112930297851563,
       "learning_rate": 2.9503305743175096e-06,
-      "loss": 0.0547,
-      "reward": 0.7187500186264515,
-      "reward_std": 0.20966878794133664,
-      "rewards/accuracy_reward": 0.7187500186264515,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.8396026611329,
       "epoch": 0.192,
-      "grad_norm": 0.30940911173820496,
-      "kl": 0.0079010009765625,
       "learning_rate": 2.9265847744427307e-06,
-      "loss": 0.0128,
-      "reward": 0.7854166835546493,
-      "reward_std": 0.17117876932024956,
-      "rewards/accuracy_reward": 0.7854166835546493,
       "rewards/format_reward": 0.0,
       "step": 60
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 538.6895942687988,
       "epoch": 0.208,
-      "grad_norm": 0.17191636562347412,
-      "kl": 0.0058624267578125,
       "learning_rate": 2.8983504110820214e-06,
-      "loss": 0.0163,
-      "reward": 0.8041666835546494,
-      "reward_std": 0.15163460709154605,
-      "rewards/accuracy_reward": 0.8041666835546494,
       "rewards/format_reward": 0.0,
       "step": 65
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 550.6395980834961,
       "epoch": 0.224,
-      "grad_norm": 0.4740332365036011,
-      "kl": 0.007071876525878906,
       "learning_rate": 2.865716319988224e-06,
-      "loss": 0.035,
-      "reward": 0.7979166805744171,
-      "reward_std": 0.15227919220924377,
-      "rewards/accuracy_reward": 0.7979166805744171,
       "rewards/format_reward": 0.0,
       "step": 70
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 578.7104339599609,
       "epoch": 0.24,
-      "grad_norm": 0.4841112196445465,
-      "kl": 0.005505561828613281,
       "learning_rate": 2.82878518008537e-06,
-      "loss": 0.0154,
-      "reward": 0.7520833503454923,
-      "reward_std": 0.15932335443794726,
-      "rewards/accuracy_reward": 0.7520833503454923,
       "rewards/format_reward": 0.0,
       "step": 75
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 570.0229293823243,
       "epoch": 0.256,
-      "grad_norm": 2.4007749557495117,
-      "kl": 2.4198307037353515,
       "learning_rate": 2.7876731904027993e-06,
-      "loss": 0.0991,
-      "reward": 0.7916666835546493,
-      "reward_std": 0.14682335481047631,
-      "rewards/accuracy_reward": 0.7916666835546493,
       "rewards/format_reward": 0.0,
       "step": 80
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 539.7104286193847,
       "epoch": 0.272,
-      "grad_norm": 0.5474560260772705,
-      "kl": 0.008501434326171875,
       "learning_rate": 2.7425097044700246e-06,
-      "loss": 0.0205,
-      "reward": 0.8125000163912773,
-      "reward_std": 0.16254628226161003,
-      "rewards/accuracy_reward": 0.8125000163912773,
       "rewards/format_reward": 0.0,
       "step": 85
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 608.4396018981934,
       "epoch": 0.288,
-      "grad_norm": 0.7235979437828064,
-      "kl": 0.33249053955078123,
       "learning_rate": 2.6934368233226715e-06,
-      "loss": 0.055,
-      "reward": 0.7354166839271784,
-      "reward_std": 0.17375711128115653,
-      "rewards/accuracy_reward": 0.7354166839271784,
       "rewards/format_reward": 0.0,
       "step": 90
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 570.7458480834961,
       "epoch": 0.304,
-      "grad_norm": 0.2708403766155243,
-      "kl": 0.007986068725585938,
       "learning_rate": 2.6406089484000465e-06,
-      "loss": 0.0253,
-      "reward": 0.7791666805744171,
-      "reward_std": 0.1433012720197439,
-      "rewards/accuracy_reward": 0.7791666805744171,
       "rewards/format_reward": 0.0,
       "step": 95
     },
     {
       "epoch": 0.32,
-      "grad_norm": 0.38377681374549866,
       "learning_rate": 2.584192295741087e-06,
-      "loss": 0.0363,
       "step": 100
     },
     {
       "epoch": 0.32,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 512.997021064073,
-      "eval_kl": 0.035927641177605725,
-      "eval_loss": 0.009229963645339012,
-      "eval_reward": 0.8156187802017806,
-      "eval_reward_std": 0.1942277729154347,
-      "eval_rewards/accuracy_reward": 0.8156187802017806,
       "eval_rewards/format_reward": 0.0,
-      "eval_runtime": 2950.3108,
-      "eval_samples_per_second": 0.339,
-      "eval_steps_per_second": 0.028,
       "step": 100
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 570.2916835784912,
       "epoch": 0.336,
-      "grad_norm": 0.5292491316795349,
-      "kl": 0.00650491714477539,
       "learning_rate": 2.5243643730072105e-06,
-      "loss": 0.0256,
-      "reward": 0.7666666842997074,
-      "reward_std": 0.17311252579092978,
-      "rewards/accuracy_reward": 0.7666666842997074,
       "rewards/format_reward": 0.0,
       "step": 105
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 570.495849609375,
       "epoch": 0.352,
-      "grad_norm": 0.30810341238975525,
-      "kl": 0.01353607177734375,
       "learning_rate": 2.461313420977536e-06,
-      "loss": 0.0062,
-      "reward": 0.7770833469927311,
-      "reward_std": 0.18913460709154606,
-      "rewards/accuracy_reward": 0.7770833469927311,
       "rewards/format_reward": 0.0,
       "step": 110
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 559.052098083496,
       "epoch": 0.368,
-      "grad_norm": 0.49775150418281555,
-      "kl": 0.007056427001953125,
       "learning_rate": 2.3952378212737554e-06,
-      "loss": 0.0152,
-      "reward": 0.810416679829359,
-      "reward_std": 0.1641346074640751,
-      "rewards/accuracy_reward": 0.810416679829359,
       "rewards/format_reward": 0.0,
       "step": 115
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 573.0354347229004,
       "epoch": 0.384,
-      "grad_norm": 0.4474624693393707,
-      "kl": 0.013144111633300782,
       "learning_rate": 2.3263454721781537e-06,
-      "loss": 0.0153,
-      "reward": 0.8104166805744171,
-      "reward_std": 0.16061252541840076,
-      "rewards/accuracy_reward": 0.8104166805744171,
       "rewards/format_reward": 0.0,
       "step": 120
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 584.2166816711426,
       "epoch": 0.4,
-      "grad_norm": 0.44476044178009033,
-      "kl": 0.007654571533203125,
       "learning_rate": 2.2548531345087003e-06,
-      "loss": 0.0265,
-      "reward": 0.733333346247673,
-      "reward_std": 0.15773502960801125,
-      "rewards/accuracy_reward": 0.733333346247673,
       "rewards/format_reward": 0.0,
       "step": 125
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 544.5312660217285,
       "epoch": 0.416,
-      "grad_norm": 0.7776355147361755,
-      "kl": 0.0113861083984375,
       "learning_rate": 2.18098574960932e-06,
-      "loss": 0.0367,
-      "reward": 0.7979166820645333,
-      "reward_std": 0.17856836393475534,
-      "rewards/accuracy_reward": 0.7979166820645333,
       "rewards/format_reward": 0.0,
       "step": 130
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 588.150015258789,
       "epoch": 0.432,
-      "grad_norm": 0.46490195393562317,
-      "kl": 0.009286117553710938,
       "learning_rate": 2.104975731601208e-06,
-      "loss": 0.0511,
-      "reward": 0.6750000175088644,
-      "reward_std": 0.19940169602632524,
-      "rewards/accuracy_reward": 0.6750000175088644,
       "rewards/format_reward": 0.0,
       "step": 135
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 585.2770973205567,
       "epoch": 0.448,
-      "grad_norm": 0.32955658435821533,
-      "kl": 0.01014404296875,
       "learning_rate": 2.027062236122014e-06,
-      "loss": 0.0294,
-      "reward": 0.7437500163912774,
-      "reward_std": 0.17856836318969727,
-      "rewards/accuracy_reward": 0.7437500163912774,
       "rewards/format_reward": 0.0,
       "step": 140
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 587.1312675476074,
       "epoch": 0.464,
-      "grad_norm": 0.2798615097999573,
-      "kl": 0.0207550048828125,
       "learning_rate": 1.9474904078537343e-06,
-      "loss": 0.0287,
-      "reward": 0.7145833492279052,
-      "reward_std": 0.1734116803854704,
-      "rewards/accuracy_reward": 0.7145833492279052,
       "rewards/format_reward": 0.0,
       "step": 145
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 564.8291877746582,
       "epoch": 0.48,
-      "grad_norm": 0.26126375794410706,
-      "kl": 0.016759872436523438,
       "learning_rate": 1.866510609206841e-06,
-      "loss": 0.0437,
-      "reward": 0.7750000171363354,
-      "reward_std": 0.17440169677138329,
-      "rewards/accuracy_reward": 0.7750000171363354,
       "rewards/format_reward": 0.0,
       "step": 150
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 617.829182434082,
       "epoch": 0.496,
-      "grad_norm": 0.8329501748085022,
-      "kl": 0.03573684692382813,
       "learning_rate": 1.784377632587518e-06,
-      "loss": 0.0607,
-      "reward": 0.7145833536982537,
-      "reward_std": 0.21542377918958663,
-      "rewards/accuracy_reward": 0.7145833536982537,
       "rewards/format_reward": 0.0,
       "step": 155
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 652.3729393005372,
       "epoch": 0.512,
-      "grad_norm": 3.987293004989624,
-      "kl": 0.11999282836914063,
       "learning_rate": 1.7013498987264833e-06,
-      "loss": 0.0785,
-      "reward": 0.6625000197440386,
-      "reward_std": 0.21477919332683088,
-      "rewards/accuracy_reward": 0.6625000197440386,
       "rewards/format_reward": 0.0,
       "step": 160
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 624.3125183105469,
       "epoch": 0.528,
-      "grad_norm": 8.62370491027832,
-      "kl": 0.38817138671875,
       "learning_rate": 1.6176886435917677e-06,
-      "loss": 0.1121,
-      "reward": 0.6416666841134429,
-      "reward_std": 0.2699358768761158,
-      "rewards/accuracy_reward": 0.6416666841134429,
       "rewards/format_reward": 0.0,
       "step": 165
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.1229301452637,
       "epoch": 0.544,
-      "grad_norm": 15.794644355773926,
-      "kl": 0.3599708557128906,
       "learning_rate": 1.5336570964437077e-06,
-      "loss": 0.0683,
-      "reward": 0.6604166872799396,
-      "reward_std": 0.25133545473217966,
-      "rewards/accuracy_reward": 0.6604166872799396,
       "rewards/format_reward": 0.0,
       "step": 170
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 611.1896026611328,
       "epoch": 0.56,
-      "grad_norm": 41.3077507019043,
-      "kl": 0.33219223022460936,
       "learning_rate": 1.4495196516183096e-06,
-      "loss": 0.0784,
-      "reward": 0.5979166880249978,
-      "reward_std": 0.28243587724864483,
-      "rewards/accuracy_reward": 0.5979166880249978,
       "rewards/format_reward": 0.0,
       "step": 175
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 560.6729354858398,
       "epoch": 0.576,
-      "grad_norm": 4836.41943359375,
-      "kl": 5.374520874023437,
       "learning_rate": 1.3655410366448499e-06,
-      "loss": 0.2374,
-      "reward": 0.6708333529531956,
-      "reward_std": 0.2580804623663425,
-      "rewards/accuracy_reward": 0.6708333529531956,
       "rewards/format_reward": 0.0,
       "step": 180
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 637.4396018981934,
       "epoch": 0.592,
-      "grad_norm": 170.84182739257812,
-      "kl": 0.36361236572265626,
       "learning_rate": 1.2819854793151313e-06,
-      "loss": 0.06,
-      "reward": 0.6416666839271784,
-      "reward_std": 0.2599679421633482,
-      "rewards/accuracy_reward": 0.6416666839271784,
       "rewards/format_reward": 0.0,
       "step": 185
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 566.9208518981934,
       "epoch": 0.608,
-      "grad_norm": 93.1268539428711,
-      "kl": 0.42458267211914064,
       "learning_rate": 1.199115876325091e-06,
-      "loss": 0.0582,
-      "reward": 0.6875000169500709,
-      "reward_std": 0.2580804631114006,
-      "rewards/accuracy_reward": 0.6875000169500709,
       "rewards/format_reward": 0.0,
       "step": 190
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 582.2895980834961,
       "epoch": 0.624,
-      "grad_norm": 84.15328979492188,
-      "kl": 0.388812255859375,
       "learning_rate": 1.1171929661045361e-06,
-      "loss": 0.1015,
-      "reward": 0.6979166865348816,
-      "reward_std": 0.2670583825558424,
-      "rewards/accuracy_reward": 0.6979166865348816,
       "rewards/format_reward": 0.0,
       "step": 195
     },
     {
       "epoch": 0.64,
-      "grad_norm": 38.52534866333008,
       "learning_rate": 1.036474508437579e-06,
-      "loss": 0.0775,
       "step": 200
     },
     {
       "epoch": 0.64,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 522.7839470138093,
-      "eval_kl": 0.5824062324569611,
-      "eval_loss": 0.07062587141990662,
-      "eval_reward": 0.778942135279764,
-      "eval_reward_std": 0.23596480711848436,
-      "eval_rewards/accuracy_reward": 0.778942135279764,
       "eval_rewards/format_reward": 0.0,
-      "eval_runtime": 3050.6148,
-      "eval_samples_per_second": 0.328,
-      "eval_steps_per_second": 0.028,
       "step": 200
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 577.4750202178955,
       "epoch": 0.656,
-      "grad_norm": 260.2613220214844,
-      "kl": 0.7868415832519531,
       "learning_rate": 9.57214473454992e-07,
-      "loss": 0.1073,
-      "reward": 0.7072916869074106,
-      "reward_std": 0.2551798287779093,
-      "rewards/accuracy_reward": 0.7072916869074106,
       "rewards/format_reward": 0.0,
       "step": 205
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 591.0208511352539,
       "epoch": 0.672,
-      "grad_norm": 78.86795043945312,
-      "kl": 1.4788040161132812,
       "learning_rate": 8.796622425502193e-07,
-      "loss": 0.1335,
-      "reward": 0.6562500149011612,
-      "reward_std": 0.2276246253401041,
-      "rewards/accuracy_reward": 0.6562500149011612,
       "rewards/format_reward": 0.0,
       "step": 210
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 625.4041862487793,
       "epoch": 0.688,
-      "grad_norm": 288.1315612792969,
-      "kl": 1.1891670227050781,
       "learning_rate": 8.040618237332491e-07,
-      "loss": 0.1041,
-      "reward": 0.6583333555608988,
-      "reward_std": 0.26160254441201686,
-      "rewards/accuracy_reward": 0.6583333555608988,
       "rewards/format_reward": 0.0,
       "step": 215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 625.4625175476074,
       "epoch": 0.704,
-      "grad_norm": 21.628314971923828,
-      "kl": 0.9924446105957031,
       "learning_rate": 7.30651083891141e-07,
-      "loss": 0.1149,
-      "reward": 0.6895833514630795,
-      "reward_std": 0.22668088637292386,
-      "rewards/accuracy_reward": 0.6895833514630795,
       "rewards/format_reward": 0.0,
       "step": 220
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 625.743766784668,
       "epoch": 0.72,
-      "grad_norm": 14.641454696655273,
-      "kl": 0.7305183410644531,
       "learning_rate": 6.596610003707959e-07,
-      "loss": 0.0785,
-      "reward": 0.695833345502615,
-      "reward_std": 0.17440169751644136,
-      "rewards/accuracy_reward": 0.695833345502615,
       "rewards/format_reward": 0.0,
       "step": 225
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 654.6062652587891,
       "epoch": 0.736,
-      "grad_norm": 50.088165283203125,
-      "kl": 0.741015625,
       "learning_rate": 5.913149342387704e-07,
-      "loss": 0.0796,
-      "reward": 0.6270833522081375,
-      "reward_std": 0.27152420245110986,
-      "rewards/accuracy_reward": 0.6270833522081375,
       "rewards/format_reward": 0.0,
       "step": 230
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 607.5229385375976,
       "epoch": 0.752,
-      "grad_norm": 36.59616470336914,
-      "kl": 0.9331382751464844,
       "learning_rate": 5.258279275047247e-07,
-      "loss": 0.1222,
-      "reward": 0.6666666839271784,
-      "reward_std": 0.22182335667312145,
-      "rewards/accuracy_reward": 0.6666666839271784,
       "rewards/format_reward": 0.0,
       "step": 235
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 592.9187698364258,
       "epoch": 0.768,
-      "grad_norm": 223.9988555908203,
-      "kl": 0.246234130859375,
       "learning_rate": 4.63406026519703e-07,
-      "loss": 0.0524,
-      "reward": 0.6916666842997075,
-      "reward_std": 0.2099679421633482,
-      "rewards/accuracy_reward": 0.6916666842997075,
       "rewards/format_reward": 0.0,
       "step": 240
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 621.9333503723144,
       "epoch": 0.784,
-      "grad_norm": 1107.702880859375,
-      "kl": 0.9261028289794921,
       "learning_rate": 4.042456336780838e-07,
-      "loss": 0.13,
-      "reward": 0.6875000171363354,
-      "reward_std": 0.2305021207779646,
-      "rewards/accuracy_reward": 0.6875000171363354,
       "rewards/format_reward": 0.0,
       "step": 245
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 620.8375205993652,
       "epoch": 0.8,
-      "grad_norm": 90.20494079589844,
-      "kl": 2.3170936584472654,
       "learning_rate": 3.4853288946298335e-07,
-      "loss": 0.1783,
-      "reward": 0.6333333445712924,
-      "reward_std": 0.2817912921309471,
-      "rewards/accuracy_reward": 0.6333333445712924,
       "rewards/format_reward": 0.0,
       "step": 250
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 596.6895973205567,
       "epoch": 0.816,
-      "grad_norm": 27.478755950927734,
-      "kl": 1.1328254699707032,
       "learning_rate": 2.9644308677943315e-07,
-      "loss": 0.1288,
-      "reward": 0.6791666857898235,
-      "reward_std": 0.2638354554772377,
-      "rewards/accuracy_reward": 0.6791666857898235,
       "rewards/format_reward": 0.0,
       "step": 255
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 616.3125152587891,
       "epoch": 0.832,
-      "grad_norm": 17.04458236694336,
-      "kl": 0.6115745544433594,
       "learning_rate": 2.48140119418046e-07,
-      "loss": 0.0903,
-      "reward": 0.6937500171363353,
-      "reward_std": 0.26671295091509817,
-      "rewards/accuracy_reward": 0.6937500171363353,
       "rewards/format_reward": 0.0,
       "step": 260
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 632.5791809082032,
       "epoch": 0.848,
-      "grad_norm": 49.66255187988281,
-      "kl": 0.5178520202636718,
       "learning_rate": 2.0377596638451812e-07,
-      "loss": 0.0998,
-      "reward": 0.6895833522081375,
-      "reward_std": 0.23819086849689483,
-      "rewards/accuracy_reward": 0.6895833522081375,
       "rewards/format_reward": 0.0,
       "step": 265
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 616.1958518981934,
       "epoch": 0.864,
-      "grad_norm": 109.28793334960938,
-      "kl": 2.1872650146484376,
       "learning_rate": 1.634902137174483e-07,
-      "loss": 0.1276,
-      "reward": 0.675000019185245,
-      "reward_std": 0.22921295054256915,
-      "rewards/accuracy_reward": 0.675000019185245,
       "rewards/format_reward": 0.0,
       "step": 270
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 605.8229377746582,
       "epoch": 0.88,
-      "grad_norm": 27.828811645507812,
-      "kl": 0.8389869689941406,
       "learning_rate": 1.274096152990203e-07,
-      "loss": 0.1027,
-      "reward": 0.7250000169500709,
-      "reward_std": 0.2292129497975111,
-      "rewards/accuracy_reward": 0.7250000169500709,
       "rewards/format_reward": 0.0,
       "step": 275
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 608.7375160217285,
       "epoch": 0.896,
-      "grad_norm": 7.841161251068115,
-      "kl": 0.7010269165039062,
       "learning_rate": 9.564769404039419e-08,
-      "loss": 0.0979,
-      "reward": 0.7083333484828472,
-      "reward_std": 0.22087961621582508,
-      "rewards/accuracy_reward": 0.7083333484828472,
       "rewards/format_reward": 0.0,
       "step": 280
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 630.8354316711426,
       "epoch": 0.912,
-      "grad_norm": 27.939838409423828,
-      "kl": 1.3990249633789062,
       "learning_rate": 6.830438469662892e-08,
-      "loss": 0.1243,
-      "reward": 0.6291666835546493,
-      "reward_std": 0.27216878831386565,
-      "rewards/accuracy_reward": 0.6291666835546493,
       "rewards/format_reward": 0.0,
       "step": 285
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 651.3729393005372,
       "epoch": 0.928,
-      "grad_norm": 12.43730354309082,
-      "kl": 0.5821548461914062,
       "learning_rate": 4.546571943496969e-08,
-      "loss": 0.1056,
-      "reward": 0.666666685603559,
-      "reward_std": 0.2651246260851622,
-      "rewards/accuracy_reward": 0.666666685603559,
       "rewards/format_reward": 0.0,
       "step": 290
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 640.3312721252441,
       "epoch": 0.944,
-      "grad_norm": 57.05141067504883,
-      "kl": 0.9673851013183594,
       "learning_rate": 2.72035571458224e-08,
-      "loss": 0.1247,
-      "reward": 0.6854166865348816,
-      "reward_std": 0.2596687875688076,
-      "rewards/accuracy_reward": 0.6854166865348816,
       "rewards/format_reward": 0.0,
       "step": 295
     },
     {
       "epoch": 0.96,
-      "grad_norm": 16.82033920288086,
       "learning_rate": 1.357535734809795e-08,
-      "loss": 0.1374,
       "step": 300
     },
     {
       "epoch": 0.96,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 555.4643360983112,
-      "eval_kl": 0.9598001263098802,
-      "eval_loss": 0.11535439640283585,
-      "eval_reward": 0.7320359474839921,
-      "eval_reward_std": 0.2536725497352863,
-      "eval_rewards/accuracy_reward": 0.7320359474839921,
       "eval_rewards/format_reward": 0.0,
-      "eval_runtime": 3149.9691,
-      "eval_samples_per_second": 0.317,
-      "eval_steps_per_second": 0.027,
       "step": 300
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 609.3489749908447,
       "epoch": 0.976,
-      "grad_norm": 13.1323881149292,
-      "kl": 1.1041545867919922,
       "learning_rate": 4.623999400308054e-09,
-      "loss": 0.1097,
-      "reward": 0.6729166850447654,
-      "reward_std": 0.23466878831386567,
-      "rewards/accuracy_reward": 0.6729166850447654,
       "rewards/format_reward": 0.0,
       "step": 305
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 621.8541877746582,
       "epoch": 0.992,
-      "grad_norm": 17.46805763244629,
-      "kl": 0.6278785705566406,
       "learning_rate": 3.77647586240204e-10,
-      "loss": 0.115,
-      "reward": 0.6645833529531956,
-      "reward_std": 0.2218696340918541,
-      "rewards/accuracy_reward": 0.6645833529531956,
       "rewards/format_reward": 0.0,
       "step": 310
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 679.5989780426025,
       "epoch": 0.9984,
-      "kl": 0.9321136474609375,
-      "reward": 0.6093750093132257,
-      "reward_std": 0.21961358468979597,
-      "rewards/accuracy_reward": 0.6093750093132257,
       "rewards/format_reward": 0.0,
       "step": 312,
       "total_flos": 0.0,
-      "train_loss": 0.06954928480375272,
-      "train_runtime": 34706.12,
-      "train_samples_per_second": 0.216,
-      "train_steps_per_second": 0.009
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "clip_ratio": 0.0,
+      "completion_length": 584.6666870117188,
       "epoch": 0.0032,
+      "grad_norm": 0.10400390625,
       "kl": 0.0,
       "learning_rate": 9.375e-08,
+      "loss": 0.0003,
+      "reward": 0.802083358168602,
+      "reward_std": 0.17633545212447643,
+      "rewards/accuracy_reward": 0.802083358168602,
       "rewards/format_reward": 0.0,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 571.5573091506958,
       "epoch": 0.016,
+      "grad_norm": 0.06396484375,
+      "kl": 7.958153128129197e-05,
       "learning_rate": 4.6875e-07,
+      "loss": 0.0157,
+      "reward": 0.7526041800156236,
+      "reward_std": 0.13064012676477432,
+      "rewards/accuracy_reward": 0.7526041800156236,
       "rewards/format_reward": 0.0,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 543.472933959961,
       "epoch": 0.032,
+      "grad_norm": 0.11181640625,
+      "kl": 0.00010847050416487036,
       "learning_rate": 9.375e-07,
+      "loss": 0.0178,
+      "reward": 0.7562500115483999,
+      "reward_std": 0.12246793955564499,
+      "rewards/accuracy_reward": 0.7562500115483999,
       "rewards/format_reward": 0.0,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 561.6458534240722,
       "epoch": 0.048,
+      "grad_norm": 0.12890625,
+      "kl": 0.0001124277588132827,
       "learning_rate": 1.40625e-06,
+      "loss": 0.0289,
+      "reward": 0.7354166857898236,
+      "reward_std": 0.1497008502483368,
+      "rewards/accuracy_reward": 0.7354166857898236,
       "rewards/format_reward": 0.0,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 587.439599609375,
       "epoch": 0.064,
+      "grad_norm": 0.060546875,
+      "kl": 0.0001041516380610119,
       "learning_rate": 1.875e-06,
+      "loss": 0.03,
+      "reward": 0.7645833499729633,
+      "reward_std": 0.14488959796726703,
+      "rewards/accuracy_reward": 0.7645833499729633,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 542.566683959961,
       "epoch": 0.08,
+      "grad_norm": 0.11083984375,
+      "kl": 0.00010825455901795067,
       "learning_rate": 2.3437500000000002e-06,
+      "loss": 0.0144,
+      "reward": 0.7187500149011612,
+      "reward_std": 0.12599002085626126,
+      "rewards/accuracy_reward": 0.7187500149011612,
       "rewards/format_reward": 0.0,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 528.8000137329102,
       "epoch": 0.096,
+      "grad_norm": 0.08984375,
+      "kl": 0.00010333679629184189,
       "learning_rate": 2.8125e-06,
+      "loss": 0.0131,
+      "reward": 0.7687500163912773,
+      "reward_std": 0.11284543462097645,
+      "rewards/accuracy_reward": 0.7687500163912773,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 554.2833518981934,
       "epoch": 0.112,
+      "grad_norm": 0.134765625,
+      "kl": 0.00010024149205491994,
       "learning_rate": 2.9991503375003e-06,
+      "loss": 0.0195,
+      "reward": 0.7666666831821203,
+      "reward_std": 0.17534543611109257,
+      "rewards/accuracy_reward": 0.7666666831821203,
       "rewards/format_reward": 0.0,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 575.7479362487793,
       "epoch": 0.128,
+      "grad_norm": 0.1142578125,
+      "kl": 0.000104643427857809,
       "learning_rate": 2.993961440992859e-06,
+      "loss": 0.0159,
+      "reward": 0.7541666865348816,
+      "reward_std": 0.1634900216013193,
+      "rewards/accuracy_reward": 0.7541666865348816,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 557.6687637329102,
       "epoch": 0.144,
+      "grad_norm": 0.11474609375,
+      "kl": 0.00010511839755054098,
       "learning_rate": 2.984071989079555e-06,
+      "loss": 0.0248,
+      "reward": 0.733333352021873,
+      "reward_std": 0.16830127350986004,
+      "rewards/accuracy_reward": 0.733333352021873,
       "rewards/format_reward": 0.0,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 550.9521041870117,
       "epoch": 0.16,
+      "grad_norm": 0.14453125,
+      "kl": 0.0001057840139765176,
       "learning_rate": 2.9695130976348534e-06,
+      "loss": 0.0072,
+      "reward": 0.7645833477377891,
+      "reward_std": 0.12599002085626126,
+      "rewards/accuracy_reward": 0.7645833477377891,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 548.1979293823242,
       "epoch": 0.176,
+      "grad_norm": 0.1220703125,
+      "kl": 0.00011230868503844249,
       "learning_rate": 2.9503305743175096e-06,
+      "loss": 0.0145,
+      "reward": 0.7333333499729633,
+      "reward_std": 0.1445904441177845,
+      "rewards/accuracy_reward": 0.7333333499729633,
       "rewards/format_reward": 0.0,
       "step": 55
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 571.2687675476075,
       "epoch": 0.192,
+      "grad_norm": 0.000701904296875,
+      "kl": 9.881708028842695e-05,
       "learning_rate": 2.9265847744427307e-06,
+      "loss": 0.014,
+      "reward": 0.8062500104308128,
+      "reward_std": 0.11636751629412175,
+      "rewards/accuracy_reward": 0.8062500104308128,
       "rewards/format_reward": 0.0,
       "step": 60
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 516.7791831970214,
       "epoch": 0.208,
+      "grad_norm": 0.08544921875,
+      "kl": 0.00010831438612513011,
       "learning_rate": 2.8983504110820214e-06,
+      "loss": 0.0154,
+      "reward": 0.8041666813194752,
+      "reward_std": 0.11477919146418572,
+      "rewards/accuracy_reward": 0.8041666813194752,
       "rewards/format_reward": 0.0,
       "step": 65
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 521.7562652587891,
       "epoch": 0.224,
+      "grad_norm": 0.06982421875,
+      "kl": 0.00010487217359695933,
       "learning_rate": 2.865716319988224e-06,
+      "loss": 0.0319,
+      "reward": 0.8083333514630795,
+      "reward_std": 0.11959044374525547,
+      "rewards/accuracy_reward": 0.8083333514630795,
       "rewards/format_reward": 0.0,
       "step": 70
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 558.2396018981933,
       "epoch": 0.24,
+      "grad_norm": 0.1142578125,
+      "kl": 0.00011459490733614074,
       "learning_rate": 2.82878518008537e-06,
+      "loss": 0.0156,
+      "reward": 0.7729166850447655,
+      "reward_std": 0.130801273137331,
+      "rewards/accuracy_reward": 0.7729166850447655,
       "rewards/format_reward": 0.0,
       "step": 75
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 554.2271026611328,
       "epoch": 0.256,
+      "grad_norm": 0.140625,
+      "kl": 0.00010408069401819375,
       "learning_rate": 2.7876731904027993e-06,
+      "loss": 0.0213,
+      "reward": 0.7583333492279053,
+      "reward_std": 0.1705341838300228,
+      "rewards/accuracy_reward": 0.7583333492279053,
       "rewards/format_reward": 0.0,
       "step": 80
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 520.0208503723145,
       "epoch": 0.272,
+      "grad_norm": 0.11474609375,
+      "kl": 0.00011381399317542674,
       "learning_rate": 2.7425097044700246e-06,
+      "loss": 0.0105,
+      "reward": 0.8062500104308128,
+      "reward_std": 0.1369016956537962,
+      "rewards/accuracy_reward": 0.8062500104308128,
       "rewards/format_reward": 0.0,
       "step": 85
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 566.3708511352539,
       "epoch": 0.288,
+      "grad_norm": 0.08154296875,
+      "kl": 0.00011387564354663482,
       "learning_rate": 2.6934368233226715e-06,
+      "loss": 0.0226,
+      "reward": 0.7479166813194752,
+      "reward_std": 0.11413460597395897,
+      "rewards/accuracy_reward": 0.7479166813194752,
       "rewards/format_reward": 0.0,
       "step": 90
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 544.3666809082031,
       "epoch": 0.304,
+      "grad_norm": 0.109375,
+      "kl": 0.00010668279064702801,
       "learning_rate": 2.6406089484000465e-06,
+      "loss": 0.018,
+      "reward": 0.812500013411045,
+      "reward_std": 0.12886751629412174,
+      "rewards/accuracy_reward": 0.812500013411045,
       "rewards/format_reward": 0.0,
       "step": 95
     },
     {
       "epoch": 0.32,
+      "grad_norm": 0.07763671875,
       "learning_rate": 2.584192295741087e-06,
+      "loss": 0.022,
       "step": 100
     },
     {
       "epoch": 0.32,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 465.4548533091288,
+      "eval_kl": 9.347488428797144e-05,
+      "eval_loss": 0.0055223857052624226,
+      "eval_reward": 0.8567864413032988,
+      "eval_reward_std": 0.12574039105169788,
+      "eval_rewards/accuracy_reward": 0.8567864413032988,
       "eval_rewards/format_reward": 0.0,
+      "eval_runtime": 1169.6676,
+      "eval_samples_per_second": 0.855,
+      "eval_steps_per_second": 0.072,
       "step": 100
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 532.1687637329102,
       "epoch": 0.336,
+      "grad_norm": 0.035400390625,
+      "kl": 0.0001123551235650666,
       "learning_rate": 2.5243643730072105e-06,
+      "loss": 0.0119,
+      "reward": 0.7843750141561031,
+      "reward_std": 0.13305732235312462,
+      "rewards/accuracy_reward": 0.7843750141561031,
       "rewards/format_reward": 0.0,
       "step": 105
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 564.0521003723145,
       "epoch": 0.352,
+      "grad_norm": 0.095703125,
+      "kl": 0.00012054569197061937,
       "learning_rate": 2.461313420977536e-06,
+      "loss": 0.0074,
+      "reward": 0.733333346247673,
+      "reward_std": 0.13496793992817402,
+      "rewards/accuracy_reward": 0.733333346247673,
       "rewards/format_reward": 0.0,
       "step": 110
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 550.6270965576172,
       "epoch": 0.368,
+      "grad_norm": 0.07373046875,
+      "kl": 0.00011242426007811446,
       "learning_rate": 2.3952378212737554e-06,
+      "loss": 0.0106,
+      "reward": 0.8083333492279052,
+      "reward_std": 0.12182335406541825,
+      "rewards/accuracy_reward": 0.8083333492279052,
       "rewards/format_reward": 0.0,
       "step": 115
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 558.2479309082031,
       "epoch": 0.384,
+      "grad_norm": 0.11181640625,
+      "kl": 0.0001131312132201856,
       "learning_rate": 2.3263454721781537e-06,
+      "loss": 0.009,
+      "reward": 0.7833333492279053,
+      "reward_std": 0.13015668764710425,
+      "rewards/accuracy_reward": 0.7833333492279053,
       "rewards/format_reward": 0.0,
       "step": 120
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 563.1083541870117,
       "epoch": 0.4,
+      "grad_norm": 0.12255859375,
+      "kl": 0.00012562979900394567,
       "learning_rate": 2.2548531345087003e-06,
+      "loss": 0.0248,
+      "reward": 0.7270833514630795,
+      "reward_std": 0.16413460709154606,
+      "rewards/accuracy_reward": 0.7270833514630795,
       "rewards/format_reward": 0.0,
       "step": 125
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 524.6166809082031,
       "epoch": 0.416,
+      "grad_norm": 0.0966796875,
+      "kl": 0.00011902451351488707,
       "learning_rate": 2.18098574960932e-06,
+      "loss": 0.0201,
+      "reward": 0.812500013411045,
+      "reward_std": 0.1340242002159357,
+      "rewards/accuracy_reward": 0.812500013411045,
       "rewards/format_reward": 0.0,
       "step": 130
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 579.4187637329102,
       "epoch": 0.432,
+      "grad_norm": 0.140625,
+      "kl": 0.00013472076934704092,
       "learning_rate": 2.104975731601208e-06,
+      "loss": 0.0297,
+      "reward": 0.6520833492279052,
+      "reward_std": 0.1846687864512205,
+      "rewards/accuracy_reward": 0.6520833492279052,
       "rewards/format_reward": 0.0,
       "step": 135
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 561.5541854858399,
       "epoch": 0.448,
+      "grad_norm": 0.09326171875,
+      "kl": 0.00012283536361792357,
       "learning_rate": 2.027062236122014e-06,
+      "loss": 0.0136,
+      "reward": 0.762500012665987,
+      "reward_std": 0.14682335481047631,
+      "rewards/accuracy_reward": 0.762500012665987,
       "rewards/format_reward": 0.0,
       "step": 140
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 538.0895980834961,
       "epoch": 0.464,
+      "grad_norm": 0.07861328125,
+      "kl": 0.00012730688667943467,
       "learning_rate": 1.9474904078537343e-06,
+      "loss": 0.0143,
+      "reward": 0.7520833484828472,
+      "reward_std": 0.1176566869020462,
+      "rewards/accuracy_reward": 0.7520833484828472,
       "rewards/format_reward": 0.0,
       "step": 145
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 550.629182434082,
       "epoch": 0.48,
+      "grad_norm": 0.1259765625,
+      "kl": 0.00011251820915276766,
       "learning_rate": 1.866510609206841e-06,
+      "loss": 0.0182,
+      "reward": 0.7520833499729633,
+      "reward_std": 0.13690169639885424,
+      "rewards/accuracy_reward": 0.7520833499729633,
       "rewards/format_reward": 0.0,
       "step": 150
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 566.2791816711426,
       "epoch": 0.496,
+      "grad_norm": 0.080078125,
+      "kl": 0.00012192594749649288,
       "learning_rate": 1.784377632587518e-06,
+      "loss": 0.0135,
+      "reward": 0.7062500165775418,
+      "reward_std": 0.1689458593726158,
+      "rewards/accuracy_reward": 0.7062500165775418,
       "rewards/format_reward": 0.0,
       "step": 155
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 596.4979377746582,
       "epoch": 0.512,
+      "grad_norm": 0.1044921875,
+      "kl": 0.00012320739442657215,
       "learning_rate": 1.7013498987264833e-06,
+      "loss": 0.0214,
+      "reward": 0.7312500171363354,
+      "reward_std": 0.139134606346488,
+      "rewards/accuracy_reward": 0.7312500171363354,
       "rewards/format_reward": 0.0,
       "step": 160
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 546.1958457946778,
       "epoch": 0.528,
+      "grad_norm": 0.11083984375,
+      "kl": 0.00013099992102070246,
       "learning_rate": 1.6176886435917677e-06,
+      "loss": 0.0082,
+      "reward": 0.7520833477377892,
+      "reward_std": 0.1285683624446392,
+      "rewards/accuracy_reward": 0.7520833477377892,
       "rewards/format_reward": 0.0,
       "step": 165
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 559.1458511352539,
       "epoch": 0.544,
+      "grad_norm": 0.08935546875,
+      "kl": 0.00012905245066576753,
       "learning_rate": 1.5336570964437077e-06,
+      "loss": 0.0157,
+      "reward": 0.7000000156462193,
+      "reward_std": 0.15644585900008678,
+      "rewards/accuracy_reward": 0.7000000156462193,
       "rewards/format_reward": 0.0,
       "step": 170
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 554.4812644958496,
       "epoch": 0.56,
+      "grad_norm": 0.1279296875,
+      "kl": 0.0001381170730383019,
       "learning_rate": 1.4495196516183096e-06,
+      "loss": 0.0115,
+      "reward": 0.7479166779667139,
+      "reward_std": 0.139134606346488,
+      "rewards/accuracy_reward": 0.7479166779667139,
       "rewards/format_reward": 0.0,
       "step": 175
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 540.095849609375,
       "epoch": 0.576,
+      "grad_norm": 0.07275390625,
+      "kl": 0.00012737434626615142,
       "learning_rate": 1.3655410366448499e-06,
+      "loss": 0.0079,
+      "reward": 0.7666666805744171,
+      "reward_std": 0.13496793992817402,
+      "rewards/accuracy_reward": 0.7666666805744171,
       "rewards/format_reward": 0.0,
       "step": 180
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 599.0208534240722,
       "epoch": 0.592,
+      "grad_norm": 0.07958984375,
+      "kl": 0.0001210577192978235,
       "learning_rate": 1.2819854793151313e-06,
+      "loss": 0.0137,
+      "reward": 0.7145833492279052,
+      "reward_std": 0.1702350303530693,
+      "rewards/accuracy_reward": 0.7145833492279052,
       "rewards/format_reward": 0.0,
       "step": 185
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 557.2291839599609,
       "epoch": 0.608,
+      "grad_norm": 0.1552734375,
+      "kl": 0.00014638212196587118,
       "learning_rate": 1.199115876325091e-06,
+      "loss": 0.0123,
+      "reward": 0.7354166839271784,
+      "reward_std": 0.15932335443794726,
+      "rewards/accuracy_reward": 0.7354166839271784,
       "rewards/format_reward": 0.0,
       "step": 190
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 554.1521011352539,
       "epoch": 0.624,
+      "grad_norm": 0.126953125,
+      "kl": 0.0001363154207865591,
       "learning_rate": 1.1171929661045361e-06,
+      "loss": 0.0254,
+      "reward": 0.7708333477377891,
+      "reward_std": 0.15292377695441245,
+      "rewards/accuracy_reward": 0.7708333477377891,
       "rewards/format_reward": 0.0,
       "step": 195
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.07763671875,
       "learning_rate": 1.036474508437579e-06,
+      "loss": 0.0143,
       "step": 200
     },
     {
       "epoch": 0.64,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 465.75450476914824,
+      "eval_kl": 0.00010685787577506903,
+      "eval_loss": 0.005738089792430401,
+      "eval_reward": 0.8522954227146274,
+      "eval_reward_std": 0.13115221712582126,
+      "eval_rewards/accuracy_reward": 0.8522954227146274,
       "eval_rewards/format_reward": 0.0,
+      "eval_runtime": 1182.5904,
+      "eval_samples_per_second": 0.846,
+      "eval_steps_per_second": 0.071,
       "step": 200
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 542.3031398773194,
       "epoch": 0.656,
+      "grad_norm": 0.11962890625,
+      "kl": 0.00013577902191173053,
       "learning_rate": 9.57214473454992e-07,
+      "loss": 0.0116,
+      "reward": 0.7760416804812849,
+      "reward_std": 0.1375231422483921,
+      "rewards/accuracy_reward": 0.7760416804812849,
       "rewards/format_reward": 0.0,
       "step": 205
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 555.0937683105469,
       "epoch": 0.672,
+      "grad_norm": 0.0693359375,
+      "kl": 0.0001307015376369236,
       "learning_rate": 8.796622425502193e-07,
+      "loss": 0.0163,
+      "reward": 0.7687500111758709,
+      "reward_std": 0.11731125563383102,
+      "rewards/accuracy_reward": 0.7687500111758709,
       "rewards/format_reward": 0.0,
       "step": 210
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 592.2062675476075,
       "epoch": 0.688,
+      "grad_norm": 0.10693359375,
+      "kl": 0.00013232407709438121,
       "learning_rate": 8.040618237332491e-07,
+      "loss": 0.0397,
+      "reward": 0.7083333488553762,
+      "reward_std": 0.17921294905245305,
+      "rewards/accuracy_reward": 0.7083333488553762,
       "rewards/format_reward": 0.0,
       "step": 215
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 563.9937641143799,
       "epoch": 0.704,
+      "grad_norm": 0.0947265625,
+      "kl": 0.000132297438904061,
       "learning_rate": 7.30651083891141e-07,
+      "loss": 0.0267,
+      "reward": 0.7666666850447654,
+      "reward_std": 0.14811252541840075,
+      "rewards/accuracy_reward": 0.7666666850447654,
       "rewards/format_reward": 0.0,
       "step": 220
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 584.647932434082,
       "epoch": 0.72,
+      "grad_norm": 0.0947265625,
+      "kl": 0.00012981849013158354,
       "learning_rate": 6.596610003707959e-07,
+      "loss": 0.0189,
+      "reward": 0.75416667945683,
+      "reward_std": 0.1494016967713833,
+      "rewards/accuracy_reward": 0.75416667945683,
       "rewards/format_reward": 0.0,
       "step": 225
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 599.6791854858399,
       "epoch": 0.736,
+      "grad_norm": 0.13671875,
+      "kl": 0.00013120998573867837,
       "learning_rate": 5.913149342387704e-07,
+      "loss": 0.0238,
+      "reward": 0.695833346620202,
+      "reward_std": 0.20069086775183678,
+      "rewards/accuracy_reward": 0.695833346620202,
       "rewards/format_reward": 0.0,
       "step": 230
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 545.3291854858398,
       "epoch": 0.752,
+      "grad_norm": 0.11767578125,
+      "kl": 0.00013769497109024088,
       "learning_rate": 5.258279275047247e-07,
+      "loss": 0.0255,
+      "reward": 0.7562500152736902,
+      "reward_std": 0.1404237776994705,
+      "rewards/accuracy_reward": 0.7562500152736902,
       "rewards/format_reward": 0.0,
       "step": 235
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 547.9833534240722,
       "epoch": 0.768,
+      "grad_norm": 0.07666015625,
+      "kl": 0.00013748378478339873,
       "learning_rate": 4.63406026519703e-07,
+      "loss": 0.0161,
+      "reward": 0.7562500193715096,
+      "reward_std": 0.130801273137331,
+      "rewards/accuracy_reward": 0.7562500193715096,
       "rewards/format_reward": 0.0,
       "step": 240
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 571.7437660217286,
       "epoch": 0.784,
+      "grad_norm": 0.11376953125,
+      "kl": 0.0001361471262498526,
       "learning_rate": 4.042456336780838e-07,
+      "loss": 0.0177,
+      "reward": 0.7125000152736902,
+      "reward_std": 0.1445904441177845,
+      "rewards/accuracy_reward": 0.7125000152736902,
       "rewards/format_reward": 0.0,
       "step": 245
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 568.1041801452636,
       "epoch": 0.8,
+      "grad_norm": 0.09716796875,
+      "kl": 0.00013276812351250555,
       "learning_rate": 3.4853288946298335e-07,
+      "loss": 0.0167,
+      "reward": 0.7312500160187483,
+      "reward_std": 0.1497008502483368,
+      "rewards/accuracy_reward": 0.7312500160187483,
       "rewards/format_reward": 0.0,
       "step": 250
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 544.4604331970215,
       "epoch": 0.816,
+      "grad_norm": 0.11474609375,
+      "kl": 0.00013813894056511345,
       "learning_rate": 2.9644308677943315e-07,
+      "loss": 0.0256,
+      "reward": 0.7708333522081375,
+      "reward_std": 0.1862571120262146,
+      "rewards/accuracy_reward": 0.7708333522081375,
       "rewards/format_reward": 0.0,
       "step": 255
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 552.7604331970215,
       "epoch": 0.832,
+      "grad_norm": 0.1513671875,
+      "kl": 0.00014264740912039997,
       "learning_rate": 2.48140119418046e-07,
+      "loss": 0.0134,
+      "reward": 0.7645833477377891,
+      "reward_std": 0.14488959796726703,
+      "rewards/accuracy_reward": 0.7645833477377891,
       "rewards/format_reward": 0.0,
       "step": 260
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 589.2396003723145,
       "epoch": 0.848,
+      "grad_norm": 0.12158203125,
+      "kl": 0.00013351873640203847,
       "learning_rate": 2.0377596638451812e-07,
+      "loss": 0.0213,
+      "reward": 0.7312500141561031,
+      "reward_std": 0.15932335443794726,
+      "rewards/accuracy_reward": 0.7312500141561031,
       "rewards/format_reward": 0.0,
       "step": 265
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 559.054182434082,
       "epoch": 0.864,
+      "grad_norm": 0.080078125,
+      "kl": 0.00012574124430102528,
       "learning_rate": 1.634902137174483e-07,
+      "loss": 0.0195,
+      "reward": 0.7604166835546493,
+      "reward_std": 0.1461787685751915,
+      "rewards/accuracy_reward": 0.7604166835546493,
       "rewards/format_reward": 0.0,
       "step": 270
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 570.9770980834961,
       "epoch": 0.88,
+      "grad_norm": 0.07666015625,
+      "kl": 0.00012617979391507105,
       "learning_rate": 1.274096152990203e-07,
+      "loss": 0.0195,
+      "reward": 0.7875000156462193,
+      "reward_std": 0.13977919220924379,
+      "rewards/accuracy_reward": 0.7875000156462193,
       "rewards/format_reward": 0.0,
       "step": 275
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 558.9125160217285,
       "epoch": 0.896,
+      "grad_norm": 0.0869140625,
+      "kl": 0.00013949446292826906,
       "learning_rate": 9.564769404039419e-08,
+      "loss": 0.0141,
+      "reward": 0.7562500238418579,
+      "reward_std": 0.1631908681243658,
+      "rewards/accuracy_reward": 0.7562500238418579,
       "rewards/format_reward": 0.0,
       "step": 280
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 582.5541831970215,
       "epoch": 0.912,
+      "grad_norm": 0.11083984375,
+      "kl": 0.0001382285308864084,
       "learning_rate": 6.830438469662892e-08,
+      "loss": 0.0199,
+      "reward": 0.7208333518356085,
+      "reward_std": 0.18496794067323208,
+      "rewards/accuracy_reward": 0.7208333518356085,
       "rewards/format_reward": 0.0,
       "step": 285
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 548.1500137329101,
       "epoch": 0.928,
+      "grad_norm": 0.11181640625,
+      "kl": 0.00013111710741213755,
       "learning_rate": 4.546571943496969e-08,
+      "loss": 0.0209,
+      "reward": 0.7916666833683849,
+      "reward_std": 0.13496793992817402,
+      "rewards/accuracy_reward": 0.7916666833683849,
       "rewards/format_reward": 0.0,
       "step": 290
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 578.8479362487793,
       "epoch": 0.944,
+      "grad_norm": 0.107421875,
+      "kl": 0.00012809678955818526,
       "learning_rate": 2.72035571458224e-08,
+      "loss": 0.0199,
+      "reward": 0.7708333499729634,
+      "reward_std": 0.17440169714391232,
+      "rewards/accuracy_reward": 0.7708333499729634,
       "rewards/format_reward": 0.0,
       "step": 295
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.11083984375,
       "learning_rate": 1.357535734809795e-08,
+      "loss": 0.0226,
       "step": 300
     },
     {
       "epoch": 0.96,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 467.9635856308623,
+      "eval_kl": 0.00010789919093974118,
+      "eval_loss": 0.0016380093293264508,
+      "eval_reward": 0.8510479179328073,
+      "eval_reward_std": 0.1320316564001723,
+      "eval_rewards/accuracy_reward": 0.8510479179328073,
       "eval_rewards/format_reward": 0.0,
+      "eval_runtime": 1178.6538,
+      "eval_samples_per_second": 0.848,
+      "eval_steps_per_second": 0.071,
       "step": 300
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 547.3937664031982,
       "epoch": 0.976,
+      "grad_norm": 0.1279296875,
+      "kl": 0.00013282527597766603,
       "learning_rate": 4.623999400308054e-09,
+      "loss": 0.0227,
+      "reward": 0.7614583466202021,
+      "reward_std": 0.15324607044458388,
+      "rewards/accuracy_reward": 0.7614583466202021,
       "rewards/format_reward": 0.0,
       "step": 305
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 554.6375144958496,
       "epoch": 0.992,
+      "grad_norm": 0.0791015625,
+      "kl": 0.0001264505321159959,
       "learning_rate": 3.77647586240204e-10,
+      "loss": 0.0163,
+      "reward": 0.7479166820645332,
+      "reward_std": 0.1224679384380579,
+      "rewards/accuracy_reward": 0.7479166820645332,
       "rewards/format_reward": 0.0,
       "step": 310
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 579.932300567627,
       "epoch": 0.9984,
+      "kl": 0.0001223308304361126,
+      "reward": 0.7343750149011612,
+      "reward_std": 0.17472399026155472,
+      "rewards/accuracy_reward": 0.7343750149011612,
       "rewards/format_reward": 0.0,
       "step": 312,
       "total_flos": 0.0,
+      "train_loss": 0.018009291775785804,
+      "train_runtime": 13979.803,
+      "train_samples_per_second": 0.536,
+      "train_steps_per_second": 0.022
     }
   ],
   "logging_steps": 5,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75426cbb48810980c022ea74e3a8713bf31e2c007ce1c68940fbb9ed994cf59b
-size 7992

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd6460b35ce0d8ab64bd4020b3f435a6e689ff77619644b16252bbfb8c3b610d
+size 6648