diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,38443 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 14.951603498542275,
+  "eval_steps": 500,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3276.0,
+      "completions/mean_length": 583.7980346679688,
+      "completions/mean_terminated_length": 536.12109375,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.009329446064139942,
+      "grad_norm": 0.16279126703739166,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 560435.0,
+      "reward": 0.5234375,
+      "reward_std": 0.260808527469635,
+      "rewards/verify_math_reward/mean": 0.5234375,
+      "rewards/verify_math_reward/std": 0.49972933530807495,
+      "step": 1
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3958.0,
+      "completions/mean_length": 590.8482666015625,
+      "completions/mean_terminated_length": 547.2813720703125,
+      "completions/min_length": 3.0,
+      "completions/min_terminated_length": 3.0,
+      "epoch": 0.018658892128279883,
+      "grad_norm": 0.12443200498819351,
+      "learning_rate": 1e-06,
+      "loss": 0.0046,
+      "num_tokens": 1132035.0,
+      "reward": 0.4854910969734192,
+      "reward_std": 0.21601703763008118,
+      "rewards/verify_math_reward/mean": 0.4854910671710968,
+      "rewards/verify_math_reward/std": 0.5000686049461365,
+      "step": 2
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3586.0,
+      "completions/mean_length": 606.2734375,
+      "completions/mean_terminated_length": 550.8809814453125,
+      "completions/min_length": 50.0,
+      "completions/min_terminated_length": 50.0,
+      "epoch": 0.027988338192419825,
+      "grad_norm": 0.12766121327877045,
+      "learning_rate": 1e-06,
+      "loss": 0.0184,
+      "num_tokens": 1716456.0,
+      "reward": 0.515625,
+      "reward_std": 0.2055736631155014,
+      "rewards/verify_math_reward/mean": 0.515625,
+      "rewards/verify_math_reward/std": 0.5000349283218384,
+      "step": 3
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2674.0,
+      "completions/mean_length": 553.9866333007812,
+      "completions/mean_terminated_length": 518.0473022460938,
+      "completions/min_length": 14.0,
+      "completions/min_terminated_length": 14.0,
+      "epoch": 0.037317784256559766,
+      "grad_norm": 0.1797182410955429,
+      "learning_rate": 1e-06,
+      "loss": 0.0142,
+      "num_tokens": 2255396.0,
+      "reward": 0.53125,
+      "reward_std": 0.2643796503543854,
+      "rewards/verify_math_reward/mean": 0.53125,
+      "rewards/verify_math_reward/std": 0.4993011951446533,
+      "step": 4
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3977.0,
+      "completions/mean_length": 602.3192138671875,
+      "completions/mean_terminated_length": 554.8936767578125,
+      "completions/min_length": 19.0,
+      "completions/min_terminated_length": 19.0,
+      "epoch": 0.04664723032069971,
+      "grad_norm": 0.14559607207775116,
+      "learning_rate": 1e-06,
+      "loss": -0.0004,
+      "num_tokens": 2829490.0,
+      "reward": 0.5145089626312256,
+      "reward_std": 0.24784532189369202,
+      "rewards/verify_math_reward/mean": 0.5145089030265808,
+      "rewards/verify_math_reward/std": 0.5000685453414917,
+      "step": 5
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3390.0,
+      "completions/mean_length": 620.560302734375,
+      "completions/mean_terminated_length": 561.3870849609375,
+      "completions/min_length": 12.0,
+      "completions/min_terminated_length": 12.0,
+      "epoch": 0.05597667638483965,
+      "grad_norm": 0.134445458650589,
+      "learning_rate": 1e-06,
+      "loss": 0.0071,
+      "num_tokens": 3414496.0,
+      "reward": 0.5223214626312256,
+      "reward_std": 0.2517502009868622,
+      "rewards/verify_math_reward/mean": 0.5223214030265808,
+      "rewards/verify_math_reward/std": 0.49978047609329224,
+      "step": 6
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2842.0,
+      "completions/mean_length": 557.359375,
+      "completions/mean_terminated_length": 517.4198608398438,
+      "completions/min_length": 59.0,
+      "completions/min_terminated_length": 59.0,
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.14972200989723206,
+      "learning_rate": 1e-06,
+      "loss": -0.0008,
+      "num_tokens": 3971386.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.23314937949180603,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 7
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4069.0,
+      "completions/mean_length": 646.013427734375,
+      "completions/mean_terminated_length": 587.2735595703125,
+      "completions/min_length": 25.0,
+      "completions/min_terminated_length": 25.0,
+      "epoch": 0.07463556851311953,
+      "grad_norm": 0.12313701957464218,
+      "learning_rate": 1e-06,
+      "loss": 0.0025,
+      "num_tokens": 4563166.0,
+      "reward": 0.4955357313156128,
+      "reward_std": 0.23596841096878052,
+      "rewards/verify_math_reward/mean": 0.4955357015132904,
+      "rewards/verify_math_reward/std": 0.500259280204773,
+      "step": 8
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3397.0,
+      "completions/mean_length": 648.646240234375,
+      "completions/mean_terminated_length": 569.939453125,
+      "completions/min_length": 69.0,
+      "completions/min_terminated_length": 69.0,
+      "epoch": 0.08396501457725948,
+      "grad_norm": 0.13047420978546143,
+      "learning_rate": 1e-06,
+      "loss": 0.0073,
+      "num_tokens": 5151409.0,
+      "reward": 0.5245535969734192,
+      "reward_std": 0.226617693901062,
+      "rewards/verify_math_reward/mean": 0.5245535969734192,
+      "rewards/verify_math_reward/std": 0.4996756911277771,
+      "step": 9
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2405.0,
+      "completions/mean_length": 623.4832763671875,
+      "completions/mean_terminated_length": 552.292724609375,
+      "completions/min_length": 27.0,
+      "completions/min_terminated_length": 27.0,
+      "epoch": 0.09329446064139942,
+      "grad_norm": 0.12889985740184784,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 5731562.0,
+      "reward": 0.5066964626312256,
+      "reward_std": 0.23826003074645996,
+      "rewards/verify_math_reward/mean": 0.5066964030265808,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 10
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 666.0926513671875,
+      "completions/mean_terminated_length": 587.7842407226562,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "epoch": 0.10262390670553936,
+      "grad_norm": 0.12700113654136658,
+      "learning_rate": 1e-06,
+      "loss": 0.0002,
+      "num_tokens": 6330805.0,
+      "reward": 0.5011160969734192,
+      "reward_std": 0.19437934458255768,
+      "rewards/verify_math_reward/mean": 0.5011160969734192,
+      "rewards/verify_math_reward/std": 0.5002779960632324,
+      "step": 11
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2313.0,
+      "completions/mean_length": 632.5022583007812,
+      "completions/mean_terminated_length": 520.7764892578125,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.1119533527696793,
+      "grad_norm": 0.12584556639194489,
+      "learning_rate": 1e-06,
+      "loss": -0.0068,
+      "num_tokens": 6885319.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.19475941359996796,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 12
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3132.0,
+      "completions/mean_length": 616.6116333007812,
+      "completions/mean_terminated_length": 573.364990234375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 0.12128279883381925,
+      "grad_norm": 0.12127769738435745,
+      "learning_rate": 1e-06,
+      "loss": -0.0073,
+      "num_tokens": 7480739.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.221996009349823,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317117214203,
+      "step": 13
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3769.0,
+      "completions/mean_length": 562.4442138671875,
+      "completions/mean_terminated_length": 526.5907592773438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.12756912410259247,
+      "learning_rate": 1e-06,
+      "loss": 0.0102,
+      "num_tokens": 8043937.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.2145100086927414,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 14
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3477.0,
+      "completions/mean_length": 636.7254638671875,
+      "completions/mean_terminated_length": 577.8275146484375,
+      "completions/min_length": 23.0,
+      "completions/min_terminated_length": 23.0,
+      "epoch": 0.13994169096209913,
+      "grad_norm": 0.12179768085479736,
+      "learning_rate": 1e-06,
+      "loss": 0.013,
+      "num_tokens": 8646467.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.19050543010234833,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973994791507721,
+      "step": 15
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 615.0123291015625,
+      "completions/mean_terminated_length": 555.74462890625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 0.14927113702623906,
+      "grad_norm": 0.11943355947732925,
+      "learning_rate": 1e-06,
+      "loss": -0.0037,
+      "num_tokens": 9227542.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.19520196318626404,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 16
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2099.0,
+      "completions/mean_length": 580.3136596679688,
+      "completions/mean_terminated_length": 556.6123657226562,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 0.158600583090379,
+      "grad_norm": 0.12313390523195267,
+      "learning_rate": 1e-06,
+      "loss": 0.022,
+      "num_tokens": 9808551.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.20590998232364655,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 17
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3671.0,
+      "completions/mean_length": 655.5592041015625,
+      "completions/mean_terminated_length": 581.0227661132812,
+      "completions/min_length": 51.0,
+      "completions/min_terminated_length": 51.0,
+      "epoch": 0.16793002915451896,
+      "grad_norm": 0.130902960896492,
+      "learning_rate": 1e-06,
+      "loss": 0.0051,
+      "num_tokens": 10399340.0,
+      "reward": 0.5111607313156128,
+      "reward_std": 0.24374611675739288,
+      "rewards/verify_math_reward/mean": 0.5111607313156128,
+      "rewards/verify_math_reward/std": 0.5001546144485474,
+      "step": 18
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3546.0,
+      "completions/mean_length": 642.9342041015625,
+      "completions/mean_terminated_length": 551.9599609375,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "epoch": 0.1772594752186589,
+      "grad_norm": 0.1357765793800354,
+      "learning_rate": 1e-06,
+      "loss": -0.0144,
+      "num_tokens": 10975657.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.2508493959903717,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 19
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.004464285714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3992.0,
+      "completions/mean_length": 550.7623291015625,
+      "completions/mean_terminated_length": 534.8643798828125,
+      "completions/min_length": 11.0,
+      "completions/min_terminated_length": 11.0,
+      "epoch": 0.18658892128279883,
+      "grad_norm": 0.12462402135133743,
+      "learning_rate": 1e-06,
+      "loss": 0.0274,
+      "num_tokens": 11543924.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.21155014634132385,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 20
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4090.0,
+      "completions/mean_length": 595.3136596679688,
+      "completions/mean_terminated_length": 535.7105712890625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.1224556565284729,
+      "learning_rate": 1e-06,
+      "loss": 0.0134,
+      "num_tokens": 12098077.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.19666734337806702,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 21
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3172.0,
+      "completions/mean_length": 631.0580444335938,
+      "completions/mean_terminated_length": 603.7750244140625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.20524781341107873,
+      "grad_norm": 0.11804339289665222,
+      "learning_rate": 1e-06,
+      "loss": 0.0182,
+      "num_tokens": 12730265.0,
+      "reward": 0.5256696939468384,
+      "reward_std": 0.1963321417570114,
+      "rewards/verify_math_reward/mean": 0.5256696343421936,
+      "rewards/verify_math_reward/std": 0.4996195137500763,
+      "step": 22
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3255.0,
+      "completions/mean_length": 602.216552734375,
+      "completions/mean_terminated_length": 554.7896118164062,
+      "completions/min_length": 11.0,
+      "completions/min_terminated_length": 11.0,
+      "epoch": 0.21457725947521866,
+      "grad_norm": 0.12200116366147995,
+      "learning_rate": 1e-06,
+      "loss": 0.0015,
+      "num_tokens": 13305035.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.19313082098960876,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 23
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2276.0,
+      "completions/mean_length": 615.6116333007812,
+      "completions/mean_terminated_length": 580.297607421875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.2239067055393586,
+      "grad_norm": 0.1176367923617363,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 13904055.0,
+      "reward": 0.5267857313156128,
+      "reward_std": 0.2082500159740448,
+      "rewards/verify_math_reward/mean": 0.5267857313156128,
+      "rewards/verify_math_reward/std": 0.4995608627796173,
+      "step": 24
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3909.0,
+      "completions/mean_length": 663.9553833007812,
+      "completions/mean_terminated_length": 601.5545043945312,
+      "completions/min_length": 69.0,
+      "completions/min_terminated_length": 69.0,
+      "epoch": 0.23323615160349853,
+      "grad_norm": 0.11231141537427902,
+      "learning_rate": 1e-06,
+      "loss": 0.0037,
+      "num_tokens": 14518655.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.17476637661457062,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 25
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2841.0,
+      "completions/mean_length": 632.375,
+      "completions/mean_terminated_length": 565.387939453125,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "epoch": 0.2425655976676385,
+      "grad_norm": 0.12935595214366913,
+      "learning_rate": 1e-06,
+      "loss": 0.0131,
+      "num_tokens": 15103103.0,
+      "reward": 0.5022321939468384,
+      "reward_std": 0.2314223051071167,
+      "rewards/verify_math_reward/mean": 0.5022321343421936,
+      "rewards/verify_math_reward/std": 0.5002742409706116,
+      "step": 26
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3503.0,
+      "completions/mean_length": 594.5424194335938,
+      "completions/mean_terminated_length": 551.021484375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.2518950437317784,
+      "grad_norm": 0.1343274563550949,
+      "learning_rate": 1e-06,
+      "loss": 0.0008,
+      "num_tokens": 15678877.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.21113713085651398,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 27
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2757.0,
+      "completions/mean_length": 592.0256958007812,
+      "completions/mean_terminated_length": 552.4774169921875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.12321079522371292,
+      "learning_rate": 1e-06,
+      "loss": 0.0121,
+      "num_tokens": 16258364.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.20388120412826538,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 28
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3989.0,
+      "completions/mean_length": 614.122802734375,
+      "completions/mean_terminated_length": 562.8607177734375,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.2705539358600583,
+      "grad_norm": 0.12643910944461823,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 16844354.0,
+      "reward": 0.512276828289032,
+      "reward_std": 0.20929309725761414,
+      "rewards/verify_math_reward/mean": 0.5122767686843872,
+      "rewards/verify_math_reward/std": 0.500128448009491,
+      "step": 29
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3742.0,
+      "completions/mean_length": 569.3917846679688,
+      "completions/mean_terminated_length": 537.6204833984375,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 0.27988338192419826,
+      "grad_norm": 0.1229817271232605,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 17417089.0,
+      "reward": 0.5189732313156128,
+      "reward_std": 0.20490150153636932,
+      "rewards/verify_math_reward/mean": 0.5189732313156128,
+      "rewards/verify_math_reward/std": 0.49991893768310547,
+      "step": 30
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4007.0,
+      "completions/mean_length": 663.896240234375,
+      "completions/mean_terminated_length": 613.366943359375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 0.2892128279883382,
+      "grad_norm": 0.12167727202177048,
+      "learning_rate": 1e-06,
+      "loss": 0.0107,
+      "num_tokens": 18043572.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.24134893715381622,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 31
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2534.0,
+      "completions/mean_length": 590.7745971679688,
+      "completions/mean_terminated_length": 551.2122192382812,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 0.29854227405247813,
+      "grad_norm": 0.1275821179151535,
+      "learning_rate": 1e-06,
+      "loss": 0.0074,
+      "num_tokens": 18622786.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.19047291576862335,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 32
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2392.0,
+      "completions/mean_length": 558.90625,
+      "completions/mean_terminated_length": 510.89141845703125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.30787172011661806,
+      "grad_norm": 0.14067736268043518,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 19160950.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.20786459743976593,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 33
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3821.0,
+      "completions/mean_length": 602.005615234375,
+      "completions/mean_terminated_length": 550.5651245117188,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.317201166180758,
+      "grad_norm": 0.11986638605594635,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 19730491.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.20639601349830627,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 34
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2325.0,
+      "completions/mean_length": 610.3638916015625,
+      "completions/mean_terminated_length": 555.0363159179688,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.12306813150644302,
+      "learning_rate": 1e-06,
+      "loss": -0.0012,
+      "num_tokens": 20303689.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.21800485253334045,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 35
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2622.0,
+      "completions/mean_length": 609.1373291015625,
+      "completions/mean_terminated_length": 577.72412109375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 0.3358600583090379,
+      "grad_norm": 0.11342012882232666,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 20909532.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.1877259612083435,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 36
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3879.0,
+      "completions/mean_length": 583.880615234375,
+      "completions/mean_terminated_length": 536.2047729492188,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.34518950437317786,
+      "grad_norm": 0.13498900830745697,
+      "learning_rate": 1e-06,
+      "loss": 0.0142,
+      "num_tokens": 21460265.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.2318705916404724,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 37
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2287.0,
+      "completions/mean_length": 638.3236694335938,
+      "completions/mean_terminated_length": 559.3812255859375,
+      "completions/min_length": 38.0,
+      "completions/min_terminated_length": 38.0,
+      "epoch": 0.3545189504373178,
+      "grad_norm": 0.12872715294361115,
+      "learning_rate": 1e-06,
+      "loss": -0.0033,
+      "num_tokens": 22039619.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.21260139346122742,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 38
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2261.0,
+      "completions/mean_length": 559.3125,
+      "completions/mean_terminated_length": 535.4696655273438,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 0.3638483965014577,
+      "grad_norm": 0.13344311714172363,
+      "learning_rate": 1e-06,
+      "loss": 0.0075,
+      "num_tokens": 22612051.0,
+      "reward": 0.5390625,
+      "reward_std": 0.2111714631319046,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 39
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3793.0,
+      "completions/mean_length": 604.6428833007812,
+      "completions/mean_terminated_length": 541.1636352539062,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 0.37317784256559766,
+      "grad_norm": 0.1348295360803604,
+      "learning_rate": 1e-06,
+      "loss": 0.0006,
+      "num_tokens": 23190627.0,
+      "reward": 0.5390625,
+      "reward_std": 0.200280100107193,
+      "rewards/verify_math_reward/mean": 0.5390625,
+      "rewards/verify_math_reward/std": 0.4987502098083496,
+      "step": 40
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2643.0,
+      "completions/mean_length": 653.5535888671875,
+      "completions/mean_terminated_length": 606.8235473632812,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 0.3825072886297376,
+      "grad_norm": 0.12652353942394257,
+      "learning_rate": 1e-06,
+      "loss": 0.0113,
+      "num_tokens": 23828843.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.24242384731769562,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 41
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 612.0424194335938,
+      "completions/mean_terminated_length": 556.7415161132812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.10542068630456924,
+      "learning_rate": 1e-06,
+      "loss": 0.0141,
+      "num_tokens": 24411089.0,
+      "reward": 0.5212053656578064,
+      "reward_std": 0.17005804181098938,
+      "rewards/verify_math_reward/mean": 0.5212053656578064,
+      "rewards/verify_math_reward/std": 0.49982914328575134,
+      "step": 42
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0022321428571429047,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3583.0,
+      "completions/mean_length": 569.7756958007812,
+      "completions/mean_terminated_length": 561.8870239257812,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 0.40116618075801747,
+      "grad_norm": 0.1200394555926323,
+      "learning_rate": 1e-06,
+      "loss": 0.0196,
+      "num_tokens": 24999552.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.21748380362987518,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 43
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2246.0,
+      "completions/mean_length": 562.7902221679688,
+      "completions/mean_terminated_length": 494.45733642578125,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 0.41049562682215746,
+      "grad_norm": 0.1317327469587326,
+      "learning_rate": 1e-06,
+      "loss": 0.0007,
+      "num_tokens": 25520372.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.207753986120224,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 44
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3878.0,
+      "completions/mean_length": 669.0803833007812,
+      "completions/mean_terminated_length": 578.7949829101562,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 0.4198250728862974,
+      "grad_norm": 0.1366340070962906,
+      "learning_rate": 1e-06,
+      "loss": 0.0144,
+      "num_tokens": 26119052.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.2380324900150299,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 45
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3879.0,
+      "completions/mean_length": 686.3627319335938,
+      "completions/mean_terminated_length": 624.3693237304688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 0.4291545189504373,
+      "grad_norm": 0.11587977409362793,
+      "learning_rate": 1e-06,
+      "loss": 0.0118,
+      "num_tokens": 26756945.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.21872051060199738,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 46
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3860.0,
+      "completions/mean_length": 649.734375,
+      "completions/mean_terminated_length": 587.074951171875,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 0.43848396501457726,
+      "grad_norm": 0.1326758861541748,
+      "learning_rate": 1e-06,
+      "loss": 0.0117,
+      "num_tokens": 27358467.0,
+      "reward": 0.535714328289032,
+      "reward_std": 0.2493869662284851,
+      "rewards/verify_math_reward/mean": 0.5357142686843872,
+      "rewards/verify_math_reward/std": 0.4990014135837555,
+      "step": 47
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3103.0,
+      "completions/mean_length": 626.5011596679688,
+      "completions/mean_terminated_length": 547.288818359375,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 0.4478134110787172,
+      "grad_norm": 0.11908731609582901,
+      "learning_rate": 1e-06,
+      "loss": 0.0142,
+      "num_tokens": 27932540.0,
+      "reward": 0.5234375,
+      "reward_std": 0.1784840077161789,
+      "rewards/verify_math_reward/mean": 0.5234375,
+      "rewards/verify_math_reward/std": 0.49972933530807495,
+      "step": 48
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3629.0,
+      "completions/mean_length": 613.0089721679688,
+      "completions/mean_terminated_length": 573.697509765625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.14169055223464966,
+      "learning_rate": 1e-06,
+      "loss": 0.0217,
+      "num_tokens": 28523852.0,
+      "reward": 0.5011160969734192,
+      "reward_std": 0.21553102135658264,
+      "rewards/verify_math_reward/mean": 0.5011160969734192,
+      "rewards/verify_math_reward/std": 0.5002779960632324,
+      "step": 49
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4037.0,
+      "completions/mean_length": 663.5145263671875,
+      "completions/mean_terminated_length": 544.6062622070312,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 0.46647230320699706,
+      "grad_norm": 0.1248873695731163,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 29098017.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.19670717418193817,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 50
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3823.0,
+      "completions/mean_length": 674.2455444335938,
+      "completions/mean_terminated_length": 584.0962524414062,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.47580174927113705,
+      "grad_norm": 0.13538333773612976,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 29689141.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.2436712384223938,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 51
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3670.0,
+      "completions/mean_length": 587.8917846679688,
+      "completions/mean_terminated_length": 540.2703857421875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.485131195335277,
+      "grad_norm": 0.12987874448299408,
+      "learning_rate": 1e-06,
+      "loss": 0.0109,
+      "num_tokens": 30246428.0,
+      "reward": 0.6328125,
+      "reward_std": 0.20177756249904633,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 52
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2864.0,
+      "completions/mean_length": 602.796875,
+      "completions/mean_terminated_length": 543.3212280273438,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 0.4944606413994169,
+      "grad_norm": 0.12448890507221222,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 30810846.0,
+      "reward": 0.5524553656578064,
+      "reward_std": 0.19840146601200104,
+      "rewards/verify_math_reward/mean": 0.5524553656578064,
+      "rewards/verify_math_reward/std": 0.49751853942871094,
+      "step": 53
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3736.0,
+      "completions/mean_length": 533.4129638671875,
+      "completions/mean_terminated_length": 497.2649230957031,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 0.5037900874635568,
+      "grad_norm": 0.13337939977645874,
+      "learning_rate": 1e-06,
+      "loss": 0.0189,
+      "num_tokens": 31341760.0,
+      "reward": 0.5725446939468384,
+      "reward_std": 0.18340355157852173,
+      "rewards/verify_math_reward/mean": 0.5725446343421936,
+      "rewards/verify_math_reward/std": 0.49498558044433594,
+      "step": 54
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.005580357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2066.0,
+      "completions/mean_length": 530.4910888671875,
+      "completions/mean_terminated_length": 510.4826354980469,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.5131195335276968,
+      "grad_norm": 0.14338673651218414,
+      "learning_rate": 1e-06,
+      "loss": 0.0199,
+      "num_tokens": 31890992.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.19637449085712433,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 55
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3688.0,
+      "completions/mean_length": 608.536865234375,
+      "completions/mean_terminated_length": 557.1925048828125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.12986308336257935,
+      "learning_rate": 1e-06,
+      "loss": 0.0114,
+      "num_tokens": 32474401.0,
+      "reward": 0.4966517984867096,
+      "reward_std": 0.2038070410490036,
+      "rewards/verify_math_reward/mean": 0.4966517984867096,
+      "rewards/verify_math_reward/std": 0.5002680420875549,
+      "step": 56
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2142.0,
+      "completions/mean_length": 584.9475708007812,
+      "completions/mean_terminated_length": 529.216552734375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.5317784256559767,
+      "grad_norm": 0.12951917946338654,
+      "learning_rate": 1e-06,
+      "loss": 0.0186,
+      "num_tokens": 33027922.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.18798990547657013,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 57
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3472.0,
+      "completions/mean_length": 604.9832763671875,
+      "completions/mean_terminated_length": 553.5866088867188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 0.5411078717201167,
+      "grad_norm": 0.12152307480573654,
+      "learning_rate": 1e-06,
+      "loss": 0.0098,
+      "num_tokens": 33606603.0,
+      "reward": 0.5412946939468384,
+      "reward_std": 0.1991407573223114,
+      "rewards/verify_math_reward/mean": 0.5412946343421936,
+      "rewards/verify_math_reward/std": 0.49857014417648315,
+      "step": 58
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3860.0,
+      "completions/mean_length": 585.0402221679688,
+      "completions/mean_terminated_length": 525.26220703125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.5504373177842565,
+      "grad_norm": 0.1423441469669342,
+      "learning_rate": 1e-06,
+      "loss": -0.007,
+      "num_tokens": 34163503.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.19084423780441284,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 59
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1863.0,
+      "completions/mean_length": 567.099365234375,
+      "completions/mean_terminated_length": 527.269775390625,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 0.5597667638483965,
+      "grad_norm": 0.12532348930835724,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 34715672.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17904217541217804,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 60
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2935.0,
+      "completions/mean_length": 659.638427734375,
+      "completions/mean_terminated_length": 597.1590576171875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.5690962099125364,
+      "grad_norm": 0.11917824298143387,
+      "learning_rate": 1e-06,
+      "loss": 0.0149,
+      "num_tokens": 35325196.0,
+      "reward": 0.5167410969734192,
+      "reward_std": 0.21068432927131653,
+      "rewards/verify_math_reward/mean": 0.5167410969734192,
+      "rewards/verify_math_reward/std": 0.4999987483024597,
+      "step": 61
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3161.0,
+      "completions/mean_length": 649.9676513671875,
+      "completions/mean_terminated_length": 599.2332763671875,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 0.5784256559766764,
+      "grad_norm": 0.12504246830940247,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 35938287.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.2385701686143875,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 62
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2267.0,
+      "completions/mean_length": 597.2902221679688,
+      "completions/mean_terminated_length": 545.7802734375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.13810665905475616,
+      "learning_rate": 1e-06,
+      "loss": 0.0033,
+      "num_tokens": 36498867.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.22822391986846924,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 63
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3502.0,
+      "completions/mean_length": 611.9921875,
+      "completions/mean_terminated_length": 560.69873046875,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 0.5970845481049563,
+      "grad_norm": 0.1360047310590744,
+      "learning_rate": 1e-06,
+      "loss": 0.0114,
+      "num_tokens": 37083732.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.2054981142282486,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 64
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3711.0,
+      "completions/mean_length": 617.9386596679688,
+      "completions/mean_terminated_length": 582.6482543945312,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 0.6064139941690962,
+      "grad_norm": 0.126007542014122,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 37698221.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.20400065183639526,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 65
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1989.0,
+      "completions/mean_length": 596.2142944335938,
+      "completions/mean_terminated_length": 528.52783203125,
+      "completions/min_length": 59.0,
+      "completions/min_terminated_length": 59.0,
+      "epoch": 0.6157434402332361,
+      "grad_norm": 0.12345066666603088,
+      "learning_rate": 1e-06,
+      "loss": 0.0018,
+      "num_tokens": 38261333.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17427602410316467,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 66
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 708.4420166015625,
+      "completions/mean_terminated_length": 627.1405639648438,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.6250728862973761,
+      "grad_norm": 0.12230608612298965,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 38905753.0,
+      "reward": 0.5,
+      "reward_std": 0.2242519110441208,
+      "rewards/verify_math_reward/mean": 0.5,
+      "rewards/verify_math_reward/std": 0.5002792477607727,
+      "step": 67
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4021.0,
+      "completions/mean_length": 632.646240234375,
+      "completions/mean_terminated_length": 565.6643676757812,
+      "completions/min_length": 3.0,
+      "completions/min_terminated_length": 3.0,
+      "epoch": 0.634402332361516,
+      "grad_norm": 0.13022969663143158,
+      "learning_rate": 1e-06,
+      "loss": -0.0006,
+      "num_tokens": 39486596.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.18257826566696167,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 68
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3286.0,
+      "completions/mean_length": 641.9866333007812,
+      "completions/mean_terminated_length": 603.0022583007812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.643731778425656,
+      "grad_norm": 0.12673784792423248,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 40111224.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.23615315556526184,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 69
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3815.0,
+      "completions/mean_length": 652.265625,
+      "completions/mean_terminated_length": 605.5181274414062,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.13908004760742188,
+      "learning_rate": 1e-06,
+      "loss": 0.0019,
+      "num_tokens": 40736542.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.26088592410087585,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 70
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 612.810302734375,
+      "completions/mean_terminated_length": 569.5164184570312,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 0.6623906705539359,
+      "grad_norm": 0.13196811079978943,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 41340148.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.2030581682920456,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 71
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2886.0,
+      "completions/mean_length": 633.4420166015625,
+      "completions/mean_terminated_length": 574.4880981445312,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 0.6717201166180758,
+      "grad_norm": 0.2375737726688385,
+      "learning_rate": 1e-06,
+      "loss": 0.0013,
+      "num_tokens": 41943712.0,
+      "reward": 0.5245535969734192,
+      "reward_std": 0.22184516489505768,
+      "rewards/verify_math_reward/mean": 0.5245535969734192,
+      "rewards/verify_math_reward/std": 0.4996756613254547,
+      "step": 72
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3683.0,
+      "completions/mean_length": 668.9464721679688,
+      "completions/mean_terminated_length": 578.6575317382812,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 0.6810495626822157,
+      "grad_norm": 0.125754714012146,
+      "learning_rate": 1e-06,
+      "loss": 0.0024,
+      "num_tokens": 42545656.0,
+      "reward": 0.5401785969734192,
+      "reward_std": 0.208957239985466,
+      "rewards/verify_math_reward/mean": 0.5401785969734192,
+      "rewards/verify_math_reward/std": 0.49866142868995667,
+      "step": 73
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3217.0,
+      "completions/mean_length": 711.8594360351562,
+      "completions/mean_terminated_length": 610.72412109375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 0.6903790087463557,
+      "grad_norm": 0.12093528360128403,
+      "learning_rate": 1e-06,
+      "loss": 0.008,
+      "num_tokens": 43166690.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.2078709453344345,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 74
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3360.0,
+      "completions/mean_length": 659.029052734375,
+      "completions/mean_terminated_length": 596.5386352539062,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 0.6997084548104956,
+      "grad_norm": 0.11361652612686157,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 43776708.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.1917535364627838,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 75
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2998.0,
+      "completions/mean_length": 711.169677734375,
+      "completions/mean_terminated_length": 621.9931640625,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.7090379008746356,
+      "grad_norm": 0.13189241290092468,
+      "learning_rate": 1e-06,
+      "loss": 0.0128,
+      "num_tokens": 44412948.0,
+      "reward": 0.53125,
+      "reward_std": 0.25039586424827576,
+      "rewards/verify_math_reward/mean": 0.53125,
+      "rewards/verify_math_reward/std": 0.4993011951446533,
+      "step": 76
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2839.0,
+      "completions/mean_length": 649.984375,
+      "completions/mean_terminated_length": 571.3081665039062,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.14138217270374298,
+      "learning_rate": 1e-06,
+      "loss": 0.0179,
+      "num_tokens": 45005038.0,
+      "reward": 0.546875,
+      "reward_std": 0.23957975208759308,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 77
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 648.763427734375,
+      "completions/mean_terminated_length": 570.059326171875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.7276967930029155,
+      "grad_norm": 0.1287572979927063,
+      "learning_rate": 1e-06,
+      "loss": 0.006,
+      "num_tokens": 45590322.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.20313303172588348,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 78
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3246.0,
+      "completions/mean_length": 588.5413208007812,
+      "completions/mean_terminated_length": 548.9537353515625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.7370262390670554,
+      "grad_norm": 0.139412060379982,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 46165783.0,
+      "reward": 0.5859375,
+      "reward_std": 0.22034701704978943,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 79
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 575.8939819335938,
+      "completions/mean_terminated_length": 544.1813354492188,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.7463556851311953,
+      "grad_norm": 0.14733393490314484,
+      "learning_rate": 1e-06,
+      "loss": 0.0116,
+      "num_tokens": 46739064.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.2509681284427643,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 80
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2903.0,
+      "completions/mean_length": 666.5736694335938,
+      "completions/mean_terminated_length": 600.2479858398438,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.7556851311953353,
+      "grad_norm": 0.12558312714099884,
+      "learning_rate": 1e-06,
+      "loss": 0.0132,
+      "num_tokens": 47362498.0,
+      "reward": 0.5703125,
+      "reward_std": 0.22872063517570496,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 81
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4041.0,
+      "completions/mean_length": 667.9017944335938,
+      "completions/mean_terminated_length": 573.5504150390625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.7650145772594752,
+      "grad_norm": 0.12746962904930115,
+      "learning_rate": 1e-06,
+      "loss": -0.0071,
+      "num_tokens": 47956802.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.19772042334079742,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 82
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 609.3973388671875,
+      "completions/mean_terminated_length": 566.06103515625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 0.7743440233236152,
+      "grad_norm": 0.12530255317687988,
+      "learning_rate": 1e-06,
+      "loss": -0.0014,
+      "num_tokens": 48542982.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.2122662216424942,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 83
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3931.0,
+      "completions/mean_length": 689.1395263671875,
+      "completions/mean_terminated_length": 599.3826293945312,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.13452297449111938,
+      "learning_rate": 1e-06,
+      "loss": 0.0059,
+      "num_tokens": 49161859.0,
+      "reward": 0.5,
+      "reward_std": 0.22192074358463287,
+      "rewards/verify_math_reward/mean": 0.5,
+      "rewards/verify_math_reward/std": 0.5002792477607727,
+      "step": 84
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2056.0,
+      "completions/mean_length": 623.0245971679688,
+      "completions/mean_terminated_length": 547.7833251953125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.793002915451895,
+      "grad_norm": 0.12535934150218964,
+      "learning_rate": 1e-06,
+      "loss": 0.0068,
+      "num_tokens": 49731993.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.18697144091129303,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 85
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2100.0,
+      "completions/mean_length": 600.349365234375,
+      "completions/mean_terminated_length": 568.8569946289062,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.8023323615160349,
+      "grad_norm": 0.12047363072633743,
+      "learning_rate": 1e-06,
+      "loss": -0.0128,
+      "num_tokens": 50324002.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.18708907067775726,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 86
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.010044642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3408.0,
+      "completions/mean_length": 573.5725708007812,
+      "completions/mean_terminated_length": 537.8319702148438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 0.8116618075801749,
+      "grad_norm": 0.13725604116916656,
+      "learning_rate": 1e-06,
+      "loss": 0.0138,
+      "num_tokens": 50881723.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.201027974486351,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 87
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2509.0,
+      "completions/mean_length": 607.1395263671875,
+      "completions/mean_terminated_length": 547.7378540039062,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 0.8209912536443149,
+      "grad_norm": 0.1279614120721817,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 51444352.0,
+      "reward": 0.6171875,
+      "reward_std": 0.18298916518688202,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 88
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2580.0,
+      "completions/mean_length": 672.2355346679688,
+      "completions/mean_terminated_length": 598.0604248046875,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.8303206997084548,
+      "grad_norm": 0.1233532503247261,
+      "learning_rate": 1e-06,
+      "loss": -0.0085,
+      "num_tokens": 52070699.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.1935872733592987,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 89
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2521.0,
+      "completions/mean_length": 639.6908569335938,
+      "completions/mean_terminated_length": 572.8452758789062,
+      "completions/min_length": 101.0,
+      "completions/min_terminated_length": 101.0,
+      "epoch": 0.8396501457725948,
+      "grad_norm": 0.12155285477638245,
+      "learning_rate": 1e-06,
+      "loss": 0.0034,
+      "num_tokens": 52661782.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.17690393328666687,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973995089530945,
+      "step": 90
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3007.0,
+      "completions/mean_length": 644.9464721679688,
+      "completions/mean_terminated_length": 578.2025146484375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.12493814527988434,
+      "learning_rate": 1e-06,
+      "loss": 0.0022,
+      "num_tokens": 53257982.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.18588514626026154,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 91
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 651.6585083007812,
+      "completions/mean_terminated_length": 596.9863891601562,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 0.8583090379008746,
+      "grad_norm": 0.11729107052087784,
+      "learning_rate": 1e-06,
+      "loss": 0.0186,
+      "num_tokens": 53871604.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1893460899591446,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 92
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3905.0,
+      "completions/mean_length": 634.122802734375,
+      "completions/mean_terminated_length": 563.150390625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 0.8676384839650145,
+      "grad_norm": 0.14197830855846405,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 54463586.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.25926899909973145,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 93
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3285.0,
+      "completions/mean_length": 618.9520263671875,
+      "completions/mean_terminated_length": 579.7077026367188,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 0.8769679300291545,
+      "grad_norm": 0.12423322349786758,
+      "learning_rate": 1e-06,
+      "loss": -0.0008,
+      "num_tokens": 55053959.0,
+      "reward": 0.5859375,
+      "reward_std": 0.19234876334667206,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 94
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3804.0,
+      "completions/mean_length": 676.2890625,
+      "completions/mean_terminated_length": 602.2017822265625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 0.8862973760932945,
+      "grad_norm": 0.11907894164323807,
+      "learning_rate": 1e-06,
+      "loss": 0.0036,
+      "num_tokens": 55669586.0,
+      "reward": 0.5535714626312256,
+      "reward_std": 0.19294928014278412,
+      "rewards/verify_math_reward/mean": 0.5535714030265808,
+      "rewards/verify_math_reward/std": 0.4973995089530945,
+      "step": 95
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3194.0,
+      "completions/mean_length": 643.1004638671875,
+      "completions/mean_terminated_length": 592.2650146484375,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.8956268221574344,
+      "grad_norm": 0.12358750402927399,
+      "learning_rate": 1e-06,
+      "loss": 0.0149,
+      "num_tokens": 56276012.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.21958816051483154,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 96
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3991.0,
+      "completions/mean_length": 662.0636596679688,
+      "completions/mean_terminated_length": 603.5971069335938,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 0.9049562682215744,
+      "grad_norm": 0.11952099204063416,
+      "learning_rate": 1e-06,
+      "loss": 0.0138,
+      "num_tokens": 56899077.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2015172392129898,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 97
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2761.0,
+      "completions/mean_length": 702.7935791015625,
+      "completions/mean_terminated_length": 637.1683349609375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.11333039402961731,
+      "learning_rate": 1e-06,
+      "loss": 0.0093,
+      "num_tokens": 57545076.0,
+      "reward": 0.5133928656578064,
+      "reward_std": 0.19054116308689117,
+      "rewards/verify_math_reward/mean": 0.5133928656578064,
+      "rewards/verify_math_reward/std": 0.500099778175354,
+      "step": 98
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3370.0,
+      "completions/mean_length": 671.5201416015625,
+      "completions/mean_terminated_length": 601.3143920898438,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 0.9236151603498542,
+      "grad_norm": 0.1330297440290451,
+      "learning_rate": 1e-06,
+      "loss": 0.0103,
+      "num_tokens": 58172246.0,
+      "reward": 0.5145089626312256,
+      "reward_std": 0.22120507061481476,
+      "rewards/verify_math_reward/mean": 0.5145089030265808,
+      "rewards/verify_math_reward/std": 0.5000685453414917,
+      "step": 99
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 693.1641235351562,
+      "completions/mean_terminated_length": 603.51318359375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.9329446064139941,
+      "grad_norm": 0.1167035773396492,
+      "learning_rate": 1e-06,
+      "loss": -0.0026,
+      "num_tokens": 58789377.0,
+      "reward": 0.5703125,
+      "reward_std": 0.17581875622272491,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3859.0,
+      "completions/mean_length": 664.2801513671875,
+      "completions/mean_terminated_length": 589.9327392578125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 0.9422740524781341,
+      "grad_norm": 0.12442203611135483,
+      "learning_rate": 1e-06,
+      "loss": -0.0085,
+      "num_tokens": 59392268.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.1979147344827652,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3652.0,
+      "completions/mean_length": 638.84375,
+      "completions/mean_terminated_length": 595.8734741210938,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 0.9516034985422741,
+      "grad_norm": 0.1264164000749588,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 60019528.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.2003892958164215,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 734.8482666015625,
+      "completions/mean_terminated_length": 646.2955932617188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 0.960932944606414,
+      "grad_norm": 0.11680614203214645,
+      "learning_rate": 1e-06,
+      "loss": 0.0154,
+      "num_tokens": 60671208.0,
+      "reward": 0.546875,
+      "reward_std": 0.18077746033668518,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.011160714285714302,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3937.0,
+      "completions/mean_length": 614.7957763671875,
+      "completions/mean_terminated_length": 575.5045166015625,
+      "completions/min_length": 83.0,
+      "completions/min_terminated_length": 83.0,
+      "epoch": 0.970262390670554,
+      "grad_norm": 0.139450803399086,
+      "learning_rate": 1e-06,
+      "loss": 0.0195,
+      "num_tokens": 61274049.0,
+      "reward": 0.59375,
+      "reward_std": 0.24026376008987427,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 591.904052734375,
+      "completions/mean_terminated_length": 536.283447265625,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.1420077532529831,
+      "learning_rate": 1e-06,
+      "loss": -0.0005,
+      "num_tokens": 61834947.0,
+      "reward": 0.546875,
+      "reward_std": 0.2228643298149109,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3632.0,
+      "completions/mean_length": 633.6864013671875,
+      "completions/mean_terminated_length": 574.7366943359375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.9889212827988338,
+      "grad_norm": 0.1315501481294632,
+      "learning_rate": 1e-06,
+      "loss": -0.0082,
+      "num_tokens": 62423482.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.18070074915885925,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.019886363636363646,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3818.0,
+      "completions/mean_length": 602.875,
+      "completions/mean_terminated_length": 532.0,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 0.9982507288629737,
+      "grad_norm": 0.13619235157966614,
+      "learning_rate": 1e-06,
+      "loss": 0.0101,
+      "num_tokens": 63009874.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.22102029621601105,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.014508928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2732.0,
+      "completions/mean_length": 620.9989013671875,
+      "completions/mean_terminated_length": 569.8380126953125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.00932944606414,
+      "grad_norm": 0.13184566795825958,
+      "learning_rate": 1e-06,
+      "loss": 0.0037,
+      "num_tokens": 63603465.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.22684520483016968,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514803290367126,
+      "step": 108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 652.6551513671875,
+      "completions/mean_terminated_length": 570.0148315429688,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 1.01865889212828,
+      "grad_norm": 0.13099420070648193,
+      "learning_rate": 1e-06,
+      "loss": 0.0235,
+      "num_tokens": 64198676.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.21658366918563843,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3688.0,
+      "completions/mean_length": 675.78125,
+      "completions/mean_terminated_length": 601.6829833984375,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 1.0279883381924197,
+      "grad_norm": 0.12204349040985107,
+      "learning_rate": 1e-06,
+      "loss": -0.0039,
+      "num_tokens": 64819352.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.19715909659862518,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943602085113525,
+      "step": 110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3496.0,
+      "completions/mean_length": 687.6842041015625,
+      "completions/mean_terminated_length": 573.6804809570312,
+      "completions/min_length": 87.0,
+      "completions/min_terminated_length": 87.0,
+      "epoch": 1.0373177842565597,
+      "grad_norm": 0.11746125668287277,
+      "learning_rate": 1e-06,
+      "loss": -0.0001,
+      "num_tokens": 65421109.0,
+      "reward": 0.5066964626312256,
+      "reward_std": 0.17341159284114838,
+      "rewards/verify_math_reward/mean": 0.5066964030265808,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4081.0,
+      "completions/mean_length": 616.5045166015625,
+      "completions/mean_terminated_length": 561.2744140625,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 1.0466472303206997,
+      "grad_norm": 0.12566648423671722,
+      "learning_rate": 1e-06,
+      "loss": -0.0085,
+      "num_tokens": 66010729.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.19186089932918549,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2760.0,
+      "completions/mean_length": 630.2623291015625,
+      "completions/mean_terminated_length": 567.2488403320312,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 1.0559766763848397,
+      "grad_norm": 0.11994180083274841,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 66600540.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.17904217541217804,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2407.0,
+      "completions/mean_length": 659.8504638671875,
+      "completions/mean_terminated_length": 577.3828735351562,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 1.0653061224489795,
+      "grad_norm": 0.1303776204586029,
+      "learning_rate": 1e-06,
+      "loss": -0.0064,
+      "num_tokens": 67217198.0,
+      "reward": 0.5066964626312256,
+      "reward_std": 0.21001102030277252,
+      "rewards/verify_math_reward/mean": 0.5066964030265808,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3434.0,
+      "completions/mean_length": 661.591552734375,
+      "completions/mean_terminated_length": 563.014892578125,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 1.0746355685131195,
+      "grad_norm": 0.12177181243896484,
+      "learning_rate": 1e-06,
+      "loss": 0.0079,
+      "num_tokens": 67795496.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.18798990547657013,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715372920036316,
+      "step": 115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3010.0,
+      "completions/mean_length": 641.4921875,
+      "completions/mean_terminated_length": 586.6587524414062,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 1.0839650145772595,
+      "grad_norm": 0.13219384849071503,
+      "learning_rate": 1e-06,
+      "loss": 0.0078,
+      "num_tokens": 68400769.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.22323454916477203,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3392.0,
+      "completions/mean_length": 622.1629638671875,
+      "completions/mean_terminated_length": 563.0170288085938,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 1.0932944606413995,
+      "grad_norm": 0.13247352838516235,
+      "learning_rate": 1e-06,
+      "loss": 0.0075,
+      "num_tokens": 68981907.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.22901484370231628,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2248.0,
+      "completions/mean_length": 650.8873291015625,
+      "completions/mean_terminated_length": 592.23046875,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 1.1026239067055394,
+      "grad_norm": 0.11174468696117401,
+      "learning_rate": 1e-06,
+      "loss": 0.0116,
+      "num_tokens": 69578014.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.17223836481571198,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2884.0,
+      "completions/mean_length": 620.458740234375,
+      "completions/mean_terminated_length": 537.0457153320312,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 1.1119533527696792,
+      "grad_norm": 0.12506945431232452,
+      "learning_rate": 1e-06,
+      "loss": 0.0044,
+      "num_tokens": 70121553.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.16901816427707672,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3575.0,
+      "completions/mean_length": 668.9174194335938,
+      "completions/mean_terminated_length": 598.6583251953125,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 1.1212827988338192,
+      "grad_norm": 0.13134749233722687,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 70743815.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.23278099298477173,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3602.0,
+      "completions/mean_length": 678.8147583007812,
+      "completions/mean_terminated_length": 596.8023071289062,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 1.1306122448979592,
+      "grad_norm": 0.13624440133571625,
+      "learning_rate": 1e-06,
+      "loss": -0.0165,
+      "num_tokens": 71363217.0,
+      "reward": 0.5345982313156128,
+      "reward_std": 0.22443917393684387,
+      "rewards/verify_math_reward/mean": 0.5345982313156128,
+      "rewards/verify_math_reward/std": 0.4990801215171814,
+      "step": 121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2014.0,
+      "completions/mean_length": 645.9609375,
+      "completions/mean_terminated_length": 563.1599731445312,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 1.1399416909620992,
+      "grad_norm": 0.12669922411441803,
+      "learning_rate": 1e-06,
+      "loss": -0.0141,
+      "num_tokens": 71934550.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.18670859932899475,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3769.0,
+      "completions/mean_length": 704.208740234375,
+      "completions/mean_terminated_length": 610.8566284179688,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.149271137026239,
+      "grad_norm": 0.12893548607826233,
+      "learning_rate": 1e-06,
+      "loss": 0.0176,
+      "num_tokens": 72557305.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.23244328796863556,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2902.0,
+      "completions/mean_length": 642.6171875,
+      "completions/mean_terminated_length": 563.7728271484375,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 1.158600583090379,
+      "grad_norm": 0.1255681812763214,
+      "learning_rate": 1e-06,
+      "loss": 0.005,
+      "num_tokens": 73140682.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.17577557265758514,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3902.0,
+      "completions/mean_length": 713.0971069335938,
+      "completions/mean_terminated_length": 623.9713745117188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 1.167930029154519,
+      "grad_norm": 0.10720223933458328,
+      "learning_rate": 1e-06,
+      "loss": 0.0077,
+      "num_tokens": 73775753.0,
+      "reward": 0.5066964626312256,
+      "reward_std": 0.16247648000717163,
+      "rewards/verify_math_reward/mean": 0.5066964030265808,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3836.0,
+      "completions/mean_length": 633.5279541015625,
+      "completions/mean_terminated_length": 578.5680541992188,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.177259475218659,
+      "grad_norm": 0.12771426141262054,
+      "learning_rate": 1e-06,
+      "loss": -0.0002,
+      "num_tokens": 74374530.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1678474396467209,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3944.0,
+      "completions/mean_length": 665.1261596679688,
+      "completions/mean_terminated_length": 582.78515625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.186588921282799,
+      "grad_norm": 0.12777753174304962,
+      "learning_rate": 1e-06,
+      "loss": 0.005,
+      "num_tokens": 74967067.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.17107835412025452,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1992.0,
+      "completions/mean_length": 646.2042846679688,
+      "completions/mean_terminated_length": 579.484619140625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 1.1959183673469387,
+      "grad_norm": 0.13895373046398163,
+      "learning_rate": 1e-06,
+      "loss": 0.0112,
+      "num_tokens": 75568354.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.23165053129196167,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2431.0,
+      "completions/mean_length": 651.9832763671875,
+      "completions/mean_terminated_length": 589.36474609375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 1.2052478134110787,
+      "grad_norm": 0.13100416958332062,
+      "learning_rate": 1e-06,
+      "loss": 0.0138,
+      "num_tokens": 76180083.0,
+      "reward": 0.5502232313156128,
+      "reward_std": 0.2245786488056183,
+      "rewards/verify_math_reward/mean": 0.5502232313156128,
+      "rewards/verify_math_reward/std": 0.49774909019470215,
+      "step": 129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4023.0,
+      "completions/mean_length": 755.8381958007812,
+      "completions/mean_terminated_length": 652.0587158203125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 1.2145772594752187,
+      "grad_norm": 0.11624865978956223,
+      "learning_rate": 1e-06,
+      "loss": -0.0078,
+      "num_tokens": 76839866.0,
+      "reward": 0.5245535969734192,
+      "reward_std": 0.2003878951072693,
+      "rewards/verify_math_reward/mean": 0.5245535969734192,
+      "rewards/verify_math_reward/std": 0.4996756613254547,
+      "step": 130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3677.0,
+      "completions/mean_length": 581.8192138671875,
+      "completions/mean_terminated_length": 534.1154174804688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.2239067055393587,
+      "grad_norm": 0.11987384408712387,
+      "learning_rate": 1e-06,
+      "loss": 0.0089,
+      "num_tokens": 77397176.0,
+      "reward": 0.625,
+      "reward_std": 0.174800306558609,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3192.0,
+      "completions/mean_length": 628.9085083007812,
+      "completions/mean_terminated_length": 545.6983032226562,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 1.2332361516034984,
+      "grad_norm": 0.1218874454498291,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 77960158.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.16709604859352112,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2199.0,
+      "completions/mean_length": 640.3795166015625,
+      "completions/mean_terminated_length": 569.5353393554688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.2425655976676384,
+      "grad_norm": 0.12592343986034393,
+      "learning_rate": 1e-06,
+      "loss": 0.0114,
+      "num_tokens": 78551082.0,
+      "reward": 0.53125,
+      "reward_std": 0.20174364745616913,
+      "rewards/verify_math_reward/mean": 0.53125,
+      "rewards/verify_math_reward/std": 0.4993011951446533,
+      "step": 133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3893.0,
+      "completions/mean_length": 589.3203125,
+      "completions/mean_terminated_length": 565.6798095703125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.2518950437317784,
+      "grad_norm": 0.1288214921951294,
+      "learning_rate": 1e-06,
+      "loss": 0.0035,
+      "num_tokens": 79135801.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.21053165197372437,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2917.0,
+      "completions/mean_length": 628.3549194335938,
+      "completions/mean_terminated_length": 549.1849365234375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.2612244897959184,
+      "grad_norm": 0.14329035580158234,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 79700903.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.22620469331741333,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3282.0,
+      "completions/mean_length": 614.4408569335938,
+      "completions/mean_terminated_length": 559.1780395507812,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 1.2705539358600584,
+      "grad_norm": 0.12524747848510742,
+      "learning_rate": 1e-06,
+      "loss": 0.0084,
+      "num_tokens": 80285698.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.19212302565574646,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2938.0,
+      "completions/mean_length": 677.765625,
+      "completions/mean_terminated_length": 583.6857299804688,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 1.2798833819241984,
+      "grad_norm": 0.12303480505943298,
+      "learning_rate": 1e-06,
+      "loss": -0.0103,
+      "num_tokens": 80880896.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.18772847950458527,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 667.2846069335938,
+      "completions/mean_terminated_length": 589.00341796875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 1.2892128279883381,
+      "grad_norm": 0.11458269506692886,
+      "learning_rate": 1e-06,
+      "loss": -0.0034,
+      "num_tokens": 81489175.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.17348577082157135,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715372920036316,
+      "step": 138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3072.0,
+      "completions/mean_length": 659.4542846679688,
+      "completions/mean_terminated_length": 600.9432983398438,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 1.2985422740524781,
+      "grad_norm": 0.14296361804008484,
+      "learning_rate": 1e-06,
+      "loss": 0.0144,
+      "num_tokens": 82114390.0,
+      "reward": 0.5066964626312256,
+      "reward_std": 0.22808054089546204,
+      "rewards/verify_math_reward/mean": 0.5066964030265808,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2636.0,
+      "completions/mean_length": 691.6451416015625,
+      "completions/mean_terminated_length": 617.8905029296875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 1.3078717201166181,
+      "grad_norm": 0.11705105751752853,
+      "learning_rate": 1e-06,
+      "loss": 0.0053,
+      "num_tokens": 82749336.0,
+      "reward": 0.4933035969734192,
+      "reward_std": 0.1844961941242218,
+      "rewards/verify_math_reward/mean": 0.4933035671710968,
+      "rewards/verify_math_reward/std": 0.5002344250679016,
+      "step": 140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 689.5513916015625,
+      "completions/mean_terminated_length": 607.7965698242188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.3172011661807579,
+      "grad_norm": 0.12601278722286224,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 83375086.0,
+      "reward": 0.5089285969734192,
+      "reward_std": 0.2058332860469818,
+      "rewards/verify_math_reward/mean": 0.5089285969734192,
+      "rewards/verify_math_reward/std": 0.5001994967460632,
+      "step": 141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3122.0,
+      "completions/mean_length": 697.591552734375,
+      "completions/mean_terminated_length": 604.0573120117188,
+      "completions/min_length": 52.0,
+      "completions/min_terminated_length": 52.0,
+      "epoch": 1.3265306122448979,
+      "grad_norm": 0.12080052495002747,
+      "learning_rate": 1e-06,
+      "loss": 0.0115,
+      "num_tokens": 83995232.0,
+      "reward": 0.543526828289032,
+      "reward_std": 0.18517090380191803,
+      "rewards/verify_math_reward/mean": 0.5435267686843872,
+      "rewards/verify_math_reward/std": 0.49838000535964966,
+      "step": 142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 699.6986694335938,
+      "completions/mean_terminated_length": 598.2000122070312,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 1.3358600583090379,
+      "grad_norm": 0.13864567875862122,
+      "learning_rate": 1e-06,
+      "loss": 0.0198,
+      "num_tokens": 84607234.0,
+      "reward": 0.5212053656578064,
+      "reward_std": 0.2281247079372406,
+      "rewards/verify_math_reward/mean": 0.5212053656578064,
+      "rewards/verify_math_reward/std": 0.49982914328575134,
+      "step": 143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2969.0,
+      "completions/mean_length": 718.8314819335938,
+      "completions/mean_terminated_length": 633.8226318359375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.3451895043731779,
+      "grad_norm": 0.1279512494802475,
+      "learning_rate": 1e-06,
+      "loss": 0.0016,
+      "num_tokens": 85257411.0,
+      "reward": 0.5401785969734192,
+      "reward_std": 0.198696106672287,
+      "rewards/verify_math_reward/mean": 0.5401785969734192,
+      "rewards/verify_math_reward/std": 0.49866142868995667,
+      "step": 144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 664.677490234375,
+      "completions/mean_terminated_length": 574.2760620117188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.3545189504373178,
+      "grad_norm": 0.14231976866722107,
+      "learning_rate": 1e-06,
+      "loss": -0.0036,
+      "num_tokens": 85845410.0,
+      "reward": 0.609375,
+      "reward_std": 0.21752910315990448,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3667.0,
+      "completions/mean_length": 714.4017944335938,
+      "completions/mean_terminated_length": 621.3302612304688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 1.3638483965014578,
+      "grad_norm": 0.12819808721542358,
+      "learning_rate": 1e-06,
+      "loss": -0.0091,
+      "num_tokens": 86490594.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.21673564612865448,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 747.0558471679688,
+      "completions/mean_terminated_length": 606.867431640625,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 1.3731778425655976,
+      "grad_norm": 0.13006004691123962,
+      "learning_rate": 1e-06,
+      "loss": 0.0244,
+      "num_tokens": 87100108.0,
+      "reward": 0.5267857313156128,
+      "reward_std": 0.196895569562912,
+      "rewards/verify_math_reward/mean": 0.5267857313156128,
+      "rewards/verify_math_reward/std": 0.4995608627796173,
+      "step": 147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3927.0,
+      "completions/mean_length": 730.810302734375,
+      "completions/mean_terminated_length": 630.2413940429688,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 1.3825072886297376,
+      "grad_norm": 0.133043572306633,
+      "learning_rate": 1e-06,
+      "loss": 0.0112,
+      "num_tokens": 87731866.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.2325078845024109,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3835.0,
+      "completions/mean_length": 629.466552734375,
+      "completions/mean_terminated_length": 558.398681640625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 1.3918367346938776,
+      "grad_norm": 0.10918683558702469,
+      "learning_rate": 1e-06,
+      "loss": -0.0012,
+      "num_tokens": 88306764.0,
+      "reward": 0.6015625,
+      "reward_std": 0.15059703588485718,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1983.0,
+      "completions/mean_length": 653.9252319335938,
+      "completions/mean_terminated_length": 579.3534545898438,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 1.4011661807580174,
+      "grad_norm": 0.12218791991472244,
+      "learning_rate": 1e-06,
+      "loss": -0.0124,
+      "num_tokens": 88911113.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1806679666042328,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3154.0,
+      "completions/mean_length": 712.6027221679688,
+      "completions/mean_terminated_length": 599.4324951171875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.4104956268221573,
+      "grad_norm": 0.12704800069332123,
+      "learning_rate": 1e-06,
+      "loss": 0.0132,
+      "num_tokens": 89528021.0,
+      "reward": 0.5446428656578064,
+      "reward_std": 0.19745828211307526,
+      "rewards/verify_math_reward/mean": 0.5446428656578064,
+      "rewards/verify_math_reward/std": 0.49828118085861206,
+      "step": 151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3326.0,
+      "completions/mean_length": 631.6897583007812,
+      "completions/mean_terminated_length": 568.7022705078125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 1.4198250728862973,
+      "grad_norm": 0.12975318729877472,
+      "learning_rate": 1e-06,
+      "loss": 0.0073,
+      "num_tokens": 90112959.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.20463047921657562,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2905.0,
+      "completions/mean_length": 638.380615234375,
+      "completions/mean_terminated_length": 567.4954833984375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 1.4291545189504373,
+      "grad_norm": 0.12570594251155853,
+      "learning_rate": 1e-06,
+      "loss": 0.0101,
+      "num_tokens": 90700444.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.18257547914981842,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3382.0,
+      "completions/mean_length": 630.8504638671875,
+      "completions/mean_terminated_length": 575.8480834960938,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 1.4384839650145773,
+      "grad_norm": 0.11297712475061417,
+      "learning_rate": 1e-06,
+      "loss": 0.0059,
+      "num_tokens": 91290870.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.18347588181495667,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644601345062,
+      "step": 154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3250.0,
+      "completions/mean_length": 595.1138916015625,
+      "completions/mean_terminated_length": 539.5442504882812,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 1.4478134110787173,
+      "grad_norm": 0.12884287536144257,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 91851076.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.2043701708316803,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3097.0,
+      "completions/mean_length": 618.2433471679688,
+      "completions/mean_terminated_length": 559.0307006835938,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 1.457142857142857,
+      "grad_norm": 0.1330742985010147,
+      "learning_rate": 1e-06,
+      "loss": -0.0053,
+      "num_tokens": 92432886.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.1982824206352234,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2748.0,
+      "completions/mean_length": 706.7098388671875,
+      "completions/mean_terminated_length": 625.3668212890625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.466472303206997,
+      "grad_norm": 0.12443883717060089,
+      "learning_rate": 1e-06,
+      "loss": -0.0002,
+      "num_tokens": 93071586.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.18761970102787018,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3262.0,
+      "completions/mean_length": 676.2824096679688,
+      "completions/mean_terminated_length": 598.2066040039062,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 1.475801749271137,
+      "grad_norm": 0.12442443519830704,
+      "learning_rate": 1e-06,
+      "loss": -0.0001,
+      "num_tokens": 93686471.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.18829302489757538,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2785.0,
+      "completions/mean_length": 687.3047485351562,
+      "completions/mean_terminated_length": 601.5022583007812,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 1.485131195335277,
+      "grad_norm": 0.12545685470104218,
+      "learning_rate": 1e-06,
+      "loss": 0.0019,
+      "num_tokens": 94290728.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.18678458034992218,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 688.3013916015625,
+      "completions/mean_terminated_length": 606.5165405273438,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 1.4944606413994168,
+      "grad_norm": 0.12918633222579956,
+      "learning_rate": 1e-06,
+      "loss": -0.0027,
+      "num_tokens": 94911534.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.211582213640213,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 160
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4007.0,
+      "completions/mean_length": 674.7667846679688,
+      "completions/mean_terminated_length": 608.5995483398438,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 1.5037900874635568,
+      "grad_norm": 0.1253700703382492,
+      "learning_rate": 1e-06,
+      "loss": 0.0148,
+      "num_tokens": 95528885.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.20711347460746765,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4010.0,
+      "completions/mean_length": 735.2533569335938,
+      "completions/mean_terminated_length": 622.8408203125,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 1.5131195335276968,
+      "grad_norm": 0.12896056473255157,
+      "learning_rate": 1e-06,
+      "loss": 0.0068,
+      "num_tokens": 96164328.0,
+      "reward": 0.546875,
+      "reward_std": 0.19381371140480042,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2627.0,
+      "completions/mean_length": 666.7678833007812,
+      "completions/mean_terminated_length": 592.4743041992188,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 1.5224489795918368,
+      "grad_norm": 0.13119478523731232,
+      "learning_rate": 1e-06,
+      "loss": 0.0047,
+      "num_tokens": 96785544.0,
+      "reward": 0.5256696939468384,
+      "reward_std": 0.2169952541589737,
+      "rewards/verify_math_reward/mean": 0.5256696343421936,
+      "rewards/verify_math_reward/std": 0.4996195137500763,
+      "step": 163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3694.0,
+      "completions/mean_length": 639.7980346679688,
+      "completions/mean_terminated_length": 552.7997436523438,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.5317784256559768,
+      "grad_norm": 0.12215036153793335,
+      "learning_rate": 1e-06,
+      "loss": -0.0031,
+      "num_tokens": 97362179.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.17577417194843292,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3940.0,
+      "completions/mean_length": 729.3917846679688,
+      "completions/mean_terminated_length": 624.7905883789062,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 1.5411078717201168,
+      "grad_norm": 0.12878678739070892,
+      "learning_rate": 1e-06,
+      "loss": 0.0081,
+      "num_tokens": 97997010.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.21469798684120178,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2869.0,
+      "completions/mean_length": 629.8772583007812,
+      "completions/mean_terminated_length": 546.6903076171875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.5504373177842565,
+      "grad_norm": 0.12062986195087433,
+      "learning_rate": 1e-06,
+      "loss": 0.0082,
+      "num_tokens": 98568924.0,
+      "reward": 0.5691964626312256,
+      "reward_std": 0.1649598926305771,
+      "rewards/verify_math_reward/mean": 0.5691964030265808,
+      "rewards/verify_math_reward/std": 0.4954652488231659,
+      "step": 166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 670.068115234375,
+      "completions/mean_terminated_length": 603.8099975585938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 1.5597667638483965,
+      "grad_norm": 0.1336459517478943,
+      "learning_rate": 1e-06,
+      "loss": 0.0079,
+      "num_tokens": 99182577.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.24498917162418365,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2902.0,
+      "completions/mean_length": 708.825927734375,
+      "completions/mean_terminated_length": 615.6008911132812,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.5690962099125363,
+      "grad_norm": 0.10686108469963074,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 99803725.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.17739246785640717,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514806270599365,
+      "step": 168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3401.0,
+      "completions/mean_length": 664.8270263671875,
+      "completions/mean_terminated_length": 582.4788208007812,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 1.5784256559766763,
+      "grad_norm": 0.13156671822071075,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 100401194.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.22101962566375732,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3616.0,
+      "completions/mean_length": 720.364990234375,
+      "completions/mean_terminated_length": 607.4544067382812,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 1.5877551020408163,
+      "grad_norm": 0.12857548892498016,
+      "learning_rate": 1e-06,
+      "loss": 0.0009,
+      "num_tokens": 101017025.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.20026984810829163,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2680.0,
+      "completions/mean_length": 676.6194458007812,
+      "completions/mean_terminated_length": 594.5542602539062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.5970845481049563,
+      "grad_norm": 0.1252916157245636,
+      "learning_rate": 1e-06,
+      "loss": 0.0008,
+      "num_tokens": 101628348.0,
+      "reward": 0.5703125,
+      "reward_std": 0.18362995982170105,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2716.0,
+      "completions/mean_length": 682.0424194335938,
+      "completions/mean_terminated_length": 627.8526000976562,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 1.6064139941690962,
+      "grad_norm": 0.12653912603855133,
+      "learning_rate": 1e-06,
+      "loss": 0.0212,
+      "num_tokens": 102273866.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.21647420525550842,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3430.0,
+      "completions/mean_length": 669.6239013671875,
+      "completions/mean_terminated_length": 571.27783203125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 1.6157434402332362,
+      "grad_norm": 0.12435685098171234,
+      "learning_rate": 1e-06,
+      "loss": -0.0051,
+      "num_tokens": 102851897.0,
+      "reward": 0.6171875,
+      "reward_std": 0.176642507314682,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3958.0,
+      "completions/mean_length": 651.1842041015625,
+      "completions/mean_terminated_length": 564.4725341796875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.6250728862973762,
+      "grad_norm": 0.13036301732063293,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 103435558.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.1837814897298813,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3609.0,
+      "completions/mean_length": 665.9453125,
+      "completions/mean_terminated_length": 611.5,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 1.634402332361516,
+      "grad_norm": 0.12362460047006607,
+      "learning_rate": 1e-06,
+      "loss": 0.0183,
+      "num_tokens": 104083269.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.20080046355724335,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 699.818115234375,
+      "completions/mean_terminated_length": 610.342529296875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 1.643731778425656,
+      "grad_norm": 0.126058429479599,
+      "learning_rate": 1e-06,
+      "loss": 0.0012,
+      "num_tokens": 104706402.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.2046714425086975,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2311.0,
+      "completions/mean_length": 702.239990234375,
+      "completions/mean_terminated_length": 588.72314453125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 1.6530612244897958,
+      "grad_norm": 0.1367228776216507,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 105307441.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.21527138352394104,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3785.0,
+      "completions/mean_length": 677.0580444335938,
+      "completions/mean_terminated_length": 574.8827514648438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 1.6623906705539357,
+      "grad_norm": 0.13413365185260773,
+      "learning_rate": 1e-06,
+      "loss": 0.0233,
+      "num_tokens": 105891045.0,
+      "reward": 0.625,
+      "reward_std": 0.19622154533863068,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3353.0,
+      "completions/mean_length": 635.6685791015625,
+      "completions/mean_terminated_length": 576.7525634765625,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 1.6717201166180757,
+      "grad_norm": 0.12873566150665283,
+      "learning_rate": 1e-06,
+      "loss": 0.0031,
+      "num_tokens": 106481348.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.182315856218338,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3820.0,
+      "completions/mean_length": 642.4163208007812,
+      "completions/mean_terminated_length": 563.5673217773438,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.6810495626822157,
+      "grad_norm": 0.12520509958267212,
+      "learning_rate": 1e-06,
+      "loss": -0.0019,
+      "num_tokens": 107061937.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.17938552796840668,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3912.0,
+      "completions/mean_length": 707.4498291015625,
+      "completions/mean_terminated_length": 590.0634765625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 1.6903790087463557,
+      "grad_norm": 0.12314064055681229,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 107655780.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.17964836955070496,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3921.0,
+      "completions/mean_length": 773.8717041015625,
+      "completions/mean_terminated_length": 654.8126831054688,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 1.6997084548104957,
+      "grad_norm": 0.11460225284099579,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 108326697.0,
+      "reward": 0.5033482313156128,
+      "reward_std": 0.20655006170272827,
+      "rewards/verify_math_reward/mean": 0.5033482313156128,
+      "rewards/verify_math_reward/std": 0.5002680420875549,
+      "step": 182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.008928571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3508.0,
+      "completions/mean_length": 568.2210083007812,
+      "completions/mean_terminated_length": 536.439208984375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 1.7090379008746357,
+      "grad_norm": 0.15026937425136566,
+      "learning_rate": 1e-06,
+      "loss": 0.0064,
+      "num_tokens": 108898831.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.2181578129529953,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3214.0,
+      "completions/mean_length": 674.3426513671875,
+      "completions/mean_terminated_length": 604.1947631835938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 1.7183673469387755,
+      "grad_norm": 0.11818968504667282,
+      "learning_rate": 1e-06,
+      "loss": 0.0194,
+      "num_tokens": 109522162.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.18693752586841583,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3660.0,
+      "completions/mean_length": 703.763427734375,
+      "completions/mean_terminated_length": 606.397216796875,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 1.7276967930029155,
+      "grad_norm": 0.12568622827529907,
+      "learning_rate": 1e-06,
+      "loss": 0.0105,
+      "num_tokens": 110136118.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.19580180943012238,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3221.0,
+      "completions/mean_length": 674.255615234375,
+      "completions/mean_terminated_length": 600.124267578125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.7370262390670554,
+      "grad_norm": 0.1335996836423874,
+      "learning_rate": 1e-06,
+      "loss": 0.0032,
+      "num_tokens": 110754275.0,
+      "reward": 0.5290178656578064,
+      "reward_std": 0.2127886563539505,
+      "rewards/verify_math_reward/mean": 0.5290178656578064,
+      "rewards/verify_math_reward/std": 0.49943602085113525,
+      "step": 186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.017857142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3063.0,
+      "completions/mean_length": 618.6942138671875,
+      "completions/mean_terminated_length": 555.470458984375,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 1.7463556851311952,
+      "grad_norm": 0.12500326335430145,
+      "learning_rate": 1e-06,
+      "loss": 0.019,
+      "num_tokens": 111330833.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.18979327380657196,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4048.0,
+      "completions/mean_length": 766.2076416015625,
+      "completions/mean_terminated_length": 630.8501586914062,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 1.7556851311953352,
+      "grad_norm": 0.130299910902977,
+      "learning_rate": 1e-06,
+      "loss": -0.0104,
+      "num_tokens": 111965011.0,
+      "reward": 0.5703125,
+      "reward_std": 0.19926205277442932,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3126.0,
+      "completions/mean_length": 680.6015625,
+      "completions/mean_terminated_length": 594.6304321289062,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 1.7650145772594752,
+      "grad_norm": 0.13165517151355743,
+      "learning_rate": 1e-06,
+      "loss": 0.0071,
+      "num_tokens": 112581406.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.20080116391181946,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3959.0,
+      "completions/mean_length": 742.8147583007812,
+      "completions/mean_terminated_length": 638.630615234375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 1.7743440233236152,
+      "grad_norm": 0.1261264979839325,
+      "learning_rate": 1e-06,
+      "loss": -0.0072,
+      "num_tokens": 113221160.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.20489898324012756,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3226.0,
+      "completions/mean_length": 634.4866333007812,
+      "completions/mean_terminated_length": 567.5403442382812,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 1.7836734693877552,
+      "grad_norm": 0.1222400888800621,
+      "learning_rate": 1e-06,
+      "loss": -0.0081,
+      "num_tokens": 113810380.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.15537773072719574,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0200892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3573.0,
+      "completions/mean_length": 660.5859375,
+      "completions/mean_terminated_length": 590.1560668945312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.7930029154518952,
+      "grad_norm": 0.12068247050046921,
+      "learning_rate": 1e-06,
+      "loss": 0.0157,
+      "num_tokens": 114412185.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.20117954909801483,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3504.0,
+      "completions/mean_length": 751.6295166015625,
+      "completions/mean_terminated_length": 639.7647094726562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 1.802332361516035,
+      "grad_norm": 0.11500409245491028,
+      "learning_rate": 1e-06,
+      "loss": -0.0104,
+      "num_tokens": 115059357.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.16717413067817688,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3045.0,
+      "completions/mean_length": 645.4129638671875,
+      "completions/mean_terminated_length": 570.6567993164062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 1.811661807580175,
+      "grad_norm": 0.12167953699827194,
+      "learning_rate": 1e-06,
+      "loss": -0.0072,
+      "num_tokens": 115645279.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.17164427042007446,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3930.0,
+      "completions/mean_length": 658.0100708007812,
+      "completions/mean_terminated_length": 583.5267944335938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 1.820991253644315,
+      "grad_norm": 0.13267289102077484,
+      "learning_rate": 1e-06,
+      "loss": 0.0144,
+      "num_tokens": 116241416.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.18809755146503448,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 695.2678833007812,
+      "completions/mean_terminated_length": 621.591796875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 1.8303206997084547,
+      "grad_norm": 0.12682850658893585,
+      "learning_rate": 1e-06,
+      "loss": 0.0023,
+      "num_tokens": 116869424.0,
+      "reward": 0.640625,
+      "reward_std": 0.17852042615413666,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3840.0,
+      "completions/mean_length": 757.6295166015625,
+      "completions/mean_terminated_length": 669.677001953125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 1.8396501457725947,
+      "grad_norm": 0.13293851912021637,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 117554860.0,
+      "reward": 0.4542410969734192,
+      "reward_std": 0.2379986047744751,
+      "rewards/verify_math_reward/mean": 0.4542410671710968,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3875.0,
+      "completions/mean_length": 712.5145263671875,
+      "completions/mean_terminated_length": 599.3413696289062,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.8489795918367347,
+      "grad_norm": 0.13029628992080688,
+      "learning_rate": 1e-06,
+      "loss": 0.0055,
+      "num_tokens": 118170025.0,
+      "reward": 0.5245535969734192,
+      "reward_std": 0.19133026897907257,
+      "rewards/verify_math_reward/mean": 0.5245535969734192,
+      "rewards/verify_math_reward/std": 0.4996756911277771,
+      "step": 198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3970.0,
+      "completions/mean_length": 711.6428833007812,
+      "completions/mean_terminated_length": 582.2294311523438,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 1.8583090379008746,
+      "grad_norm": 0.12420004606246948,
+      "learning_rate": 1e-06,
+      "loss": -0.003,
+      "num_tokens": 118753057.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.18742355704307556,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4067.0,
+      "completions/mean_length": 716.904052734375,
+      "completions/mean_terminated_length": 607.9009399414062,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 1.8676384839650146,
+      "grad_norm": 0.12810364365577698,
+      "learning_rate": 1e-06,
+      "loss": -0.009,
+      "num_tokens": 119372107.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1928398311138153,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 668.75,
+      "completions/mean_terminated_length": 582.4805297851562,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 1.8769679300291546,
+      "grad_norm": 0.14725738763809204,
+      "learning_rate": 1e-06,
+      "loss": -0.0109,
+      "num_tokens": 119961811.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.23773685097694397,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4029.0,
+      "completions/mean_length": 741.6160888671875,
+      "completions/mean_terminated_length": 661.11083984375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 1.8862973760932946,
+      "grad_norm": 0.12467392534017563,
+      "learning_rate": 1e-06,
+      "loss": 0.0189,
+      "num_tokens": 120620363.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.21312315762043,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 698.6283569335938,
+      "completions/mean_terminated_length": 609.1214599609375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.8956268221574344,
+      "grad_norm": 0.12918609380722046,
+      "learning_rate": 1e-06,
+      "loss": 0.0125,
+      "num_tokens": 121243918.0,
+      "reward": 0.546875,
+      "reward_std": 0.2172248810529709,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4060.0,
+      "completions/mean_length": 678.474365234375,
+      "completions/mean_terminated_length": 620.2872314453125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 1.9049562682215744,
+      "grad_norm": 0.12341257184743881,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 121887343.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.1837066262960434,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3210.0,
+      "completions/mean_length": 719.779052734375,
+      "completions/mean_terminated_length": 622.87255859375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.9142857142857141,
+      "grad_norm": 0.12145639955997467,
+      "learning_rate": 1e-06,
+      "loss": -0.0055,
+      "num_tokens": 122515681.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.18502570688724518,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3777.0,
+      "completions/mean_length": 753.404052734375,
+      "completions/mean_terminated_length": 673.1817016601562,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.9236151603498541,
+      "grad_norm": 0.12220670282840729,
+      "learning_rate": 1e-06,
+      "loss": -0.0007,
+      "num_tokens": 123184339.0,
+      "reward": 0.5658482313156128,
+      "reward_std": 0.20143873989582062,
+      "rewards/verify_math_reward/mean": 0.5658482313156128,
+      "rewards/verify_math_reward/std": 0.49592188000679016,
+      "step": 206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0189732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4022.0,
+      "completions/mean_length": 680.841552734375,
+      "completions/mean_terminated_length": 614.7918090820312,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 1.9329446064139941,
+      "grad_norm": 0.14044316112995148,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 123818189.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.18122069537639618,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3026.0,
+      "completions/mean_length": 759.3694458007812,
+      "completions/mean_terminated_length": 643.78173828125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 1.9422740524781341,
+      "grad_norm": 0.13641150295734406,
+      "learning_rate": 1e-06,
+      "loss": 0.0003,
+      "num_tokens": 124466696.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.21744990348815918,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4062.0,
+      "completions/mean_length": 624.958740234375,
+      "completions/mean_terminated_length": 533.5109252929688,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 1.951603498542274,
+      "grad_norm": 0.14100514352321625,
+      "learning_rate": 1e-06,
+      "loss": -0.0111,
+      "num_tokens": 125017675.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.20139819383621216,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 659.8125,
+      "completions/mean_terminated_length": 561.184814453125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 1.960932944606414,
+      "grad_norm": 0.13975530862808228,
+      "learning_rate": 1e-06,
+      "loss": -0.0073,
+      "num_tokens": 125589091.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.19460716843605042,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3929.0,
+      "completions/mean_length": 671.4553833007812,
+      "completions/mean_terminated_length": 597.2633666992188,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 1.970262390670554,
+      "grad_norm": 0.13062146306037903,
+      "learning_rate": 1e-06,
+      "loss": -0.0045,
+      "num_tokens": 126202811.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.21560658514499664,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2173.0,
+      "completions/mean_length": 647.5435791015625,
+      "completions/mean_terminated_length": 568.8116455078125,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 1.9795918367346939,
+      "grad_norm": 0.1245775818824768,
+      "learning_rate": 1e-06,
+      "loss": 0.0087,
+      "num_tokens": 126785626.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.178518608212471,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.006696428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3920.0,
+      "completions/mean_length": 589.3080444335938,
+      "completions/mean_terminated_length": 565.6674194335938,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 1.9889212827988338,
+      "grad_norm": 0.11517234146595001,
+      "learning_rate": 1e-06,
+      "loss": 0.0182,
+      "num_tokens": 127381822.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.17085151374340057,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.02840909090909094,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4095.0,
+      "completions/mean_length": 719.5767211914062,
+      "completions/mean_terminated_length": 620.8508911132812,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 1.9982507288629736,
+      "grad_norm": 0.11962586641311646,
+      "learning_rate": 1e-06,
+      "loss": 0.0143,
+      "num_tokens": 127996977.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.17303043603897095,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.012276785714285698,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 635.7020263671875,
+      "completions/mean_terminated_length": 592.6926879882812,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 2.00932944606414,
+      "grad_norm": 0.1271495372056961,
+      "learning_rate": 1e-06,
+      "loss": -0.0045,
+      "num_tokens": 128609998.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.1884024739265442,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 742.349365234375,
+      "completions/mean_terminated_length": 606.0220336914062,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 2.01865889212828,
+      "grad_norm": 0.13169968128204346,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 129221463.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.18701167404651642,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3781.0,
+      "completions/mean_length": 677.7533569335938,
+      "completions/mean_terminated_length": 587.6964721679688,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 2.02798833819242,
+      "grad_norm": 0.13871188461780548,
+      "learning_rate": 1e-06,
+      "loss": 0.0143,
+      "num_tokens": 129828218.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.18175272643566132,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3714.0,
+      "completions/mean_length": 753.8281860351562,
+      "completions/mean_terminated_length": 661.8417358398438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.03731778425656,
+      "grad_norm": 0.11747800558805466,
+      "learning_rate": 1e-06,
+      "loss": -0.005,
+      "num_tokens": 130496656.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.18555065989494324,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.4970270097255707,
+      "step": 218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4003.0,
+      "completions/mean_length": 625.396240234375,
+      "completions/mean_terminated_length": 538.0354614257812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.0466472303206995,
+      "grad_norm": 0.15057526528835297,
+      "learning_rate": 1e-06,
+      "loss": -0.0103,
+      "num_tokens": 131054243.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.21027062833309174,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 727.2299194335938,
+      "completions/mean_terminated_length": 642.4324951171875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 2.0559766763848395,
+      "grad_norm": 0.12068066000938416,
+      "learning_rate": 1e-06,
+      "loss": 0.0101,
+      "num_tokens": 131710265.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.1876097172498703,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3359.0,
+      "completions/mean_length": 681.5301513671875,
+      "completions/mean_terminated_length": 607.556396484375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 2.0653061224489795,
+      "grad_norm": 0.11410924047231674,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 132331004.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.15172751247882843,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 734.872802734375,
+      "completions/mean_terminated_length": 622.447509765625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 2.0746355685131195,
+      "grad_norm": 0.12705783545970917,
+      "learning_rate": 1e-06,
+      "loss": -0.0088,
+      "num_tokens": 132962314.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.19133026897907257,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3392.0,
+      "completions/mean_length": 668.7511596679688,
+      "completions/mean_terminated_length": 574.4231567382812,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 2.0839650145772595,
+      "grad_norm": 0.13876819610595703,
+      "learning_rate": 1e-06,
+      "loss": 0.0223,
+      "num_tokens": 133564331.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.2012985646724701,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 728.5189819335938,
+      "completions/mean_terminated_length": 603.7974853515625,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 2.0932944606413995,
+      "grad_norm": 0.11487426608800888,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 134171716.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.15736696124076843,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3972.0,
+      "completions/mean_length": 748.2667846679688,
+      "completions/mean_terminated_length": 652.1779174804688,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 2.1026239067055394,
+      "grad_norm": 0.12201671302318573,
+      "learning_rate": 1e-06,
+      "loss": 0.0081,
+      "num_tokens": 134838171.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.19918353855609894,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 764.7120971679688,
+      "completions/mean_terminated_length": 653.2848510742188,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 2.1119533527696794,
+      "grad_norm": 0.12113168090581894,
+      "learning_rate": 1e-06,
+      "loss": 0.0116,
+      "num_tokens": 135496417.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.19569344818592072,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2793.0,
+      "completions/mean_length": 681.3046875,
+      "completions/mean_terminated_length": 575.2094116210938,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 2.1212827988338194,
+      "grad_norm": 0.12550842761993408,
+      "learning_rate": 1e-06,
+      "loss": -0.0108,
+      "num_tokens": 136079026.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.18287856876850128,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3315.0,
+      "completions/mean_length": 721.482177734375,
+      "completions/mean_terminated_length": 600.545654296875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 2.130612244897959,
+      "grad_norm": 0.1321675032377243,
+      "learning_rate": 1e-06,
+      "loss": 0.0066,
+      "num_tokens": 136686906.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.18547257781028748,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3592.0,
+      "completions/mean_length": 777.9989013671875,
+      "completions/mean_terminated_length": 674.907958984375,
+      "completions/min_length": 205.0,
+      "completions/min_terminated_length": 205.0,
+      "epoch": 2.139941690962099,
+      "grad_norm": 0.11579850316047668,
+      "learning_rate": 1e-06,
+      "loss": 0.0031,
+      "num_tokens": 137368337.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.1889663189649582,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3466.0,
+      "completions/mean_length": 707.9989013671875,
+      "completions/mean_terminated_length": 586.5791625976562,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 2.149271137026239,
+      "grad_norm": 0.150935098528862,
+      "learning_rate": 1e-06,
+      "loss": 0.0037,
+      "num_tokens": 137961320.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.19437752664089203,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3770.0,
+      "completions/mean_length": 685.2366333007812,
+      "completions/mean_terminated_length": 591.3623657226562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 2.158600583090379,
+      "grad_norm": 0.1222238540649414,
+      "learning_rate": 1e-06,
+      "loss": -0.0043,
+      "num_tokens": 138566724.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.16589422523975372,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 802.4810791015625,
+      "completions/mean_terminated_length": 632.3931884765625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 2.167930029154519,
+      "grad_norm": 0.12585654854774475,
+      "learning_rate": 1e-06,
+      "loss": -0.0016,
+      "num_tokens": 139195899.0,
+      "reward": 0.5625,
+      "reward_std": 0.17926861345767975,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0234375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3567.0,
+      "completions/mean_length": 746.1797485351562,
+      "completions/mean_terminated_length": 665.7839965820312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.177259475218659,
+      "grad_norm": 0.11441010981798172,
+      "learning_rate": 1e-06,
+      "loss": -0.0108,
+      "num_tokens": 139869724.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.17773906886577606,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3891.0,
+      "completions/mean_length": 657.271240234375,
+      "completions/mean_terminated_length": 582.7719116210938,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.186588921282799,
+      "grad_norm": 0.13363678753376007,
+      "learning_rate": 1e-06,
+      "loss": 0.0159,
+      "num_tokens": 140488079.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.20894725620746613,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715372920036316,
+      "step": 234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.016741071428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2298.0,
+      "completions/mean_length": 610.5346069335938,
+      "completions/mean_terminated_length": 551.1907348632812,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.195918367346939,
+      "grad_norm": 0.11896467953920364,
+      "learning_rate": 1e-06,
+      "loss": -0.0025,
+      "num_tokens": 141060974.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16822539269924164,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2972.0,
+      "completions/mean_length": 651.185302734375,
+      "completions/mean_terminated_length": 572.5364990234375,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 2.205247813411079,
+      "grad_norm": 0.13944171369075775,
+      "learning_rate": 1e-06,
+      "loss": 0.0004,
+      "num_tokens": 141651948.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.18187259137630463,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3066.0,
+      "completions/mean_length": 720.4542846679688,
+      "completions/mean_terminated_length": 607.5466918945312,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 2.2145772594752184,
+      "grad_norm": 0.1344020813703537,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 142262099.0,
+      "reward": 0.59375,
+      "reward_std": 0.2035774141550064,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2830.0,
+      "completions/mean_length": 689.2645263671875,
+      "completions/mean_terminated_length": 587.4540405273438,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 2.2239067055393584,
+      "grad_norm": 0.1321393847465515,
+      "learning_rate": 1e-06,
+      "loss": -0.0051,
+      "num_tokens": 142854920.0,
+      "reward": 0.5491071939468384,
+      "reward_std": 0.19820503890514374,
+      "rewards/verify_math_reward/mean": 0.5491071343421936,
+      "rewards/verify_math_reward/std": 0.49786055088043213,
+      "step": 238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3189.0,
+      "completions/mean_length": 670.794677734375,
+      "completions/mean_terminated_length": 580.554443359375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 2.2332361516034984,
+      "grad_norm": 0.13054966926574707,
+      "learning_rate": 1e-06,
+      "loss": 0.0046,
+      "num_tokens": 143452936.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.18362672626972198,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3671.0,
+      "completions/mean_length": 719.732177734375,
+      "completions/mean_terminated_length": 582.4854736328125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 2.2425655976676384,
+      "grad_norm": 0.1302865445613861,
+      "learning_rate": 1e-06,
+      "loss": -0.0003,
+      "num_tokens": 144029600.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.17281359434127808,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3573.0,
+      "completions/mean_length": 699.5892944335938,
+      "completions/mean_terminated_length": 598.0873413085938,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 2.2518950437317784,
+      "grad_norm": 0.12489066272974014,
+      "learning_rate": 1e-06,
+      "loss": -0.0171,
+      "num_tokens": 144638416.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.17345185577869415,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2900.0,
+      "completions/mean_length": 677.6328125,
+      "completions/mean_terminated_length": 587.57275390625,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 2.2612244897959184,
+      "grad_norm": 0.1454547494649887,
+      "learning_rate": 1e-06,
+      "loss": -0.0081,
+      "num_tokens": 145231335.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.19444352388381958,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3579.0,
+      "completions/mean_length": 681.349365234375,
+      "completions/mean_terminated_length": 575.2554931640625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 2.2705539358600584,
+      "grad_norm": 0.12814916670322418,
+      "learning_rate": 1e-06,
+      "loss": -0.0106,
+      "num_tokens": 145816888.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.18712298572063446,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4016.0,
+      "completions/mean_length": 666.9386596679688,
+      "completions/mean_terminated_length": 552.2410278320312,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 2.2798833819241984,
+      "grad_norm": 0.11985107511281967,
+      "learning_rate": 1e-06,
+      "loss": 0.0085,
+      "num_tokens": 146372745.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.12354449182748795,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2443.0,
+      "completions/mean_length": 716.0960083007812,
+      "completions/mean_terminated_length": 586.8528442382812,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 2.2892128279883384,
+      "grad_norm": 0.1258755773305893,
+      "learning_rate": 1e-06,
+      "loss": -0.0053,
+      "num_tokens": 146962455.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.1714908927679062,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2302.0,
+      "completions/mean_length": 727.6707763671875,
+      "completions/mean_terminated_length": 602.9178466796875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.298542274052478,
+      "grad_norm": 0.13353858888149261,
+      "learning_rate": 1e-06,
+      "loss": -0.0051,
+      "num_tokens": 147576368.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.2144358605146408,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3315.0,
+      "completions/mean_length": 699.911865234375,
+      "completions/mean_terminated_length": 614.4267578125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 2.307871720116618,
+      "grad_norm": 0.11353510618209839,
+      "learning_rate": 1e-06,
+      "loss": 0.0191,
+      "num_tokens": 148209065.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.1661524474620819,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4091.0,
+      "completions/mean_length": 701.9542846679688,
+      "completions/mean_terminated_length": 563.98486328125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 2.317201166180758,
+      "grad_norm": 0.1472627818584442,
+      "learning_rate": 1e-06,
+      "loss": 0.0039,
+      "num_tokens": 148785656.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.21891415119171143,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3494.0,
+      "completions/mean_length": 752.6317138671875,
+      "completions/mean_terminated_length": 628.80322265625,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 2.326530612244898,
+      "grad_norm": 0.1291126012802124,
+      "learning_rate": 1e-06,
+      "loss": -0.0087,
+      "num_tokens": 149419598.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17051492631435394,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3729.0,
+      "completions/mean_length": 707.0078735351562,
+      "completions/mean_terminated_length": 589.6062622070312,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 2.335860058309038,
+      "grad_norm": 0.1351911574602127,
+      "learning_rate": 1e-06,
+      "loss": 0.0214,
+      "num_tokens": 150013261.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1923915296792984,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2664.0,
+      "completions/mean_length": 664.7020263671875,
+      "completions/mean_terminated_length": 586.3618774414062,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 2.345189504373178,
+      "grad_norm": 0.13551536202430725,
+      "learning_rate": 1e-06,
+      "loss": 0.0191,
+      "num_tokens": 150618754.0,
+      "reward": 0.546875,
+      "reward_std": 0.19723185896873474,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3959.0,
+      "completions/mean_length": 669.0379638671875,
+      "completions/mean_terminated_length": 554.4105834960938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.354518950437318,
+      "grad_norm": 0.14088645577430725,
+      "learning_rate": 1e-06,
+      "loss": -0.0077,
+      "num_tokens": 151184756.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.20218941569328308,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2801.0,
+      "completions/mean_length": 703.1004638671875,
+      "completions/mean_terminated_length": 593.652099609375,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 2.363848396501458,
+      "grad_norm": 0.11449974030256271,
+      "learning_rate": 1e-06,
+      "loss": -0.0032,
+      "num_tokens": 151785182.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.15492378175258636,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3804.0,
+      "completions/mean_length": 785.0580444335938,
+      "completions/mean_terminated_length": 662.4305419921875,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 2.373177842565598,
+      "grad_norm": 0.12557293474674225,
+      "learning_rate": 1e-06,
+      "loss": -0.0062,
+      "num_tokens": 152439978.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.21376506984233856,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981798231601715,
+      "step": 254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3737.0,
+      "completions/mean_length": 650.6015625,
+      "completions/mean_terminated_length": 575.9578247070312,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 2.3825072886297374,
+      "grad_norm": 0.13001284003257751,
+      "learning_rate": 1e-06,
+      "loss": 0.0069,
+      "num_tokens": 153030125.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.18930330872535706,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 757.9408569335938,
+      "completions/mean_terminated_length": 622.2473754882812,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 2.3918367346938774,
+      "grad_norm": 0.13443338871002197,
+      "learning_rate": 1e-06,
+      "loss": -0.0028,
+      "num_tokens": 153659576.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.1672501266002655,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3411.0,
+      "completions/mean_length": 726.8426513671875,
+      "completions/mean_terminated_length": 614.1487426757812,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 2.4011661807580174,
+      "grad_norm": 0.13200843334197998,
+      "learning_rate": 1e-06,
+      "loss": -0.0071,
+      "num_tokens": 154280555.0,
+      "reward": 0.59375,
+      "reward_std": 0.20801475644111633,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.013392857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2817.0,
+      "completions/mean_length": 624.950927734375,
+      "completions/mean_terminated_length": 577.8325805664062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 2.4104956268221573,
+      "grad_norm": 0.1377565860748291,
+      "learning_rate": 1e-06,
+      "loss": 0.0149,
+      "num_tokens": 154876263.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.19505153596401215,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3386.0,
+      "completions/mean_length": 687.318115234375,
+      "completions/mean_terminated_length": 569.2344360351562,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 2.4198250728862973,
+      "grad_norm": 0.13844400644302368,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 155460756.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.18911676108837128,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3983.0,
+      "completions/mean_length": 739.1652221679688,
+      "completions/mean_terminated_length": 622.8776245117188,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 2.4291545189504373,
+      "grad_norm": 0.14645332098007202,
+      "learning_rate": 1e-06,
+      "loss": 0.0106,
+      "num_tokens": 156091800.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.22571474313735962,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689781665802,
+      "step": 260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2604.0,
+      "completions/mean_length": 726.5781860351562,
+      "completions/mean_terminated_length": 609.8544921875,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 2.4384839650145773,
+      "grad_norm": 0.13708554208278656,
+      "learning_rate": 1e-06,
+      "loss": -0.0192,
+      "num_tokens": 156715214.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1992606520652771,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2073.0,
+      "completions/mean_length": 740.450927734375,
+      "completions/mean_terminated_length": 583.6495361328125,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 2.4478134110787173,
+      "grad_norm": 0.13642618060112,
+      "learning_rate": 1e-06,
+      "loss": 0.0046,
+      "num_tokens": 157303658.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.19475801289081573,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 725.1752319335938,
+      "completions/mean_terminated_length": 579.9825439453125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 2.4571428571428573,
+      "grad_norm": 0.13021457195281982,
+      "learning_rate": 1e-06,
+      "loss": -0.0077,
+      "num_tokens": 157886671.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.18246811628341675,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2715.0,
+      "completions/mean_length": 723.2846069335938,
+      "completions/mean_terminated_length": 594.3163452148438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.466472303206997,
+      "grad_norm": 0.1289193332195282,
+      "learning_rate": 1e-06,
+      "loss": -0.0137,
+      "num_tokens": 158493798.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.19361935555934906,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 779.4542846679688,
+      "completions/mean_terminated_length": 616.3453979492188,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 2.4758017492711373,
+      "grad_norm": 0.11994383484125137,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 159108901.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.16236519813537598,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3940.0,
+      "completions/mean_length": 684.7142944335938,
+      "completions/mean_terminated_length": 578.7249755859375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 2.485131195335277,
+      "grad_norm": 0.13918307423591614,
+      "learning_rate": 1e-06,
+      "loss": 0.015,
+      "num_tokens": 159695157.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.19024720788002014,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 727.8438110351562,
+      "completions/mean_terminated_length": 627.1862182617188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 2.494460641399417,
+      "grad_norm": 0.13502292335033417,
+      "learning_rate": 1e-06,
+      "loss": -0.0048,
+      "num_tokens": 160327017.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.1848343014717102,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.4884119927883148,
+      "step": 267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 814.6574096679688,
+      "completions/mean_terminated_length": 669.329833984375,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 2.503790087463557,
+      "grad_norm": 0.11430999636650085,
+      "learning_rate": 1e-06,
+      "loss": -0.0025,
+      "num_tokens": 161000278.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.1821650117635727,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3885.0,
+      "completions/mean_length": 738.9799194335938,
+      "completions/mean_terminated_length": 610.61181640625,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 2.513119533527697,
+      "grad_norm": 0.12878777086734772,
+      "learning_rate": 1e-06,
+      "loss": -0.0188,
+      "num_tokens": 161612076.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.19692835211753845,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2845.0,
+      "completions/mean_length": 705.771240234375,
+      "completions/mean_terminated_length": 616.4525146484375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 2.522448979591837,
+      "grad_norm": 0.11359921842813492,
+      "learning_rate": 1e-06,
+      "loss": 0.0023,
+      "num_tokens": 162244015.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.1498495638370514,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514806270599365,
+      "step": 270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2981.0,
+      "completions/mean_length": 798.5592041015625,
+      "completions/mean_terminated_length": 668.4976806640625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 2.5317784256559768,
+      "grad_norm": 0.12128040194511414,
+      "learning_rate": 1e-06,
+      "loss": 0.0121,
+      "num_tokens": 162931260.0,
+      "reward": 0.5479910969734192,
+      "reward_std": 0.1702548712491989,
+      "rewards/verify_math_reward/mean": 0.5479910969734192,
+      "rewards/verify_math_reward/std": 0.49796950817108154,
+      "step": 271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2581.0,
+      "completions/mean_length": 704.677490234375,
+      "completions/mean_terminated_length": 595.2799682617188,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 2.5411078717201168,
+      "grad_norm": 0.13675227761268616,
+      "learning_rate": 1e-06,
+      "loss": 0.0066,
+      "num_tokens": 163543051.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.17412516474723816,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2391.0,
+      "completions/mean_length": 736.5111694335938,
+      "completions/mean_terminated_length": 612.0856323242188,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 2.5504373177842563,
+      "grad_norm": 0.1361248940229416,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 164154029.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.21515193581581116,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 882.2366333007812,
+      "completions/mean_terminated_length": 704.3251342773438,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 2.5597667638483967,
+      "grad_norm": 0.12098653614521027,
+      "learning_rate": 1e-06,
+      "loss": -0.0127,
+      "num_tokens": 164836809.0,
+      "reward": 0.5546875,
+      "reward_std": 0.20298220217227936,
+      "rewards/verify_math_reward/mean": 0.5546875,
+      "rewards/verify_math_reward/std": 0.4972778558731079,
+      "step": 274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3235.0,
+      "completions/mean_length": 737.6295166015625,
+      "completions/mean_terminated_length": 637.2643432617188,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.5690962099125363,
+      "grad_norm": 0.15183310210704803,
+      "learning_rate": 1e-06,
+      "loss": 0.0126,
+      "num_tokens": 165478309.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.23291975259780884,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2284.0,
+      "completions/mean_length": 723.8047485351562,
+      "completions/mean_terminated_length": 619.0299072265625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 2.5784256559766763,
+      "grad_norm": 0.13333465158939362,
+      "learning_rate": 1e-06,
+      "loss": 0.0059,
+      "num_tokens": 166113518.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.1810370534658432,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1856.0,
+      "completions/mean_length": 727.8839721679688,
+      "completions/mean_terminated_length": 590.9686279296875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 2.5877551020408163,
+      "grad_norm": 0.1330011785030365,
+      "learning_rate": 1e-06,
+      "loss": -0.0001,
+      "num_tokens": 166709278.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.18495012819766998,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4088.0,
+      "completions/mean_length": 763.1517944335938,
+      "completions/mean_terminated_length": 647.6951293945312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 2.5970845481049563,
+      "grad_norm": 0.1292235106229782,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 167362774.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.2015914022922516,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3500.0,
+      "completions/mean_length": 740.6495971679688,
+      "completions/mean_terminated_length": 583.8574829101562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.6064139941690962,
+      "grad_norm": 0.13222847878932953,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 167949580.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.1944110095500946,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3005.0,
+      "completions/mean_length": 707.5413208007812,
+      "completions/mean_terminated_length": 594.2018432617188,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 2.6157434402332362,
+      "grad_norm": 0.1384594887495041,
+      "learning_rate": 1e-06,
+      "loss": -0.0113,
+      "num_tokens": 168549137.0,
+      "reward": 0.59375,
+      "reward_std": 0.185399129986763,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022321428571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3861.0,
+      "completions/mean_length": 646.1796875,
+      "completions/mean_terminated_length": 567.4166259765625,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 2.6250728862973762,
+      "grad_norm": 0.13485532999038696,
+      "learning_rate": 1e-06,
+      "loss": 0.0129,
+      "num_tokens": 169127114.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.17964836955070496,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3154.0,
+      "completions/mean_length": 752.1864013671875,
+      "completions/mean_terminated_length": 608.1571655273438,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 2.6344023323615158,
+      "grad_norm": 0.13395307958126068,
+      "learning_rate": 1e-06,
+      "loss": 0.0014,
+      "num_tokens": 169734185.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.20538821816444397,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3916.0,
+      "completions/mean_length": 713.1328735351562,
+      "completions/mean_terminated_length": 579.7018432617188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 2.643731778425656,
+      "grad_norm": 0.138084277510643,
+      "learning_rate": 1e-06,
+      "loss": -0.0026,
+      "num_tokens": 170314400.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.198629692196846,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3249.0,
+      "completions/mean_length": 681.8214721679688,
+      "completions/mean_terminated_length": 575.7422485351562,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 2.6530612244897958,
+      "grad_norm": 0.13710369169712067,
+      "learning_rate": 1e-06,
+      "loss": -0.0013,
+      "num_tokens": 170909976.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.20421819388866425,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.462861567735672,
+      "step": 284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 738.904052734375,
+      "completions/mean_terminated_length": 614.567138671875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 2.6623906705539357,
+      "grad_norm": 0.12634806334972382,
+      "learning_rate": 1e-06,
+      "loss": 0.0028,
+      "num_tokens": 171530530.0,
+      "reward": 0.59375,
+      "reward_std": 0.172130286693573,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 869.8359985351562,
+      "completions/mean_terminated_length": 703.2265625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 2.6717201166180757,
+      "grad_norm": 0.12923769652843475,
+      "learning_rate": 1e-06,
+      "loss": -0.0099,
+      "num_tokens": 172218639.0,
+      "reward": 0.5100446939468384,
+      "reward_std": 0.2254137545824051,
+      "rewards/verify_math_reward/mean": 0.5100446343421936,
+      "rewards/verify_math_reward/std": 0.5001782774925232,
+      "step": 286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2561.0,
+      "completions/mean_length": 794.9464721679688,
+      "completions/mean_terminated_length": 652.759033203125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 2.6810495626822157,
+      "grad_norm": 0.12405488640069962,
+      "learning_rate": 1e-06,
+      "loss": -0.0091,
+      "num_tokens": 172873975.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.1823907196521759,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621349573135376,
+      "step": 287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3543.0,
+      "completions/mean_length": 753.411865234375,
+      "completions/mean_terminated_length": 641.606689453125,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 2.6903790087463557,
+      "grad_norm": 0.1366748958826065,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 173515096.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.2054981291294098,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3486.0,
+      "completions/mean_length": 786.0535888671875,
+      "completions/mean_terminated_length": 639.459228515625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.6997084548104957,
+      "grad_norm": 0.12155113369226456,
+      "learning_rate": 1e-06,
+      "loss": 0.0005,
+      "num_tokens": 174148040.0,
+      "reward": 0.546875,
+      "reward_std": 0.16935263574123383,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3424.0,
+      "completions/mean_length": 716.2031860351562,
+      "completions/mean_terminated_length": 607.1774291992188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 2.7090379008746357,
+      "grad_norm": 0.13820956647396088,
+      "learning_rate": 1e-06,
+      "loss": 0.0021,
+      "num_tokens": 174762518.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.21245235204696655,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2889.0,
+      "completions/mean_length": 677.9330444335938,
+      "completions/mean_terminated_length": 623.6780395507812,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 2.7183673469387752,
+      "grad_norm": 0.13216546177864075,
+      "learning_rate": 1e-06,
+      "loss": 0.0045,
+      "num_tokens": 175402898.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.17915913462638855,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3723.0,
+      "completions/mean_length": 825.4654541015625,
+      "completions/mean_terminated_length": 648.4717407226562,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 2.7276967930029157,
+      "grad_norm": 0.14216077327728271,
+      "learning_rate": 1e-06,
+      "loss": -0.0208,
+      "num_tokens": 176056467.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.19384941458702087,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2566.0,
+      "completions/mean_length": 862.8303833007812,
+      "completions/mean_terminated_length": 659.5587158203125,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.7370262390670552,
+      "grad_norm": 0.1314835399389267,
+      "learning_rate": 1e-06,
+      "loss": -0.0108,
+      "num_tokens": 176703435.0,
+      "reward": 0.578125,
+      "reward_std": 0.2044457346200943,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4069.0,
+      "completions/mean_length": 780.060302734375,
+      "completions/mean_terminated_length": 625.1098022460938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.746355685131195,
+      "grad_norm": 0.14325650036334991,
+      "learning_rate": 1e-06,
+      "loss": 0.0059,
+      "num_tokens": 177339361.0,
+      "reward": 0.5569196939468384,
+      "reward_std": 0.19219790399074554,
+      "rewards/verify_math_reward/mean": 0.5569196343421936,
+      "rewards/verify_math_reward/std": 0.49702703952789307,
+      "step": 294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0279017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2970.0,
+      "completions/mean_length": 710.513427734375,
+      "completions/mean_terminated_length": 613.3410034179688,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 2.755685131195335,
+      "grad_norm": 0.11966270953416824,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 177959501.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1828799694776535,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3709.0,
+      "completions/mean_length": 752.7064819335938,
+      "completions/mean_terminated_length": 652.7919311523438,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 2.765014577259475,
+      "grad_norm": 0.1251486837863922,
+      "learning_rate": 1e-06,
+      "loss": 0.0038,
+      "num_tokens": 178616094.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.17198985815048218,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3888.0,
+      "completions/mean_length": 713.4553833007812,
+      "completions/mean_terminated_length": 620.3577880859375,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 2.774344023323615,
+      "grad_norm": 0.13381893932819366,
+      "learning_rate": 1e-06,
+      "loss": 0.0076,
+      "num_tokens": 179245334.0,
+      "reward": 0.5625,
+      "reward_std": 0.1802888810634613,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 786.1361694335938,
+      "completions/mean_terminated_length": 659.5712280273438,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 2.783673469387755,
+      "grad_norm": 0.12793391942977905,
+      "learning_rate": 1e-06,
+      "loss": 0.0126,
+      "num_tokens": 179906816.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.17284680902957916,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3119.0,
+      "completions/mean_length": 745.4777221679688,
+      "completions/mean_terminated_length": 625.401123046875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.793002915451895,
+      "grad_norm": 0.12774276733398438,
+      "learning_rate": 1e-06,
+      "loss": 0.0023,
+      "num_tokens": 180535620.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.18306542932987213,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2319.0,
+      "completions/mean_length": 800.6116333007812,
+      "completions/mean_terminated_length": 662.6651000976562,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 2.8023323615160347,
+      "grad_norm": 0.1357034295797348,
+      "learning_rate": 1e-06,
+      "loss": 0.0108,
+      "num_tokens": 181189472.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.20654937624931335,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3837.0,
+      "completions/mean_length": 751.1585083007812,
+      "completions/mean_terminated_length": 598.9428100585938,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 2.811661807580175,
+      "grad_norm": 0.13493631780147552,
+      "learning_rate": 1e-06,
+      "loss": -0.0055,
+      "num_tokens": 181783414.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.18926052749156952,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2910.0,
+      "completions/mean_length": 755.9699096679688,
+      "completions/mean_terminated_length": 640.264404296875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 2.8209912536443147,
+      "grad_norm": 0.12465789914131165,
+      "learning_rate": 1e-06,
+      "loss": -0.0059,
+      "num_tokens": 182421571.0,
+      "reward": 0.578125,
+      "reward_std": 0.18336711823940277,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4045.0,
+      "completions/mean_length": 845.216552734375,
+      "completions/mean_terminated_length": 697.28125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 2.8303206997084547,
+      "grad_norm": 0.11650644987821579,
+      "learning_rate": 1e-06,
+      "loss": 0.0007,
+      "num_tokens": 183109005.0,
+      "reward": 0.5703125,
+      "reward_std": 0.20267769694328308,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2570.0,
+      "completions/mean_length": 723.9285888671875,
+      "completions/mean_terminated_length": 607.1131591796875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 2.8396501457725947,
+      "grad_norm": 0.13706143200397491,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 183725789.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.20681221783161163,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 762.0781860351562,
+      "completions/mean_terminated_length": 626.5528564453125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 2.8489795918367347,
+      "grad_norm": 0.12602370977401733,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 184364515.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.18149100244045258,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3020.0,
+      "completions/mean_length": 733.9598388671875,
+      "completions/mean_terminated_length": 601.350341796875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 2.8583090379008746,
+      "grad_norm": 0.15349425375461578,
+      "learning_rate": 1e-06,
+      "loss": -0.0039,
+      "num_tokens": 184966015.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.22172611951828003,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2517.0,
+      "completions/mean_length": 731.9453735351562,
+      "completions/mean_terminated_length": 615.4075927734375,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 2.8676384839650146,
+      "grad_norm": 0.12386087328195572,
+      "learning_rate": 1e-06,
+      "loss": 0.0014,
+      "num_tokens": 185582518.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.1680399477481842,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.4907552897930145,
+      "step": 307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2568.0,
+      "completions/mean_length": 706.6920166015625,
+      "completions/mean_terminated_length": 593.3240966796875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 2.8769679300291546,
+      "grad_norm": 0.16650456190109253,
+      "learning_rate": 1e-06,
+      "loss": -0.0219,
+      "num_tokens": 186183738.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.17479778826236725,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3092.0,
+      "completions/mean_length": 726.3214721679688,
+      "completions/mean_terminated_length": 621.6248779296875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 2.8862973760932946,
+      "grad_norm": 0.130840465426445,
+      "learning_rate": 1e-06,
+      "loss": 0.0138,
+      "num_tokens": 186811066.0,
+      "reward": 0.5703125,
+      "reward_std": 0.19952942430973053,
+      "rewards/verify_math_reward/mean": 0.5703125,
+      "rewards/verify_math_reward/std": 0.49530795216560364,
+      "step": 309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2262.0,
+      "completions/mean_length": 759.6004638671875,
+      "completions/mean_terminated_length": 675.6177978515625,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 2.8956268221574346,
+      "grad_norm": 0.12991474568843842,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 187486892.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.20181076228618622,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3804.0,
+      "completions/mean_length": 706.1964721679688,
+      "completions/mean_terminated_length": 600.8745727539062,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 2.904956268221574,
+      "grad_norm": 0.132023423910141,
+      "learning_rate": 1e-06,
+      "loss": -0.0003,
+      "num_tokens": 188108236.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.17179398238658905,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2984.0,
+      "completions/mean_length": 751.4475708007812,
+      "completions/mean_terminated_length": 619.52783203125,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 2.914285714285714,
+      "grad_norm": 0.11564072221517563,
+      "learning_rate": 1e-06,
+      "loss": -0.0132,
+      "num_tokens": 188732613.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.15973344445228577,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644601345062,
+      "step": 312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3927.0,
+      "completions/mean_length": 833.536865234375,
+      "completions/mean_terminated_length": 665.0528564453125,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.923615160349854,
+      "grad_norm": 0.12622685730457306,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 189392894.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.18216319382190704,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 803.0558471679688,
+      "completions/mean_terminated_length": 673.1716918945312,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 2.932944606413994,
+      "grad_norm": 0.13950712978839874,
+      "learning_rate": 1e-06,
+      "loss": 0.0135,
+      "num_tokens": 190062640.0,
+      "reward": 0.546875,
+      "reward_std": 0.21984636783599854,
+      "rewards/verify_math_reward/mean": 0.546875,
+      "rewards/verify_math_reward/std": 0.4980759024620056,
+      "step": 314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3873.0,
+      "completions/mean_length": 762.4207763671875,
+      "completions/mean_terminated_length": 634.948974609375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 2.942274052478134,
+      "grad_norm": 0.1219010129570961,
+      "learning_rate": 1e-06,
+      "loss": 0.0027,
+      "num_tokens": 190705313.0,
+      "reward": 0.551339328289032,
+      "reward_std": 0.16506867110729218,
+      "rewards/verify_math_reward/mean": 0.5513392686843872,
+      "rewards/verify_math_reward/std": 0.4976350665092468,
+      "step": 315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3457.0,
+      "completions/mean_length": 728.9397583007812,
+      "completions/mean_terminated_length": 624.3245239257812,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 2.951603498542274,
+      "grad_norm": 0.12655006349086761,
+      "learning_rate": 1e-06,
+      "loss": 0.0094,
+      "num_tokens": 191342923.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.18121999502182007,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3419.0,
+      "completions/mean_length": 805.3951416015625,
+      "completions/mean_terminated_length": 675.6032104492188,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 2.960932944606414,
+      "grad_norm": 0.13242557644844055,
+      "learning_rate": 1e-06,
+      "loss": 0.0036,
+      "num_tokens": 192012605.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.21222274005413055,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3360.0,
+      "completions/mean_length": 706.591552734375,
+      "completions/mean_terminated_length": 601.2819213867188,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 2.970262390670554,
+      "grad_norm": 0.12549835443496704,
+      "learning_rate": 1e-06,
+      "loss": -0.002,
+      "num_tokens": 192624271.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.17325684428215027,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3669.0,
+      "completions/mean_length": 780.0949096679688,
+      "completions/mean_terminated_length": 653.2989501953125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 2.979591836734694,
+      "grad_norm": 0.12499081343412399,
+      "learning_rate": 1e-06,
+      "loss": 0.0011,
+      "num_tokens": 193277852.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.17833498120307922,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3491.0,
+      "completions/mean_length": 766.114990234375,
+      "completions/mean_terminated_length": 650.760986328125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 2.9889212827988336,
+      "grad_norm": 0.12210965901613235,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 193938115.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.18914924561977386,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2620.0,
+      "completions/mean_length": 752.946044921875,
+      "completions/mean_terminated_length": 645.1055908203125,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 2.9982507288629736,
+      "grad_norm": 0.12024641036987305,
+      "learning_rate": 1e-06,
+      "loss": -0.0023,
+      "num_tokens": 194592890.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1607832908630371,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3246.0,
+      "completions/mean_length": 975.0569458007812,
+      "completions/mean_terminated_length": 726.8855590820312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 3.00932944606414,
+      "grad_norm": 0.12204635888338089,
+      "learning_rate": 1e-06,
+      "loss": -0.023,
+      "num_tokens": 195286493.0,
+      "reward": 0.5212053656578064,
+      "reward_std": 0.1892682909965515,
+      "rewards/verify_math_reward/mean": 0.5212053656578064,
+      "rewards/verify_math_reward/std": 0.49982914328575134,
+      "step": 322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3803.0,
+      "completions/mean_length": 844.849365234375,
+      "completions/mean_terminated_length": 696.8973388671875,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 3.01865889212828,
+      "grad_norm": 0.1216764971613884,
+      "learning_rate": 1e-06,
+      "loss": 0.0064,
+      "num_tokens": 195966230.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1701001226902008,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.485245943069458,
+      "step": 323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3690.0,
+      "completions/mean_length": 815.982177734375,
+      "completions/mean_terminated_length": 638.4752807617188,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.02798833819242,
+      "grad_norm": 0.13047727942466736,
+      "learning_rate": 1e-06,
+      "loss": 0.0147,
+      "num_tokens": 196598598.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.18979185819625854,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3157.0,
+      "completions/mean_length": 739.0881958007812,
+      "completions/mean_terminated_length": 638.7666625976562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 3.03731778425656,
+      "grad_norm": 0.12554390728473663,
+      "learning_rate": 1e-06,
+      "loss": 0.0021,
+      "num_tokens": 197244917.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.18123069405555725,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2938.0,
+      "completions/mean_length": 745.0792846679688,
+      "completions/mean_terminated_length": 604.8081665039062,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 3.0466472303206995,
+      "grad_norm": 0.1269174963235855,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 197845316.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1638319492340088,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3319.0,
+      "completions/mean_length": 800.5100708007812,
+      "completions/mean_terminated_length": 662.559326171875,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 3.0559766763848395,
+      "grad_norm": 0.13453570008277893,
+      "learning_rate": 1e-06,
+      "loss": -0.0017,
+      "num_tokens": 198507269.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.19384831190109253,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 790.5201416015625,
+      "completions/mean_terminated_length": 623.8897705078125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.0653061224489795,
+      "grad_norm": 0.13485023379325867,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 199132199.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.17788033187389374,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3760.0,
+      "completions/mean_length": 741.2969360351562,
+      "completions/mean_terminated_length": 608.976806640625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.0746355685131195,
+      "grad_norm": 0.12389012426137924,
+      "learning_rate": 1e-06,
+      "loss": -0.0048,
+      "num_tokens": 199747945.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14342734217643738,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199838399887085,
+      "step": 329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3197.0,
+      "completions/mean_length": 829.8928833007812,
+      "completions/mean_terminated_length": 669.2645874023438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.0839650145772595,
+      "grad_norm": 0.13717308640480042,
+      "learning_rate": 1e-06,
+      "loss": 0.0025,
+      "num_tokens": 200415233.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.17844556272029877,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4031.0,
+      "completions/mean_length": 737.4219360351562,
+      "completions/mean_terminated_length": 625.0818481445312,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 3.0932944606413995,
+      "grad_norm": 0.13934089243412018,
+      "learning_rate": 1e-06,
+      "loss": 0.0058,
+      "num_tokens": 201043955.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.20286203920841217,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.024553571428571397,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3564.0,
+      "completions/mean_length": 708.052490234375,
+      "completions/mean_terminated_length": 622.7722778320312,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 3.1026239067055394,
+      "grad_norm": 0.11321843415498734,
+      "learning_rate": 1e-06,
+      "loss": 0.0063,
+      "num_tokens": 201675474.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1518772393465042,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3975.0,
+      "completions/mean_length": 708.044677734375,
+      "completions/mean_terminated_length": 586.6265869140625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 3.1119533527696794,
+      "grad_norm": 0.11942648887634277,
+      "learning_rate": 1e-06,
+      "loss": 0.0064,
+      "num_tokens": 202278234.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.13970929384231567,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3900.0,
+      "completions/mean_length": 791.6574096679688,
+      "completions/mean_terminated_length": 677.188232421875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 3.1212827988338194,
+      "grad_norm": 0.11885570734739304,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 202965511.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1627795696258545,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3705.0,
+      "completions/mean_length": 707.5413208007812,
+      "completions/mean_terminated_length": 569.799072265625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 3.130612244897959,
+      "grad_norm": 0.18239238858222961,
+      "learning_rate": 1e-06,
+      "loss": 0.0097,
+      "num_tokens": 203537652.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.18246419727802277,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3574.0,
+      "completions/mean_length": 770.1641235351562,
+      "completions/mean_terminated_length": 666.8297119140625,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 3.139941690962099,
+      "grad_norm": 0.13014322519302368,
+      "learning_rate": 1e-06,
+      "loss": 0.0044,
+      "num_tokens": 204207463.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.19701138138771057,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2921.0,
+      "completions/mean_length": 731.4676513671875,
+      "completions/mean_terminated_length": 598.7598266601562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 3.149271137026239,
+      "grad_norm": 0.13176432251930237,
+      "learning_rate": 1e-06,
+      "loss": -0.0086,
+      "num_tokens": 204810898.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16777075827121735,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3937.0,
+      "completions/mean_length": 957.404052734375,
+      "completions/mean_terminated_length": 724.0791625976562,
+      "completions/min_length": 94.0,
+      "completions/min_terminated_length": 94.0,
+      "epoch": 3.158600583090379,
+      "grad_norm": 0.125205859541893,
+      "learning_rate": 1e-06,
+      "loss": -0.0144,
+      "num_tokens": 205529364.0,
+      "reward": 0.486607164144516,
+      "reward_std": 0.17325684428215027,
+      "rewards/verify_math_reward/mean": 0.4866071343421936,
+      "rewards/verify_math_reward/std": 0.500099778175354,
+      "step": 338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 805.255615234375,
+      "completions/mean_terminated_length": 655.5017700195312,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 3.167930029154519,
+      "grad_norm": 0.1224595233798027,
+      "learning_rate": 1e-06,
+      "loss": 0.0038,
+      "num_tokens": 206183657.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.151692196726799,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3550.0,
+      "completions/mean_length": 797.7813110351562,
+      "completions/mean_terminated_length": 635.57373046875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 3.177259475218659,
+      "grad_norm": 0.13148732483386993,
+      "learning_rate": 1e-06,
+      "loss": -0.0173,
+      "num_tokens": 206811333.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.18419378995895386,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3885.0,
+      "completions/mean_length": 792.4699096679688,
+      "completions/mean_terminated_length": 642.1342163085938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.186588921282799,
+      "grad_norm": 0.13803736865520477,
+      "learning_rate": 1e-06,
+      "loss": -0.0067,
+      "num_tokens": 207444314.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1982075572013855,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4011.0,
+      "completions/mean_length": 840.5279541015625,
+      "completions/mean_terminated_length": 700.3038330078125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 3.195918367346939,
+      "grad_norm": 0.12066961079835892,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 208139347.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.18193748593330383,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 757.6875610351562,
+      "completions/mean_terminated_length": 638.0485229492188,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.205247813411079,
+      "grad_norm": 0.131647989153862,
+      "learning_rate": 1e-06,
+      "loss": -0.0089,
+      "num_tokens": 208777363.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.19358982145786285,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2681.0,
+      "completions/mean_length": 792.4944458007812,
+      "completions/mean_terminated_length": 662.1937255859375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 3.2145772594752184,
+      "grad_norm": 0.12827526032924652,
+      "learning_rate": 1e-06,
+      "loss": -0.0065,
+      "num_tokens": 209436734.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.1675097495317459,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3706.0,
+      "completions/mean_length": 836.8683471679688,
+      "completions/mean_terminated_length": 684.5723876953125,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 3.2239067055393584,
+      "grad_norm": 0.12524019181728363,
+      "learning_rate": 1e-06,
+      "loss": -0.004,
+      "num_tokens": 210117512.0,
+      "reward": 0.5625,
+      "reward_std": 0.17171843349933624,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2176.0,
+      "completions/mean_length": 752.7210083007812,
+      "completions/mean_terminated_length": 620.8515014648438,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.2332361516034984,
+      "grad_norm": 0.125301331281662,
+      "learning_rate": 1e-06,
+      "loss": 0.0017,
+      "num_tokens": 210736638.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1475936770439148,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3931.0,
+      "completions/mean_length": 782.5111694335938,
+      "completions/mean_terminated_length": 639.7881469726562,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.2425655976676384,
+      "grad_norm": 0.13713519275188446,
+      "learning_rate": 1e-06,
+      "loss": 0.0009,
+      "num_tokens": 211377448.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.1965574324131012,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 724.2344360351562,
+      "completions/mean_terminated_length": 607.4295654296875,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 3.2518950437317784,
+      "grad_norm": 0.13097605109214783,
+      "learning_rate": 1e-06,
+      "loss": -0.0064,
+      "num_tokens": 211994682.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.18738895654678345,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3868.0,
+      "completions/mean_length": 972.9163208007812,
+      "completions/mean_terminated_length": 748.771484375,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 3.2612244897959184,
+      "grad_norm": 0.1196514368057251,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 212715503.0,
+      "reward": 0.504464328289032,
+      "reward_std": 0.18821631371974945,
+      "rewards/verify_math_reward/mean": 0.5044642686843872,
+      "rewards/verify_math_reward/std": 0.5002593398094177,
+      "step": 349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4051.0,
+      "completions/mean_length": 785.9297485351562,
+      "completions/mean_terminated_length": 647.3685913085938,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 3.2705539358600584,
+      "grad_norm": 0.12302932888269424,
+      "learning_rate": 1e-06,
+      "loss": -0.0072,
+      "num_tokens": 213364704.0,
+      "reward": 0.578125,
+      "reward_std": 0.1691262274980545,
+      "rewards/verify_math_reward/mean": 0.578125,
+      "rewards/verify_math_reward/std": 0.4941346049308777,
+      "step": 350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3123.0,
+      "completions/mean_length": 838.6361694335938,
+      "completions/mean_terminated_length": 658.3109741210938,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 3.2798833819241984,
+      "grad_norm": 0.12156125158071518,
+      "learning_rate": 1e-06,
+      "loss": -0.011,
+      "num_tokens": 214010266.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.15811371803283691,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3470.0,
+      "completions/mean_length": 898.7600708007812,
+      "completions/mean_terminated_length": 725.73291015625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 3.2892128279883384,
+      "grad_norm": 0.12426517903804779,
+      "learning_rate": 1e-06,
+      "loss": -0.0251,
+      "num_tokens": 214721787.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17329145967960358,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3852.0,
+      "completions/mean_length": 803.9063110351562,
+      "completions/mean_terminated_length": 625.745849609375,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 3.298542274052478,
+      "grad_norm": 0.14308196306228638,
+      "learning_rate": 1e-06,
+      "loss": -0.016,
+      "num_tokens": 215347191.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.21647492051124573,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 868.4330444335938,
+      "completions/mean_terminated_length": 689.7573852539062,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 3.307871720116618,
+      "grad_norm": 0.14486242830753326,
+      "learning_rate": 1e-06,
+      "loss": 0.0092,
+      "num_tokens": 216023715.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.20107145607471466,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200122833252,
+      "step": 354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021205357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1989.0,
+      "completions/mean_length": 644.638427734375,
+      "completions/mean_terminated_length": 569.8654174804688,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 3.317201166180758,
+      "grad_norm": 0.13110017776489258,
+      "learning_rate": 1e-06,
+      "loss": -0.0004,
+      "num_tokens": 216600855.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.13947896659374237,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3109.0,
+      "completions/mean_length": 795.8114013671875,
+      "completions/mean_terminated_length": 645.6278076171875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 3.326530612244898,
+      "grad_norm": 0.14633680880069733,
+      "learning_rate": 1e-06,
+      "loss": 0.0041,
+      "num_tokens": 217244918.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.22289685904979706,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909069061279297,
+      "step": 356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3065.0,
+      "completions/mean_length": 857.1350708007812,
+      "completions/mean_terminated_length": 701.821044921875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.335860058309038,
+      "grad_norm": 0.11338292062282562,
+      "learning_rate": 1e-06,
+      "loss": -0.0021,
+      "num_tokens": 217942079.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.16682574152946472,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3731.0,
+      "completions/mean_length": 751.0703735351562,
+      "completions/mean_terminated_length": 615.0975341796875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 3.345189504373178,
+      "grad_norm": 0.13032779097557068,
+      "learning_rate": 1e-06,
+      "loss": 0.0041,
+      "num_tokens": 218555446.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.18626421689987183,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3676.0,
+      "completions/mean_length": 848.3973388671875,
+      "completions/mean_terminated_length": 684.6846313476562,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 3.354518950437318,
+      "grad_norm": 0.1246708482503891,
+      "learning_rate": 1e-06,
+      "loss": 0.0027,
+      "num_tokens": 219234202.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.17415907979011536,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2835.0,
+      "completions/mean_length": 760.5625610351562,
+      "completions/mean_terminated_length": 629.0023193359375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 3.363848396501458,
+      "grad_norm": 0.13155436515808105,
+      "learning_rate": 1e-06,
+      "loss": 0.0061,
+      "num_tokens": 219867314.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.17033086717128754,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2779.0,
+      "completions/mean_length": 768.6551513671875,
+      "completions/mean_terminated_length": 600.922607421875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 3.373177842565598,
+      "grad_norm": 0.1308959573507309,
+      "learning_rate": 1e-06,
+      "loss": -0.0068,
+      "num_tokens": 220480621.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.15687911212444305,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 718.0870971679688,
+      "completions/mean_terminated_length": 584.8515014648438,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 3.3825072886297374,
+      "grad_norm": 0.1537025421857834,
+      "learning_rate": 1e-06,
+      "loss": -0.01,
+      "num_tokens": 221070915.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.19739368557929993,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4068.0,
+      "completions/mean_length": 792.9531860351562,
+      "completions/mean_terminated_length": 662.6705322265625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 3.3918367346938774,
+      "grad_norm": 0.1273297369480133,
+      "learning_rate": 1e-06,
+      "loss": -0.0165,
+      "num_tokens": 221732233.0,
+      "reward": 0.5736607313156128,
+      "reward_std": 0.19155670702457428,
+      "rewards/verify_math_reward/mean": 0.5736607313156128,
+      "rewards/verify_math_reward/std": 0.4948205351829529,
+      "step": 363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4095.0,
+      "completions/mean_length": 810.4799194335938,
+      "completions/mean_terminated_length": 628.5960083007812,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.4011661807580174,
+      "grad_norm": 0.12025588005781174,
+      "learning_rate": 1e-06,
+      "loss": -0.0125,
+      "num_tokens": 222363759.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.15605242550373077,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 783.779052734375,
+      "completions/mean_terminated_length": 641.110595703125,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 3.4104956268221573,
+      "grad_norm": 0.12685884535312653,
+      "learning_rate": 1e-06,
+      "loss": -0.004,
+      "num_tokens": 222999433.0,
+      "reward": 0.6328125,
+      "reward_std": 0.18753305077552795,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 792.6517944335938,
+      "completions/mean_terminated_length": 678.2171020507812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.4198250728862973,
+      "grad_norm": 0.1262684017419815,
+      "learning_rate": 1e-06,
+      "loss": 0.0252,
+      "num_tokens": 223688769.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.16773614287376404,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3580.0,
+      "completions/mean_length": 757.9933471679688,
+      "completions/mean_terminated_length": 650.315673828125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.4291545189504373,
+      "grad_norm": 0.1352754533290863,
+      "learning_rate": 1e-06,
+      "loss": -0.0125,
+      "num_tokens": 224351451.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.16506798565387726,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0267857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3375.0,
+      "completions/mean_length": 694.8717041015625,
+      "completions/mean_terminated_length": 601.2625732421875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 3.4384839650145773,
+      "grad_norm": 0.13980157673358917,
+      "learning_rate": 1e-06,
+      "loss": 0.0013,
+      "num_tokens": 224959832.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.17600169777870178,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763102173805237,
+      "step": 368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3873.0,
+      "completions/mean_length": 799.099365234375,
+      "completions/mean_terminated_length": 612.4822998046875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 3.4478134110787173,
+      "grad_norm": 0.13098278641700745,
+      "learning_rate": 1e-06,
+      "loss": -0.0243,
+      "num_tokens": 225579569.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.162964329123497,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3454.0,
+      "completions/mean_length": 841.9609985351562,
+      "completions/mean_terminated_length": 653.7107543945312,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 3.4571428571428573,
+      "grad_norm": 0.13110192120075226,
+      "learning_rate": 1e-06,
+      "loss": -0.0279,
+      "num_tokens": 226219126.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.16946394741535187,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0345982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3737.0,
+      "completions/mean_length": 725.5535888671875,
+      "completions/mean_terminated_length": 604.7630004882812,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 3.466472303206997,
+      "grad_norm": 0.12862740457057953,
+      "learning_rate": 1e-06,
+      "loss": 0.0026,
+      "num_tokens": 226827454.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.17833246290683746,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3340.0,
+      "completions/mean_length": 822.5736694335938,
+      "completions/mean_terminated_length": 620.8933715820312,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 3.4758017492711373,
+      "grad_norm": 0.1471925973892212,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 227447480.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.20872971415519714,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 819.9933471679688,
+      "completions/mean_terminated_length": 638.6360473632812,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 3.485131195335277,
+      "grad_norm": 0.12016690522432327,
+      "learning_rate": 1e-06,
+      "loss": 0.012,
+      "num_tokens": 228079050.0,
+      "reward": 0.6171875,
+      "reward_std": 0.14447791874408722,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3905.0,
+      "completions/mean_length": 801.450927734375,
+      "completions/mean_terminated_length": 639.4238891601562,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 3.494460641399417,
+      "grad_norm": 0.13443051278591156,
+      "learning_rate": 1e-06,
+      "loss": -0.0245,
+      "num_tokens": 228722702.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.17769235372543335,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2972.0,
+      "completions/mean_length": 775.9688110351562,
+      "completions/mean_terminated_length": 636.99072265625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 3.503790087463557,
+      "grad_norm": 0.11227922886610031,
+      "learning_rate": 1e-06,
+      "loss": -0.0183,
+      "num_tokens": 229348490.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.1491014063358307,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3847.0,
+      "completions/mean_length": 850.6864013671875,
+      "completions/mean_terminated_length": 675.0576171875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.513119533527697,
+      "grad_norm": 0.14165233075618744,
+      "learning_rate": 1e-06,
+      "loss": -0.0233,
+      "num_tokens": 230010705.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.22120323777198792,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3570.0,
+      "completions/mean_length": 860.3058471679688,
+      "completions/mean_terminated_length": 677.1533203125,
+      "completions/min_length": 84.0,
+      "completions/min_terminated_length": 84.0,
+      "epoch": 3.522448979591837,
+      "grad_norm": 0.13399231433868408,
+      "learning_rate": 1e-06,
+      "loss": -0.0435,
+      "num_tokens": 230681227.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.20519572496414185,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3750.0,
+      "completions/mean_length": 864.5178833007812,
+      "completions/mean_terminated_length": 632.59326171875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 3.5317784256559768,
+      "grad_norm": 0.14105992019176483,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 231304931.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.1909932643175125,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3969.0,
+      "completions/mean_length": 821.0881958007812,
+      "completions/mean_terminated_length": 643.8576049804688,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.5411078717201168,
+      "grad_norm": 0.1384781301021576,
+      "learning_rate": 1e-06,
+      "loss": -0.0208,
+      "num_tokens": 231936850.0,
+      "reward": 0.6328125,
+      "reward_std": 0.19772250950336456,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2813.0,
+      "completions/mean_length": 790.8504638671875,
+      "completions/mean_terminated_length": 611.9835205078125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 3.5504373177842563,
+      "grad_norm": 0.12803971767425537,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 232557116.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1532345414161682,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.4866124987602234,
+      "step": 380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2738.0,
+      "completions/mean_length": 722.622802734375,
+      "completions/mean_terminated_length": 589.5661010742188,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 3.5597667638483967,
+      "grad_norm": 0.175442174077034,
+      "learning_rate": 1e-06,
+      "loss": -0.0137,
+      "num_tokens": 233148554.0,
+      "reward": 0.6484375,
+      "reward_std": 0.20790667831897736,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2674.0,
+      "completions/mean_length": 770.357177734375,
+      "completions/mean_terminated_length": 610.8818359375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 3.5690962099125363,
+      "grad_norm": 0.13977134227752686,
+      "learning_rate": 1e-06,
+      "loss": -0.0244,
+      "num_tokens": 233761690.0,
+      "reward": 0.6328125,
+      "reward_std": 0.18490876257419586,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3217.0,
+      "completions/mean_length": 729.8717041015625,
+      "completions/mean_terminated_length": 605.2002563476562,
+      "completions/min_length": 102.0,
+      "completions/min_terminated_length": 102.0,
+      "epoch": 3.5784256559766763,
+      "grad_norm": 0.15750020742416382,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 234380591.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.22440779209136963,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2093.0,
+      "completions/mean_length": 749.536865234375,
+      "completions/mean_terminated_length": 601.3251953125,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 3.5877551020408163,
+      "grad_norm": 0.1392834335565567,
+      "learning_rate": 1e-06,
+      "loss": -0.0139,
+      "num_tokens": 234990048.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.17400754988193512,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2660.0,
+      "completions/mean_length": 729.1361694335938,
+      "completions/mean_terminated_length": 612.5011596679688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.5970845481049563,
+      "grad_norm": 0.14242801070213318,
+      "learning_rate": 1e-06,
+      "loss": -0.0178,
+      "num_tokens": 235613746.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1595052182674408,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.029017857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3693.0,
+      "completions/mean_length": 744.544677734375,
+      "completions/mean_terminated_length": 644.38623046875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 3.6064139941690962,
+      "grad_norm": 0.12094242125749588,
+      "learning_rate": 1e-06,
+      "loss": 0.0086,
+      "num_tokens": 236257650.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.15642404556274414,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3183.0,
+      "completions/mean_length": 796.5234985351562,
+      "completions/mean_terminated_length": 646.3722534179688,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 3.6157434402332362,
+      "grad_norm": 0.13153177499771118,
+      "learning_rate": 1e-06,
+      "loss": 0.0001,
+      "num_tokens": 236901975.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17405030131340027,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2754.0,
+      "completions/mean_length": 813.2188110351562,
+      "completions/mean_terminated_length": 651.7704467773438,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 3.6250728862973762,
+      "grad_norm": 0.14037121832370758,
+      "learning_rate": 1e-06,
+      "loss": -0.0103,
+      "num_tokens": 237547923.0,
+      "reward": 0.6015625,
+      "reward_std": 0.20850148797035217,
+      "rewards/verify_math_reward/mean": 0.6015625,
+      "rewards/verify_math_reward/std": 0.48984986543655396,
+      "step": 388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2965.0,
+      "completions/mean_length": 677.7600708007812,
+      "completions/mean_terminated_length": 563.4244384765625,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 3.6344023323615158,
+      "grad_norm": 0.13413682579994202,
+      "learning_rate": 1e-06,
+      "loss": -0.0105,
+      "num_tokens": 238125732.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.13421861827373505,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4077.0,
+      "completions/mean_length": 820.6529541015625,
+      "completions/mean_terminated_length": 651.5035400390625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 3.643731778425656,
+      "grad_norm": 0.12404172122478485,
+      "learning_rate": 1e-06,
+      "loss": -0.016,
+      "num_tokens": 238761045.0,
+      "reward": 0.5613839626312256,
+      "reward_std": 0.1713072657585144,
+      "rewards/verify_math_reward/mean": 0.5613839030265808,
+      "rewards/verify_math_reward/std": 0.496494859457016,
+      "step": 390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 849.677490234375,
+      "completions/mean_terminated_length": 633.2559814453125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 3.6530612244897958,
+      "grad_norm": 0.13872458040714264,
+      "learning_rate": 1e-06,
+      "loss": -0.0196,
+      "num_tokens": 239379524.0,
+      "reward": 0.6484375,
+      "reward_std": 0.18359535932540894,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4008.0,
+      "completions/mean_length": 807.9989013671875,
+      "completions/mean_terminated_length": 658.369873046875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 3.6623906705539357,
+      "grad_norm": 0.12471380829811096,
+      "learning_rate": 1e-06,
+      "loss": -0.026,
+      "num_tokens": 240042731.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.1489473432302475,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161848425865173,
+      "step": 392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4031.0,
+      "completions/mean_length": 718.3080444335938,
+      "completions/mean_terminated_length": 601.2979125976562,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 3.6717201166180757,
+      "grad_norm": 0.13518400490283966,
+      "learning_rate": 1e-06,
+      "loss": -0.0227,
+      "num_tokens": 240658639.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.17446216940879822,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3633.0,
+      "completions/mean_length": 769.1842041015625,
+      "completions/mean_terminated_length": 657.9065551757812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.6810495626822157,
+      "grad_norm": 0.13596130907535553,
+      "learning_rate": 1e-06,
+      "loss": -0.0087,
+      "num_tokens": 241321572.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.19411608576774597,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3765.0,
+      "completions/mean_length": 773.4085083007812,
+      "completions/mean_terminated_length": 642.35498046875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 3.6903790087463557,
+      "grad_norm": 0.11431754380464554,
+      "learning_rate": 1e-06,
+      "loss": -0.0073,
+      "num_tokens": 241959506.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.14297270774841309,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3726.0,
+      "completions/mean_length": 807.1295166015625,
+      "completions/mean_terminated_length": 600.3558959960938,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 3.6997084548104957,
+      "grad_norm": 0.15255998075008392,
+      "learning_rate": 1e-06,
+      "loss": -0.0298,
+      "num_tokens": 242554550.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.20069167017936707,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3499.0,
+      "completions/mean_length": 685.5714721679688,
+      "completions/mean_terminated_length": 579.6087646484375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 3.7090379008746357,
+      "grad_norm": 0.13583225011825562,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 243144590.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.17592571675777435,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3924.0,
+      "completions/mean_length": 854.1272583007812,
+      "completions/mean_terminated_length": 674.6596069335938,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.7183673469387752,
+      "grad_norm": 0.12747155129909515,
+      "learning_rate": 1e-06,
+      "loss": 0.0025,
+      "num_tokens": 243807992.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.19001688063144684,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2888.0,
+      "completions/mean_length": 690.1785888671875,
+      "completions/mean_terminated_length": 580.3133544921875,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 3.7276967930029157,
+      "grad_norm": 0.12292210012674332,
+      "learning_rate": 1e-06,
+      "loss": 0.009,
+      "num_tokens": 244391896.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.133317768573761,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 773.1506958007812,
+      "completions/mean_terminated_length": 630.0244750976562,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 3.7370262390670552,
+      "grad_norm": 0.13916349411010742,
+      "learning_rate": 1e-06,
+      "loss": -0.0233,
+      "num_tokens": 245013071.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.20583400130271912,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3731.0,
+      "completions/mean_length": 793.6830444335938,
+      "completions/mean_terminated_length": 623.140869140625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 3.746355685131195,
+      "grad_norm": 0.13125135004520416,
+      "learning_rate": 1e-06,
+      "loss": -0.0032,
+      "num_tokens": 245625651.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15424484014511108,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2477.0,
+      "completions/mean_length": 780.3660888671875,
+      "completions/mean_terminated_length": 653.5805053710938,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 3.755685131195335,
+      "grad_norm": 0.12869560718536377,
+      "learning_rate": 1e-06,
+      "loss": -0.0067,
+      "num_tokens": 246274891.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17690464854240417,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.03125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 747.2455444335938,
+      "completions/mean_terminated_length": 639.22119140625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.765014577259475,
+      "grad_norm": 0.1576901376247406,
+      "learning_rate": 1e-06,
+      "loss": -0.0294,
+      "num_tokens": 246910479.0,
+      "reward": 0.6328125,
+      "reward_std": 0.22128063440322876,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2720.0,
+      "completions/mean_length": 816.6339721679688,
+      "completions/mean_terminated_length": 639.162353515625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.774344023323615,
+      "grad_norm": 0.13532805442810059,
+      "learning_rate": 1e-06,
+      "loss": -0.0245,
+      "num_tokens": 247538351.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.16244368255138397,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909069061279297,
+      "step": 404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3952.0,
+      "completions/mean_length": 765.7545166015625,
+      "completions/mean_terminated_length": 650.3880004882812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 3.783673469387755,
+      "grad_norm": 0.13426661491394043,
+      "learning_rate": 1e-06,
+      "loss": -0.0058,
+      "num_tokens": 248202899.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.18520158529281616,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3827.0,
+      "completions/mean_length": 779.7824096679688,
+      "completions/mean_terminated_length": 644.9767456054688,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 3.793002915451895,
+      "grad_norm": 0.1290045529603958,
+      "learning_rate": 1e-06,
+      "loss": -0.0152,
+      "num_tokens": 248838088.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.1660016030073166,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3890.0,
+      "completions/mean_length": 769.943115234375,
+      "completions/mean_terminated_length": 626.6787109375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 3.8023323615160347,
+      "grad_norm": 0.1332543045282364,
+      "learning_rate": 1e-06,
+      "loss": -0.0,
+      "num_tokens": 249458237.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.18096178770065308,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2842.0,
+      "completions/mean_length": 729.2767944335938,
+      "completions/mean_terminated_length": 584.2608032226562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 3.811661807580175,
+      "grad_norm": 0.1329224556684494,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 250039189.0,
+      "reward": 0.65625,
+      "reward_std": 0.15608635544776917,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3882.0,
+      "completions/mean_length": 897.7779541015625,
+      "completions/mean_terminated_length": 696.7034301757812,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 3.8209912536443147,
+      "grad_norm": 0.13379347324371338,
+      "learning_rate": 1e-06,
+      "loss": -0.0027,
+      "num_tokens": 250712974.0,
+      "reward": 0.5379464626312256,
+      "reward_std": 0.1887405961751938,
+      "rewards/verify_math_reward/mean": 0.5379464030265808,
+      "rewards/verify_math_reward/std": 0.4988364577293396,
+      "step": 409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3477.0,
+      "completions/mean_length": 816.0658569335938,
+      "completions/mean_terminated_length": 658.782470703125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 3.8303206997084547,
+      "grad_norm": 0.1351667046546936,
+      "learning_rate": 1e-06,
+      "loss": -0.0015,
+      "num_tokens": 251367753.0,
+      "reward": 0.559151828289032,
+      "reward_std": 0.14981679618358612,
+      "rewards/verify_math_reward/mean": 0.5591517686843872,
+      "rewards/verify_math_reward/std": 0.496766060590744,
+      "step": 410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 746.6049194335938,
+      "completions/mean_terminated_length": 606.3976440429688,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 3.8396501457725947,
+      "grad_norm": 0.1125982329249382,
+      "learning_rate": 1e-06,
+      "loss": -0.0072,
+      "num_tokens": 251974071.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.14421828091144562,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3120.0,
+      "completions/mean_length": 747.4152221679688,
+      "completions/mean_terminated_length": 615.33642578125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 3.8489795918367347,
+      "grad_norm": 0.12228783220052719,
+      "learning_rate": 1e-06,
+      "loss": 0.006,
+      "num_tokens": 252589067.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15511175990104675,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3629.0,
+      "completions/mean_length": 723.5201416015625,
+      "completions/mean_terminated_length": 570.0466918945312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.8583090379008746,
+      "grad_norm": 0.1554757058620453,
+      "learning_rate": 1e-06,
+      "loss": 0.0092,
+      "num_tokens": 253156877.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.17220626771450043,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3540.0,
+      "completions/mean_length": 750.9107666015625,
+      "completions/mean_terminated_length": 635.030029296875,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 3.8676384839650146,
+      "grad_norm": 0.13665427267551422,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 253802485.0,
+      "reward": 0.640625,
+      "reward_std": 0.19888296723365784,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.025669642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2531.0,
+      "completions/mean_length": 668.0870971679688,
+      "completions/mean_terminated_length": 577.7755126953125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 3.8769679300291546,
+      "grad_norm": 0.14581741392612457,
+      "learning_rate": 1e-06,
+      "loss": 0.021,
+      "num_tokens": 254390843.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.18193678557872772,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 946.7031860351562,
+      "completions/mean_terminated_length": 675.6727294921875,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 3.8862973760932946,
+      "grad_norm": 0.12511715292930603,
+      "learning_rate": 1e-06,
+      "loss": -0.0328,
+      "num_tokens": 255044377.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.16514213383197784,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3167.0,
+      "completions/mean_length": 786.529052734375,
+      "completions/mean_terminated_length": 623.7681274414062,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 3.8956268221574346,
+      "grad_norm": 0.1355588585138321,
+      "learning_rate": 1e-06,
+      "loss": -0.0147,
+      "num_tokens": 255670283.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.18306472897529602,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2597.0,
+      "completions/mean_length": 714.9285888671875,
+      "completions/mean_terminated_length": 573.3953247070312,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 3.904956268221574,
+      "grad_norm": 0.12665985524654388,
+      "learning_rate": 1e-06,
+      "loss": -0.0168,
+      "num_tokens": 256254915.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.14507634937763214,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3521.0,
+      "completions/mean_length": 825.068115234375,
+      "completions/mean_terminated_length": 643.9917602539062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 3.914285714285714,
+      "grad_norm": 0.13853387534618378,
+      "learning_rate": 1e-06,
+      "loss": -0.0059,
+      "num_tokens": 256886872.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.19125288724899292,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0379464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3779.0,
+      "completions/mean_length": 714.802490234375,
+      "completions/mean_terminated_length": 581.4373168945312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 3.923615160349854,
+      "grad_norm": 0.14705388247966766,
+      "learning_rate": 1e-06,
+      "loss": -0.0251,
+      "num_tokens": 257475983.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.19302275776863098,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3025.0,
+      "completions/mean_length": 812.0189819335938,
+      "completions/mean_terminated_length": 638.3654174804688,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 3.932944606413994,
+      "grad_norm": 0.14642846584320068,
+      "learning_rate": 1e-06,
+      "loss": -0.0125,
+      "num_tokens": 258112496.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.19892574846744537,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 807.3471069335938,
+      "completions/mean_terminated_length": 617.0944213867188,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 3.942274052478134,
+      "grad_norm": 0.13945406675338745,
+      "learning_rate": 1e-06,
+      "loss": -0.0174,
+      "num_tokens": 258721183.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1816350817680359,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3032.0,
+      "completions/mean_length": 801.9620971679688,
+      "completions/mean_terminated_length": 644.0023193359375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 3.951603498542274,
+      "grad_norm": 0.13283725082874298,
+      "learning_rate": 1e-06,
+      "loss": -0.0174,
+      "num_tokens": 259362965.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.1793452799320221,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2691.0,
+      "completions/mean_length": 691.6808471679688,
+      "completions/mean_terminated_length": 577.810791015625,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 3.960932944606414,
+      "grad_norm": 0.14981742203235626,
+      "learning_rate": 1e-06,
+      "loss": -0.0154,
+      "num_tokens": 259946439.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.20531336963176727,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 759.7299194335938,
+      "completions/mean_terminated_length": 656.0713500976562,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 3.970262390670554,
+      "grad_norm": 0.11969601362943649,
+      "learning_rate": 1e-06,
+      "loss": 0.0039,
+      "num_tokens": 260605157.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.15248315036296844,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3725.0,
+      "completions/mean_length": 705.3717041015625,
+      "completions/mean_terminated_length": 579.7928466796875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 3.979591836734694,
+      "grad_norm": 0.13710664212703705,
+      "learning_rate": 1e-06,
+      "loss": -0.0084,
+      "num_tokens": 261196378.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.15935185551643372,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2558.0,
+      "completions/mean_length": 817.3683471679688,
+      "completions/mean_terminated_length": 611.2384643554688,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 3.9889212827988336,
+      "grad_norm": 0.11956760287284851,
+      "learning_rate": 1e-06,
+      "loss": -0.0141,
+      "num_tokens": 261802020.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14913280308246613,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.022727272727272707,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3933.0,
+      "completions/mean_length": 682.8579711914062,
+      "completions/mean_terminated_length": 603.4825439453125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 3.9982507288629736,
+      "grad_norm": 0.1347777247428894,
+      "learning_rate": 1e-06,
+      "loss": -0.0132,
+      "num_tokens": 262418970.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1560114622116089,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3126.0,
+      "completions/mean_length": 751.8616333007812,
+      "completions/mean_terminated_length": 583.2825317382812,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 4.0093294460641395,
+      "grad_norm": 0.12279509007930756,
+      "learning_rate": 1e-06,
+      "loss": -0.0134,
+      "num_tokens": 263010606.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14868730306625366,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.033482142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3668.0,
+      "completions/mean_length": 725.6585083007812,
+      "completions/mean_terminated_length": 608.9030151367188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 4.01865889212828,
+      "grad_norm": 0.1311519891023636,
+      "learning_rate": 1e-06,
+      "loss": -0.0143,
+      "num_tokens": 263622652.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.1578957587480545,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3932.0,
+      "completions/mean_length": 799.4910888671875,
+      "completions/mean_terminated_length": 625.175048828125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 4.0279883381924195,
+      "grad_norm": 0.1415524035692215,
+      "learning_rate": 1e-06,
+      "loss": -0.0144,
+      "num_tokens": 264233068.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1713828295469284,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4082.0,
+      "completions/mean_length": 780.7935791015625,
+      "completions/mean_terminated_length": 654.0242919921875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.03731778425656,
+      "grad_norm": 0.1419406235218048,
+      "learning_rate": 1e-06,
+      "loss": -0.0029,
+      "num_tokens": 264883475.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1945943534374237,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2114.0,
+      "completions/mean_length": 810.6172485351562,
+      "completions/mean_terminated_length": 636.8895263671875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 4.0466472303206995,
+      "grad_norm": 0.15439121425151825,
+      "learning_rate": 1e-06,
+      "loss": -0.0024,
+      "num_tokens": 265510524.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.17720521986484528,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3521.0,
+      "completions/mean_length": 834.6194458007812,
+      "completions/mean_terminated_length": 633.6812744140625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 4.05597667638484,
+      "grad_norm": 0.1669454276561737,
+      "learning_rate": 1e-06,
+      "loss": -0.0287,
+      "num_tokens": 266145223.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.23326674103736877,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3977.0,
+      "completions/mean_length": 671.0379638671875,
+      "completions/mean_terminated_length": 556.4774780273438,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 4.0653061224489795,
+      "grad_norm": 0.1450282335281372,
+      "learning_rate": 1e-06,
+      "loss": -0.0044,
+      "num_tokens": 266711689.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.14289532601833344,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041294642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4002.0,
+      "completions/mean_length": 756.732177734375,
+      "completions/mean_terminated_length": 612.8987426757812,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 4.07463556851312,
+      "grad_norm": 0.12799072265625,
+      "learning_rate": 1e-06,
+      "loss": -0.0235,
+      "num_tokens": 267328473.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1720554232597351,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2899.0,
+      "completions/mean_length": 827.2444458007812,
+      "completions/mean_terminated_length": 634.0555419921875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 4.0839650145772595,
+      "grad_norm": 0.13765114545822144,
+      "learning_rate": 1e-06,
+      "loss": -0.0153,
+      "num_tokens": 267954540.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.17190389335155487,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3522.0,
+      "completions/mean_length": 872.2500610351562,
+      "completions/mean_terminated_length": 669.5706176757812,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 4.093294460641399,
+      "grad_norm": 0.13964110612869263,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 268600196.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.19956304132938385,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3300.0,
+      "completions/mean_length": 815.3995971679688,
+      "completions/mean_terminated_length": 662.1004638671875,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 4.1026239067055394,
+      "grad_norm": 0.12797996401786804,
+      "learning_rate": 1e-06,
+      "loss": -0.0006,
+      "num_tokens": 269257554.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.17946292459964752,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053290486335754,
+      "step": 439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 824.0725708007812,
+      "completions/mean_terminated_length": 675.175048828125,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 4.111953352769679,
+      "grad_norm": 0.1300782859325409,
+      "learning_rate": 1e-06,
+      "loss": -0.0064,
+      "num_tokens": 269918267.0,
+      "reward": 0.5636160969734192,
+      "reward_std": 0.1803651601076126,
+      "rewards/verify_math_reward/mean": 0.5636160969734192,
+      "rewards/verify_math_reward/std": 0.49621346592903137,
+      "step": 440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3767.0,
+      "completions/mean_length": 777.2824096679688,
+      "completions/mean_terminated_length": 654.3668823242188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.121282798833819,
+      "grad_norm": 0.13807030022144318,
+      "learning_rate": 1e-06,
+      "loss": 0.0169,
+      "num_tokens": 270567360.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17013472318649292,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0323660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3827.0,
+      "completions/mean_length": 771.0167846679688,
+      "completions/mean_terminated_length": 659.8004150390625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 4.130612244897959,
+      "grad_norm": 0.11922546476125717,
+      "learning_rate": 1e-06,
+      "loss": 0.0049,
+      "num_tokens": 271229703.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15555571019649506,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 785.0245971679688,
+      "completions/mean_terminated_length": 630.3060302734375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.139941690962099,
+      "grad_norm": 0.14290083944797516,
+      "learning_rate": 1e-06,
+      "loss": -0.0095,
+      "num_tokens": 271867605.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.18878155946731567,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3378.0,
+      "completions/mean_length": 732.6864013671875,
+      "completions/mean_terminated_length": 595.96630859375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.149271137026239,
+      "grad_norm": 0.1580958366394043,
+      "learning_rate": 1e-06,
+      "loss": -0.027,
+      "num_tokens": 272477836.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1798744946718216,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2716.0,
+      "completions/mean_length": 761.0234985351562,
+      "completions/mean_terminated_length": 597.0081787109375,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 4.158600583090379,
+      "grad_norm": 0.1331312358379364,
+      "learning_rate": 1e-06,
+      "loss": -0.0211,
+      "num_tokens": 273078689.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1692011058330536,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3704.0,
+      "completions/mean_length": 785.107177734375,
+      "completions/mean_terminated_length": 638.4708862304688,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 4.167930029154519,
+      "grad_norm": 0.13704122602939606,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 273712521.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.19730742275714874,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4061.0,
+      "completions/mean_length": 833.6752319335938,
+      "completions/mean_terminated_length": 628.5706176757812,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 4.1772594752186585,
+      "grad_norm": 0.14558477699756622,
+      "learning_rate": 1e-06,
+      "loss": -0.0149,
+      "num_tokens": 274332814.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1950504183769226,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3078.0,
+      "completions/mean_length": 763.6875610351562,
+      "completions/mean_terminated_length": 628.2276000976562,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 4.186588921282799,
+      "grad_norm": 0.13810819387435913,
+      "learning_rate": 1e-06,
+      "loss": -0.0239,
+      "num_tokens": 274969822.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.19866472482681274,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3627.0,
+      "completions/mean_length": 851.575927734375,
+      "completions/mean_terminated_length": 647.5966796875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.1959183673469385,
+      "grad_norm": 0.14547944068908691,
+      "learning_rate": 1e-06,
+      "loss": -0.019,
+      "num_tokens": 275604866.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.1976444274187088,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4018.0,
+      "completions/mean_length": 778.5379638671875,
+      "completions/mean_terminated_length": 611.3035888671875,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 4.205247813411079,
+      "grad_norm": 0.1418633908033371,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 276214644.0,
+      "reward": 0.640625,
+      "reward_std": 0.16108639538288116,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0390625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2922.0,
+      "completions/mean_length": 774.700927734375,
+      "completions/mean_terminated_length": 639.688720703125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.214577259475218,
+      "grad_norm": 0.1449412852525711,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 276856936.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1911141276359558,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3241.0,
+      "completions/mean_length": 775.5022583007812,
+      "completions/mean_terminated_length": 595.8046875,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 4.223906705539359,
+      "grad_norm": 0.1295343041419983,
+      "learning_rate": 1e-06,
+      "loss": -0.0236,
+      "num_tokens": 277450338.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1602526754140854,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4081.0,
+      "completions/mean_length": 856.4408569335938,
+      "completions/mean_terminated_length": 677.101318359375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 4.233236151603498,
+      "grad_norm": 0.13079296052455902,
+      "learning_rate": 1e-06,
+      "loss": 0.001,
+      "num_tokens": 278119077.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.18411709368228912,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3469.0,
+      "completions/mean_length": 788.154052734375,
+      "completions/mean_terminated_length": 637.6219482421875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 4.242565597667639,
+      "grad_norm": 0.13982364535331726,
+      "learning_rate": 1e-06,
+      "loss": -0.0117,
+      "num_tokens": 278762287.0,
+      "reward": 0.6484375,
+      "reward_std": 0.18310680985450745,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3498.0,
+      "completions/mean_length": 781.599365234375,
+      "completions/mean_terminated_length": 626.7207641601562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 4.251895043731778,
+      "grad_norm": 0.14324288070201874,
+      "learning_rate": 1e-06,
+      "loss": -0.0147,
+      "num_tokens": 279383744.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.18539661169052124,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3100.0,
+      "completions/mean_length": 784.9308471679688,
+      "completions/mean_terminated_length": 605.7435302734375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 4.261224489795918,
+      "grad_norm": 0.13799770176410675,
+      "learning_rate": 1e-06,
+      "loss": -0.0069,
+      "num_tokens": 279983458.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.16848501563072205,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3605.0,
+      "completions/mean_length": 858.4397583007812,
+      "completions/mean_terminated_length": 630.224609375,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 4.270553935860058,
+      "grad_norm": 0.14292599260807037,
+      "learning_rate": 1e-06,
+      "loss": -0.0274,
+      "num_tokens": 280596588.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.17528633773326874,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0357142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3108.0,
+      "completions/mean_length": 764.8660888671875,
+      "completions/mean_terminated_length": 641.49072265625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 4.279883381924198,
+      "grad_norm": 0.13144493103027344,
+      "learning_rate": 1e-06,
+      "loss": -0.0076,
+      "num_tokens": 281236508.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.17566722631454468,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914289474487305,
+      "step": 458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2166.0,
+      "completions/mean_length": 783.1250610351562,
+      "completions/mean_terminated_length": 616.1218872070312,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 4.289212827988338,
+      "grad_norm": 0.1330137550830841,
+      "learning_rate": 1e-06,
+      "loss": -0.0095,
+      "num_tokens": 281850836.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.16679435968399048,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2706.0,
+      "completions/mean_length": 835.6160888671875,
+      "completions/mean_terminated_length": 675.269287109375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.298542274052478,
+      "grad_norm": 0.12440939247608185,
+      "learning_rate": 1e-06,
+      "loss": 0.0039,
+      "num_tokens": 282527740.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.17382346093654633,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2978.0,
+      "completions/mean_length": 827.8951416015625,
+      "completions/mean_terminated_length": 663.1488647460938,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 4.307871720116618,
+      "grad_norm": 0.14425607025623322,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 283184758.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1941513866186142,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2617.0,
+      "completions/mean_length": 745.8326416015625,
+      "completions/mean_terminated_length": 605.593017578125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 4.317201166180758,
+      "grad_norm": 0.1216999962925911,
+      "learning_rate": 1e-06,
+      "loss": 0.0067,
+      "num_tokens": 283800224.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1309078186750412,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.052455357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2374.0,
+      "completions/mean_length": 796.9285888671875,
+      "completions/mean_terminated_length": 614.2944946289062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.326530612244898,
+      "grad_norm": 0.1325484812259674,
+      "learning_rate": 1e-06,
+      "loss": -0.0225,
+      "num_tokens": 284412288.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.16032865643501282,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938119411468506,
+      "step": 463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.036830357142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2564.0,
+      "completions/mean_length": 755.8248291015625,
+      "completions/mean_terminated_length": 628.1007690429688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.335860058309038,
+      "grad_norm": 0.12685535848140717,
+      "learning_rate": 1e-06,
+      "loss": -0.0147,
+      "num_tokens": 285041155.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.16337548196315765,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2365.0,
+      "completions/mean_length": 718.0547485351562,
+      "completions/mean_terminated_length": 568.44873046875,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.345189504373177,
+      "grad_norm": 0.15057477355003357,
+      "learning_rate": 1e-06,
+      "loss": 0.0172,
+      "num_tokens": 285615828.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.14943771064281464,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 778.9241333007812,
+      "completions/mean_terminated_length": 587.0271606445312,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.354518950437318,
+      "grad_norm": 0.12886711955070496,
+      "learning_rate": 1e-06,
+      "loss": -0.0094,
+      "num_tokens": 286200688.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.14774522185325623,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0401785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3146.0,
+      "completions/mean_length": 716.2355346679688,
+      "completions/mean_terminated_length": 574.7569580078125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 4.363848396501457,
+      "grad_norm": 0.13811829686164856,
+      "learning_rate": 1e-06,
+      "loss": -0.0042,
+      "num_tokens": 286782443.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.16766197979450226,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 788.4285888671875,
+      "completions/mean_terminated_length": 617.6150512695312,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 4.373177842565598,
+      "grad_norm": 0.13392016291618347,
+      "learning_rate": 1e-06,
+      "loss": -0.0044,
+      "num_tokens": 287394275.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.17434383928775787,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4012.0,
+      "completions/mean_length": 830.255615234375,
+      "completions/mean_terminated_length": 637.2446899414062,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 4.382507288629737,
+      "grad_norm": 0.1388266235589981,
+      "learning_rate": 1e-06,
+      "loss": -0.0137,
+      "num_tokens": 288023304.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.16308267414569855,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.049107142857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3750.0,
+      "completions/mean_length": 825.2020263671875,
+      "completions/mean_terminated_length": 656.28759765625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 4.391836734693878,
+      "grad_norm": 0.13713406026363373,
+      "learning_rate": 1e-06,
+      "loss": -0.0311,
+      "num_tokens": 288678477.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.17791494727134705,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099617958069,
+      "step": 470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 866.1417846679688,
+      "completions/mean_terminated_length": 654.9143676757812,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.401166180758017,
+      "grad_norm": 0.13769063353538513,
+      "learning_rate": 1e-06,
+      "loss": -0.0215,
+      "num_tokens": 289326892.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.18130694329738617,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3425.0,
+      "completions/mean_length": 835.146240234375,
+      "completions/mean_terminated_length": 605.2891235351562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.410495626822158,
+      "grad_norm": 0.14611920714378357,
+      "learning_rate": 1e-06,
+      "loss": -0.0139,
+      "num_tokens": 289924967.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.18708838522434235,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2645.0,
+      "completions/mean_length": 792.5881958007812,
+      "completions/mean_terminated_length": 572.3607177734375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 4.419825072886297,
+      "grad_norm": 0.16382291913032532,
+      "learning_rate": 1e-06,
+      "loss": -0.0028,
+      "num_tokens": 290497574.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.18900977075099945,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2519.0,
+      "completions/mean_length": 882.0469360351562,
+      "completions/mean_terminated_length": 618.0989990234375,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 4.429154518950437,
+      "grad_norm": 0.14638003706932068,
+      "learning_rate": 1e-06,
+      "loss": -0.0443,
+      "num_tokens": 291100328.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.19561424851417542,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4046.0,
+      "completions/mean_length": 990.79248046875,
+      "completions/mean_terminated_length": 665.3390502929688,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 4.438483965014577,
+      "grad_norm": 0.12503956258296967,
+      "learning_rate": 1e-06,
+      "loss": -0.0169,
+      "num_tokens": 291731166.0,
+      "reward": 0.5457589626312256,
+      "reward_std": 0.13696233928203583,
+      "rewards/verify_math_reward/mean": 0.5457589030265808,
+      "rewards/verify_math_reward/std": 0.4981797933578491,
+      "step": 475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2723.0,
+      "completions/mean_length": 815.4453735351562,
+      "completions/mean_terminated_length": 592.5709228515625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 4.447813411078717,
+      "grad_norm": 0.14756697416305542,
+      "learning_rate": 1e-06,
+      "loss": -0.0212,
+      "num_tokens": 292317341.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15462210774421692,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4033.0,
+      "completions/mean_length": 789.5346069335938,
+      "completions/mean_terminated_length": 594.1170043945312,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 4.457142857142857,
+      "grad_norm": 0.1497909426689148,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 292905804.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.16909484565258026,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4072.0,
+      "completions/mean_length": 842.0279541015625,
+      "completions/mean_terminated_length": 637.4484252929688,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 4.466472303206997,
+      "grad_norm": 0.13087114691734314,
+      "learning_rate": 1e-06,
+      "loss": -0.0112,
+      "num_tokens": 293530669.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1670207679271698,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3688.0,
+      "completions/mean_length": 869.3359985351562,
+      "completions/mean_terminated_length": 604.3441772460938,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 4.475801749271137,
+      "grad_norm": 0.16542375087738037,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 294121850.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.19587568938732147,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3998.0,
+      "completions/mean_length": 908.169677734375,
+      "completions/mean_terminated_length": 654.6795043945312,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.485131195335277,
+      "grad_norm": 0.1321999430656433,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 294759058.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.16615313291549683,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3792.0,
+      "completions/mean_length": 799.552490234375,
+      "completions/mean_terminated_length": 579.789306640625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 4.494460641399417,
+      "grad_norm": 0.15272067487239838,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 295332857.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.17397361993789673,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3684.0,
+      "completions/mean_length": 860.7678833007812,
+      "completions/mean_terminated_length": 620.259033203125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 4.503790087463557,
+      "grad_norm": 0.1289597749710083,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 295942393.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.16078399121761322,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2667.0,
+      "completions/mean_length": 752.2991333007812,
+      "completions/mean_terminated_length": 558.8618774414062,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 4.513119533527696,
+      "grad_norm": 0.1325407475233078,
+      "learning_rate": 1e-06,
+      "loss": -0.0043,
+      "num_tokens": 296495917.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.14135579764842987,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 857.3772583007812,
+      "completions/mean_terminated_length": 665.96923828125,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 4.522448979591837,
+      "grad_norm": 0.12853114306926727,
+      "learning_rate": 1e-06,
+      "loss": -0.0288,
+      "num_tokens": 297141623.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1748412549495697,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3001.0,
+      "completions/mean_length": 929.9766235351562,
+      "completions/mean_terminated_length": 653.333740234375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 4.531778425655976,
+      "grad_norm": 0.13542483747005463,
+      "learning_rate": 1e-06,
+      "loss": -0.0104,
+      "num_tokens": 297772850.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.1537216752767563,
+      "rewards/verify_math_reward/mean": 0.5714285969734192,
+      "rewards/verify_math_reward/std": 0.49514806270599365,
+      "step": 485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0435267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3209.0,
+      "completions/mean_length": 744.8426513671875,
+      "completions/mean_terminated_length": 592.3395385742188,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 4.541107871720117,
+      "grad_norm": 0.12116781622171402,
+      "learning_rate": 1e-06,
+      "loss": -0.0197,
+      "num_tokens": 298358837.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14478282630443573,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3558.0,
+      "completions/mean_length": 846.4531860351562,
+      "completions/mean_terminated_length": 642.15185546875,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 4.550437317784256,
+      "grad_norm": 0.13275185227394104,
+      "learning_rate": 1e-06,
+      "loss": -0.0217,
+      "num_tokens": 298986179.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.15639054775238037,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0558035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2621.0,
+      "completions/mean_length": 767.2589721679688,
+      "completions/mean_terminated_length": 570.5248413085938,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 4.559766763848397,
+      "grad_norm": 0.1290135681629181,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 299554739.0,
+      "reward": 0.7321428656578064,
+      "reward_std": 0.1534174680709839,
+      "rewards/verify_math_reward/mean": 0.7321428656578064,
+      "rewards/verify_math_reward/std": 0.4430900514125824,
+      "step": 488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 925.091552734375,
+      "completions/mean_terminated_length": 660.5296630859375,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 4.569096209912536,
+      "grad_norm": 0.13341110944747925,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 300194437.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.17712965607643127,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2330.0,
+      "completions/mean_length": 887.5089721679688,
+      "completions/mean_terminated_length": 636.5439453125,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 4.578425655976677,
+      "grad_norm": 0.13713081181049347,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 300820957.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.16901704668998718,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0502232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2256.0,
+      "completions/mean_length": 774.6094360351562,
+      "completions/mean_terminated_length": 598.9776611328125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.587755102040816,
+      "grad_norm": 0.12140315771102905,
+      "learning_rate": 1e-06,
+      "loss": -0.0183,
+      "num_tokens": 301416527.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.13121342658996582,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0457589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3708.0,
+      "completions/mean_length": 764.3248291015625,
+      "completions/mean_terminated_length": 604.5602416992188,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 4.597084548104956,
+      "grad_norm": 0.1476830393075943,
+      "learning_rate": 1e-06,
+      "loss": -0.0282,
+      "num_tokens": 302021730.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1975356638431549,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3132.0,
+      "completions/mean_length": 842.5335083007812,
+      "completions/mean_terminated_length": 609.0310668945312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 4.606413994169096,
+      "grad_norm": 0.14848507940769196,
+      "learning_rate": 1e-06,
+      "loss": -0.0385,
+      "num_tokens": 302616672.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1726602166891098,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3831.0,
+      "completions/mean_length": 835.6975708007812,
+      "completions/mean_terminated_length": 638.921875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 4.615743440233236,
+      "grad_norm": 0.1602596938610077,
+      "learning_rate": 1e-06,
+      "loss": -0.0325,
+      "num_tokens": 303235945.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.20834991335868835,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3141.0,
+      "completions/mean_length": 790.6875610351562,
+      "completions/mean_terminated_length": 591.1952514648438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 4.625072886297376,
+      "grad_norm": 0.13296261429786682,
+      "learning_rate": 1e-06,
+      "loss": -0.0034,
+      "num_tokens": 303821137.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.16078399121761322,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3589.0,
+      "completions/mean_length": 861.169677734375,
+      "completions/mean_terminated_length": 637.2792358398438,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 4.634402332361516,
+      "grad_norm": 0.13468492031097412,
+      "learning_rate": 1e-06,
+      "loss": -0.0006,
+      "num_tokens": 304446937.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.160858154296875,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.030133928571428603,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3223.0,
+      "completions/mean_length": 699.6250610351562,
+      "completions/mean_terminated_length": 594.0989379882812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 4.643731778425656,
+      "grad_norm": 0.1275583803653717,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 305046041.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.158384308218956,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3862.0,
+      "completions/mean_length": 936.1138916015625,
+      "completions/mean_terminated_length": 672.4716186523438,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 4.653061224489796,
+      "grad_norm": 0.1379220336675644,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 305691711.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.16661031544208527,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3874.0,
+      "completions/mean_length": 811.732177734375,
+      "completions/mean_terminated_length": 625.8302001953125,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 4.662390670553936,
+      "grad_norm": 0.12915872037410736,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 306313447.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.15492630004882812,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0424107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 784.638427734375,
+      "completions/mean_terminated_length": 637.9813842773438,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 4.671720116618076,
+      "grad_norm": 0.1429835557937622,
+      "learning_rate": 1e-06,
+      "loss": -0.0143,
+      "num_tokens": 306951979.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.15852878987789154,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 500
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3818.0,
+      "completions/mean_length": 820.997802734375,
+      "completions/mean_terminated_length": 655.9038696289062,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 4.681049562682215,
+      "grad_norm": 0.1325433999300003,
+      "learning_rate": 1e-06,
+      "loss": -0.001,
+      "num_tokens": 307606665.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.16319255530834198,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 501
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3590.0,
+      "completions/mean_length": 861.6272583007812,
+      "completions/mean_terminated_length": 666.4165649414062,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 4.690379008746356,
+      "grad_norm": 0.13213413953781128,
+      "learning_rate": 1e-06,
+      "loss": -0.0138,
+      "num_tokens": 308268363.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.18873737752437592,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 502
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3969.0,
+      "completions/mean_length": 950.4364013671875,
+      "completions/mean_terminated_length": 637.809814453125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 4.699708454810495,
+      "grad_norm": 0.1319461613893509,
+      "learning_rate": 1e-06,
+      "loss": -0.0294,
+      "num_tokens": 308882458.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.17596031725406647,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3957.0,
+      "completions/mean_length": 933.9342041015625,
+      "completions/mean_terminated_length": 670.1100463867188,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 4.709037900874636,
+      "grad_norm": 0.12873594462871552,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 309528231.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1703290343284607,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2476.0,
+      "completions/mean_length": 894.0045166015625,
+      "completions/mean_terminated_length": 639.387939453125,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.718367346938775,
+      "grad_norm": 0.13246700167655945,
+      "learning_rate": 1e-06,
+      "loss": -0.0351,
+      "num_tokens": 310153691.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.16484157741069794,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2955.0,
+      "completions/mean_length": 861.2377319335938,
+      "completions/mean_terminated_length": 649.6896362304688,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.727696793002916,
+      "grad_norm": 0.12984134256839752,
+      "learning_rate": 1e-06,
+      "loss": -0.0152,
+      "num_tokens": 310789592.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.13763564825057983,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 506
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3595.0,
+      "completions/mean_length": 791.2344360351562,
+      "completions/mean_terminated_length": 604.1721801757812,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 4.737026239067055,
+      "grad_norm": 0.1601531207561493,
+      "learning_rate": 1e-06,
+      "loss": -0.0167,
+      "num_tokens": 311400042.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.17220766842365265,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 507
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3078.0,
+      "completions/mean_length": 977.1172485351562,
+      "completions/mean_terminated_length": 679.7176513671875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 4.746355685131196,
+      "grad_norm": 0.12345530837774277,
+      "learning_rate": 1e-06,
+      "loss": -0.0271,
+      "num_tokens": 312050763.0,
+      "reward": 0.5580357313156128,
+      "reward_std": 0.17487584054470062,
+      "rewards/verify_math_reward/mean": 0.5580357313156128,
+      "rewards/verify_math_reward/std": 0.49689778685569763,
+      "step": 508
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3606.0,
+      "completions/mean_length": 799.372802734375,
+      "completions/mean_terminated_length": 592.1115112304688,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 4.755685131195335,
+      "grad_norm": 0.16433003544807434,
+      "learning_rate": 1e-06,
+      "loss": -0.0096,
+      "num_tokens": 312643537.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1663813591003418,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 509
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4022.0,
+      "completions/mean_length": 840.7076416015625,
+      "completions/mean_terminated_length": 623.6881103515625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 4.765014577259475,
+      "grad_norm": 0.14345619082450867,
+      "learning_rate": 1e-06,
+      "loss": -0.0313,
+      "num_tokens": 313252035.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.17288027703762054,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 510
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4091.0,
+      "completions/mean_length": 904.0256958007812,
+      "completions/mean_terminated_length": 666.7326049804688,
+      "completions/min_length": 209.0,
+      "completions/min_terminated_length": 209.0,
+      "epoch": 4.774344023323615,
+      "grad_norm": 0.11636216193437576,
+      "learning_rate": 1e-06,
+      "loss": -0.025,
+      "num_tokens": 313911074.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.17682726681232452,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4093.0,
+      "completions/mean_length": 796.8314819335938,
+      "completions/mean_terminated_length": 555.8143920898438,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 4.783673469387755,
+      "grad_norm": 0.14117732644081116,
+      "learning_rate": 1e-06,
+      "loss": -0.007,
+      "num_tokens": 314460227.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.15492448210716248,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 512
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.056919642857142905,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3302.0,
+      "completions/mean_length": 824.9029541015625,
+      "completions/mean_terminated_length": 627.4757080078125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.793002915451895,
+      "grad_norm": 0.1553492546081543,
+      "learning_rate": 1e-06,
+      "loss": -0.017,
+      "num_tokens": 315082756.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.16769729554653168,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 513
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3761.0,
+      "completions/mean_length": 861.6127319335938,
+      "completions/mean_terminated_length": 621.1666870117188,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 4.802332361516035,
+      "grad_norm": 0.1396396905183792,
+      "learning_rate": 1e-06,
+      "loss": -0.0193,
+      "num_tokens": 315681697.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.17400752007961273,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2528.0,
+      "completions/mean_length": 873.8370971679688,
+      "completions/mean_terminated_length": 625.9783935546875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 4.811661807580175,
+      "grad_norm": 0.1418338418006897,
+      "learning_rate": 1e-06,
+      "loss": -0.0276,
+      "num_tokens": 316299287.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.17002595961093903,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3122.0,
+      "completions/mean_length": 887.2969360351562,
+      "completions/mean_terminated_length": 636.3153076171875,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 4.820991253644315,
+      "grad_norm": 0.15696078538894653,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 316922161.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.22053135931491852,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3438.0,
+      "completions/mean_length": 900.1473388671875,
+      "completions/mean_terminated_length": 650.1708984375,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 4.830320699708455,
+      "grad_norm": 0.14191314578056335,
+      "learning_rate": 1e-06,
+      "loss": -0.0064,
+      "num_tokens": 317551325.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.18498431146144867,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 892.0960083007812,
+      "completions/mean_terminated_length": 620.5787353515625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 4.839650145772595,
+      "grad_norm": 0.12528476119041443,
+      "learning_rate": 1e-06,
+      "loss": -0.0089,
+      "num_tokens": 318146235.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.13981416821479797,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3280.0,
+      "completions/mean_length": 893.6339721679688,
+      "completions/mean_terminated_length": 634.81787109375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 4.848979591836734,
+      "grad_norm": 0.12319959700107574,
+      "learning_rate": 1e-06,
+      "loss": -0.022,
+      "num_tokens": 318755603.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.14240817725658417,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 519
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4029.0,
+      "completions/mean_length": 916.6920166015625,
+      "completions/mean_terminated_length": 668.0096435546875,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 4.858309037900875,
+      "grad_norm": 0.12649740278720856,
+      "learning_rate": 1e-06,
+      "loss": -0.0111,
+      "num_tokens": 319398551.0,
+      "reward": 0.5625,
+      "reward_std": 0.16224895417690277,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3595.0,
+      "completions/mean_length": 867.388427734375,
+      "completions/mean_terminated_length": 639.8040161132812,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 4.867638483965014,
+      "grad_norm": 0.14901678264141083,
+      "learning_rate": 1e-06,
+      "loss": -0.0114,
+      "num_tokens": 320026955.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.17029766738414764,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0535714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 764.8348388671875,
+      "completions/mean_terminated_length": 576.2783203125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.876967930029155,
+      "grad_norm": 0.15150505304336548,
+      "learning_rate": 1e-06,
+      "loss": -0.0349,
+      "num_tokens": 320600607.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.17123058438301086,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 848.5145263671875,
+      "completions/mean_terminated_length": 632.0155029296875,
+      "completions/min_length": 89.0,
+      "completions/min_terminated_length": 89.0,
+      "epoch": 4.886297376093294,
+      "grad_norm": 0.16764754056930542,
+      "learning_rate": 1e-06,
+      "loss": -0.018,
+      "num_tokens": 321227900.0,
+      "reward": 0.5770089626312256,
+      "reward_std": 0.19899991154670715,
+      "rewards/verify_math_reward/mean": 0.5770089030265808,
+      "rewards/verify_math_reward/std": 0.4943099319934845,
+      "step": 523
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3416.0,
+      "completions/mean_length": 848.9844360351562,
+      "completions/mean_terminated_length": 586.5596923828125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 4.895626822157435,
+      "grad_norm": 0.1350231170654297,
+      "learning_rate": 1e-06,
+      "loss": -0.0131,
+      "num_tokens": 321805462.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.14789676666259766,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 524
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2659.0,
+      "completions/mean_length": 1015.8739013671875,
+      "completions/mean_terminated_length": 688.8482055664062,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 4.904956268221574,
+      "grad_norm": 0.1300228089094162,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 322459605.0,
+      "reward": 0.5602678656578064,
+      "reward_std": 0.1781495362520218,
+      "rewards/verify_math_reward/mean": 0.5602678656578064,
+      "rewards/verify_math_reward/std": 0.4966317415237427,
+      "step": 525
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3899.0,
+      "completions/mean_length": 999.6094360351562,
+      "completions/mean_terminated_length": 628.04248046875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 4.914285714285715,
+      "grad_norm": 0.14187702536582947,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 323053855.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.191293865442276,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321892857551575,
+      "step": 526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3691.0,
+      "completions/mean_length": 911.6250610351562,
+      "completions/mean_terminated_length": 603.7111206054688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 4.923615160349854,
+      "grad_norm": 0.14171014726161957,
+      "learning_rate": 1e-06,
+      "loss": -0.0213,
+      "num_tokens": 323636551.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.16213877499103546,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 527
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3565.0,
+      "completions/mean_length": 953.7489013671875,
+      "completions/mean_terminated_length": 641.4515380859375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 4.932944606413994,
+      "grad_norm": 0.1304120421409607,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 324248366.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.172769695520401,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 528
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3349.0,
+      "completions/mean_length": 846.3683471679688,
+      "completions/mean_terminated_length": 600.5978393554688,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 4.942274052478134,
+      "grad_norm": 0.15002506971359253,
+      "learning_rate": 1e-06,
+      "loss": -0.0327,
+      "num_tokens": 324828776.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.20012785494327545,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 529
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2298.0,
+      "completions/mean_length": 828.1551513671875,
+      "completions/mean_terminated_length": 597.8052368164062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 4.9516034985422746,
+      "grad_norm": 0.1383824646472931,
+      "learning_rate": 1e-06,
+      "loss": -0.0257,
+      "num_tokens": 325418947.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.14744281768798828,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 530
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3979.0,
+      "completions/mean_length": 826.5045166015625,
+      "completions/mean_terminated_length": 553.717041015625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 4.960932944606414,
+      "grad_norm": 0.12861518561840057,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 325961119.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.13601915538311005,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 531
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2416.0,
+      "completions/mean_length": 906.8672485351562,
+      "completions/mean_terminated_length": 607.0341796875,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 4.970262390670554,
+      "grad_norm": 0.15313492715358734,
+      "learning_rate": 1e-06,
+      "loss": -0.0415,
+      "num_tokens": 326537968.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.17908243834972382,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 532
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3499.0,
+      "completions/mean_length": 912.76123046875,
+      "completions/mean_terminated_length": 621.9659423828125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 4.979591836734694,
+      "grad_norm": 0.13408954441547394,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 327141306.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.14414413273334503,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 533
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3083.0,
+      "completions/mean_length": 917.38623046875,
+      "completions/mean_terminated_length": 605.7573852539062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 4.988921282798834,
+      "grad_norm": 0.15228623151779175,
+      "learning_rate": 1e-06,
+      "loss": -0.0245,
+      "num_tokens": 327727812.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.15649932622909546,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.06818181818181823,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2333.0,
+      "completions/mean_length": 805.5341186523438,
+      "completions/mean_terminated_length": 564.7682495117188,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 4.998250728862974,
+      "grad_norm": 0.1271304488182068,
+      "learning_rate": 1e-06,
+      "loss": -0.026,
+      "num_tokens": 328313761.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.14038008451461792,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 535
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 863.4141235351562,
+      "completions/mean_terminated_length": 589.4661254882812,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 5.0093294460641395,
+      "grad_norm": 0.14470799267292023,
+      "learning_rate": 1e-06,
+      "loss": -0.0331,
+      "num_tokens": 328878252.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.16792160272598267,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3960.0,
+      "completions/mean_length": 925.5480346679688,
+      "completions/mean_terminated_length": 656.8656616210938,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.01865889212828,
+      "grad_norm": 0.13118726015090942,
+      "learning_rate": 1e-06,
+      "loss": -0.0513,
+      "num_tokens": 329502543.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.18490944802761078,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 537
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 980.33935546875,
+      "completions/mean_terminated_length": 658.029541015625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.0279883381924195,
+      "grad_norm": 0.15592887997627258,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 330127223.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1675853133201599,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 538
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 868.8850708007812,
+      "completions/mean_terminated_length": 603.8562622070312,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 5.03731778425656,
+      "grad_norm": 0.13814255595207214,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 330719824.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.154136061668396,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 539
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 833.0145263671875,
+      "completions/mean_terminated_length": 631.9775390625,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 5.0466472303206995,
+      "grad_norm": 0.13625772297382355,
+      "learning_rate": 1e-06,
+      "loss": -0.0345,
+      "num_tokens": 331336325.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.18074172735214233,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 540
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3050.0,
+      "completions/mean_length": 841.7176513671875,
+      "completions/mean_terminated_length": 603.9796752929688,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 5.05597667638484,
+      "grad_norm": 0.15228751301765442,
+      "learning_rate": 1e-06,
+      "loss": -0.0325,
+      "num_tokens": 331923576.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.1720554232597351,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3485.0,
+      "completions/mean_length": 853.9230346679688,
+      "completions/mean_terminated_length": 600.3309326171875,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 5.0653061224489795,
+      "grad_norm": 0.14871995151042938,
+      "learning_rate": 1e-06,
+      "loss": -0.025,
+      "num_tokens": 332504987.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.18580886721611023,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 542
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3389.0,
+      "completions/mean_length": 850.8605346679688,
+      "completions/mean_terminated_length": 575.8486938476562,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.07463556851312,
+      "grad_norm": 0.13397301733493805,
+      "learning_rate": 1e-06,
+      "loss": -0.0079,
+      "num_tokens": 333068086.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.14203797280788422,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 543
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 831.1127319335938,
+      "completions/mean_terminated_length": 588.3992919921875,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 5.0839650145772595,
+      "grad_norm": 0.1399272233247757,
+      "learning_rate": 1e-06,
+      "loss": -0.0047,
+      "num_tokens": 333652315.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15082639455795288,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 544
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2549.0,
+      "completions/mean_length": 952.5402221679688,
+      "completions/mean_terminated_length": 614.491943359375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.093294460641399,
+      "grad_norm": 0.12391702085733414,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 334248695.0,
+      "reward": 0.5558035969734192,
+      "reward_std": 0.14015227556228638,
+      "rewards/verify_math_reward/mean": 0.5558035969734192,
+      "rewards/verify_math_reward/std": 0.49715372920036316,
+      "step": 545
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 810.7846069335938,
+      "completions/mean_terminated_length": 587.5935668945312,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 5.1026239067055394,
+      "grad_norm": 0.14505510032176971,
+      "learning_rate": 1e-06,
+      "loss": -0.0426,
+      "num_tokens": 334824654.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.19058029353618622,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3529.0,
+      "completions/mean_length": 805.1027221679688,
+      "completions/mean_terminated_length": 585.7095336914062,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 5.111953352769679,
+      "grad_norm": 0.1331314742565155,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 335406666.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.16033712029457092,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 547
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3445.0,
+      "completions/mean_length": 781.4888916015625,
+      "completions/mean_terminated_length": 577.2772827148438,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.121282798833819,
+      "grad_norm": 0.13322143256664276,
+      "learning_rate": 1e-06,
+      "loss": -0.0246,
+      "num_tokens": 335975856.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.1385032683610916,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 548
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4018.0,
+      "completions/mean_length": 831.0279541015625,
+      "completions/mean_terminated_length": 642.1452026367188,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 5.130612244897959,
+      "grad_norm": 0.12781395018100739,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 336610745.0,
+      "reward": 0.65625,
+      "reward_std": 0.13947968184947968,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 549
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3529.0,
+      "completions/mean_length": 972.4531860351562,
+      "completions/mean_terminated_length": 606.3516235351562,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 5.139941690962099,
+      "grad_norm": 0.1296423226594925,
+      "learning_rate": 1e-06,
+      "loss": -0.0243,
+      "num_tokens": 337196295.0,
+      "reward": 0.5323660969734192,
+      "reward_std": 0.14782078564167023,
+      "rewards/verify_math_reward/mean": 0.5323660969734192,
+      "rewards/verify_math_reward/std": 0.4992299973964691,
+      "step": 550
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3478.0,
+      "completions/mean_length": 789.4207763671875,
+      "completions/mean_terminated_length": 568.982177734375,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 5.149271137026239,
+      "grad_norm": 0.13754911720752716,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 337762576.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14879578351974487,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3965.0,
+      "completions/mean_length": 877.2288208007812,
+      "completions/mean_terminated_length": 662.64404296875,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 5.158600583090379,
+      "grad_norm": 0.14513398706912994,
+      "learning_rate": 1e-06,
+      "loss": -0.0259,
+      "num_tokens": 338406477.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.20610612630844116,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2901.0,
+      "completions/mean_length": 853.2957763671875,
+      "completions/mean_terminated_length": 582.74365234375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.167930029154519,
+      "grad_norm": 0.12653854489326477,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 338974630.0,
+      "reward": 0.640625,
+      "reward_std": 0.1569557934999466,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2789.0,
+      "completions/mean_length": 912.3873291015625,
+      "completions/mean_terminated_length": 642.589599609375,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 5.1772594752186585,
+      "grad_norm": 0.1305101215839386,
+      "learning_rate": 1e-06,
+      "loss": -0.0219,
+      "num_tokens": 339592825.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.16029362380504608,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3868.0,
+      "completions/mean_length": 873.7455444335938,
+      "completions/mean_terminated_length": 646.6093139648438,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 5.186588921282799,
+      "grad_norm": 0.14321625232696533,
+      "learning_rate": 1e-06,
+      "loss": -0.0207,
+      "num_tokens": 340219941.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.18930260837078094,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 555
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3865.0,
+      "completions/mean_length": 768.2935791015625,
+      "completions/mean_terminated_length": 612.793212890625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.1959183673469385,
+      "grad_norm": 0.141605406999588,
+      "learning_rate": 1e-06,
+      "loss": -0.016,
+      "num_tokens": 340835604.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.16909119486808777,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 556
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3796.0,
+      "completions/mean_length": 1025.8973388671875,
+      "completions/mean_terminated_length": 653.1815185546875,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 5.205247813411079,
+      "grad_norm": 0.13470318913459778,
+      "learning_rate": 1e-06,
+      "loss": -0.021,
+      "num_tokens": 341446464.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.15893998742103577,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 557
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2573.0,
+      "completions/mean_length": 891.2076416015625,
+      "completions/mean_terminated_length": 598.443359375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 5.214577259475218,
+      "grad_norm": 0.14519642293453217,
+      "learning_rate": 1e-06,
+      "loss": -0.0235,
+      "num_tokens": 342033314.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.17735788226127625,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 558
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3818.0,
+      "completions/mean_length": 949.864990234375,
+      "completions/mean_terminated_length": 598.5595703125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.223906705539359,
+      "grad_norm": 0.15106196701526642,
+      "learning_rate": 1e-06,
+      "loss": -0.098,
+      "num_tokens": 342601065.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.19118830561637878,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3128.0,
+      "completions/mean_length": 992.7623291015625,
+      "completions/mean_terminated_length": 616.0238037109375,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 5.233236151603498,
+      "grad_norm": 0.12691587209701538,
+      "learning_rate": 1e-06,
+      "loss": -0.029,
+      "num_tokens": 343182988.0,
+      "reward": 0.5837053656578064,
+      "reward_std": 0.14538057148456573,
+      "rewards/verify_math_reward/mean": 0.5837053656578064,
+      "rewards/verify_math_reward/std": 0.49321895837783813,
+      "step": 560
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 957.6953735351562,
+      "completions/mean_terminated_length": 598.5858154296875,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.242565597667639,
+      "grad_norm": 0.11801715940237045,
+      "learning_rate": 1e-06,
+      "loss": -0.0113,
+      "num_tokens": 343755379.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.11490915715694427,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 561
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3912.0,
+      "completions/mean_length": 996.5513916015625,
+      "completions/mean_terminated_length": 637.5865478515625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 5.251895043731778,
+      "grad_norm": 0.14140519499778748,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 344352681.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.1584521383047104,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 562
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3803.0,
+      "completions/mean_length": 937.9230346679688,
+      "completions/mean_terminated_length": 615.5116577148438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.261224489795918,
+      "grad_norm": 0.16505105793476105,
+      "learning_rate": 1e-06,
+      "loss": -0.0808,
+      "num_tokens": 344938364.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.21027132868766785,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 563
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3324.0,
+      "completions/mean_length": 964.7734985351562,
+      "completions/mean_terminated_length": 674.5621948242188,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.270553935860058,
+      "grad_norm": 0.13483592867851257,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 345591153.0,
+      "reward": 0.5625,
+      "reward_std": 0.19460533559322357,
+      "rewards/verify_math_reward/mean": 0.5625,
+      "rewards/verify_math_reward/std": 0.49635544419288635,
+      "step": 564
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2277.0,
+      "completions/mean_length": 872.5892944335938,
+      "completions/mean_terminated_length": 595.1806030273438,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 5.279883381924198,
+      "grad_norm": 0.14715257287025452,
+      "learning_rate": 1e-06,
+      "loss": -0.0267,
+      "num_tokens": 346173185.0,
+      "reward": 0.59375,
+      "reward_std": 0.18054990470409393,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4003.0,
+      "completions/mean_length": 845.1395263671875,
+      "completions/mean_terminated_length": 590.8604125976562,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 5.289212827988338,
+      "grad_norm": 0.13903407752513885,
+      "learning_rate": 1e-06,
+      "loss": -0.0164,
+      "num_tokens": 346750094.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.15282267332077026,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4015.0,
+      "completions/mean_length": 941.3527221679688,
+      "completions/mean_terminated_length": 615.0098266601562,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 5.298542274052478,
+      "grad_norm": 0.140536829829216,
+      "learning_rate": 1e-06,
+      "loss": -0.0368,
+      "num_tokens": 347334946.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.17589251697063446,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 567
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3127.0,
+      "completions/mean_length": 907.17529296875,
+      "completions/mean_terminated_length": 611.6256103515625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 5.307871720116618,
+      "grad_norm": 0.1325594037771225,
+      "learning_rate": 1e-06,
+      "loss": -0.0314,
+      "num_tokens": 347923239.0,
+      "reward": 0.625,
+      "reward_std": 0.14969733357429504,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4091.0,
+      "completions/mean_length": 962.1451416015625,
+      "completions/mean_terminated_length": 637.9531860351562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 5.317201166180758,
+      "grad_norm": 0.1273690015077591,
+      "learning_rate": 1e-06,
+      "loss": -0.0082,
+      "num_tokens": 348533513.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.12805670499801636,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3740.0,
+      "completions/mean_length": 928.4107666015625,
+      "completions/mean_terminated_length": 617.86279296875,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 5.326530612244898,
+      "grad_norm": 0.1530476212501526,
+      "learning_rate": 1e-06,
+      "loss": -0.0284,
+      "num_tokens": 349122657.0,
+      "reward": 0.6171875,
+      "reward_std": 0.1736719310283661,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 570
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3463.0,
+      "completions/mean_length": 896.8839721679688,
+      "completions/mean_terminated_length": 613.1227416992188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 5.335860058309038,
+      "grad_norm": 0.14444182813167572,
+      "learning_rate": 1e-06,
+      "loss": -0.0102,
+      "num_tokens": 349709481.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1595052033662796,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 571
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4033.0,
+      "completions/mean_length": 899.0748291015625,
+      "completions/mean_terminated_length": 615.5079345703125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 5.345189504373177,
+      "grad_norm": 0.12167084217071533,
+      "learning_rate": 1e-06,
+      "loss": -0.0368,
+      "num_tokens": 350308732.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.15804095566272736,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2504.0,
+      "completions/mean_length": 881.7678833007812,
+      "completions/mean_terminated_length": 588.1412963867188,
+      "completions/min_length": 89.0,
+      "completions/min_terminated_length": 89.0,
+      "epoch": 5.354518950437318,
+      "grad_norm": 0.15102258324623108,
+      "learning_rate": 1e-06,
+      "loss": -0.0666,
+      "num_tokens": 350886172.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.16093485057353973,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 573
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3569.0,
+      "completions/mean_length": 826.3248291015625,
+      "completions/mean_terminated_length": 557.8007202148438,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 5.363848396501457,
+      "grad_norm": 0.15547627210617065,
+      "learning_rate": 1e-06,
+      "loss": -0.031,
+      "num_tokens": 351438583.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1589820384979248,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 574
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3774.0,
+      "completions/mean_length": 987.6741333007812,
+      "completions/mean_terminated_length": 666.1231689453125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.373177842565598,
+      "grad_norm": 0.13818617165088654,
+      "learning_rate": 1e-06,
+      "loss": -0.0171,
+      "num_tokens": 352071955.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.16728109121322632,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 575
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3811.0,
+      "completions/mean_length": 878.8850708007812,
+      "completions/mean_terminated_length": 602.0181884765625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.382507288629737,
+      "grad_norm": 0.12957793474197388,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 352665164.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1345556080341339,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4053.0,
+      "completions/mean_length": 944.3772583007812,
+      "completions/mean_terminated_length": 656.47021484375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 5.391836734693878,
+      "grad_norm": 0.11640162765979767,
+      "learning_rate": 1e-06,
+      "loss": -0.0159,
+      "num_tokens": 353290702.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.13621418178081512,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 577
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2960.0,
+      "completions/mean_length": 894.20654296875,
+      "completions/mean_terminated_length": 610.2078247070312,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.401166180758017,
+      "grad_norm": 0.12326303869485855,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 353888527.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.12328417599201202,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 578
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 1066.86279296875,
+      "completions/mean_terminated_length": 647.3252563476562,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 5.410495626822158,
+      "grad_norm": 0.14486698806285858,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 354492012.0,
+      "reward": 0.5792410969734192,
+      "reward_std": 0.17547360062599182,
+      "rewards/verify_math_reward/mean": 0.5792410969734192,
+      "rewards/verify_math_reward/std": 0.49395665526390076,
+      "step": 579
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3511.0,
+      "completions/mean_length": 851.958740234375,
+      "completions/mean_terminated_length": 635.6893310546875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 5.419825072886297,
+      "grad_norm": 0.1359625905752182,
+      "learning_rate": 1e-06,
+      "loss": -0.0004,
+      "num_tokens": 355111727.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15698717534542084,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 580
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3601.0,
+      "completions/mean_length": 881.1719360351562,
+      "completions/mean_terminated_length": 574.6234741210938,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.429154518950437,
+      "grad_norm": 0.1265256404876709,
+      "learning_rate": 1e-06,
+      "loss": -0.0276,
+      "num_tokens": 355667993.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.12561675906181335,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 581
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3102.0,
+      "completions/mean_length": 940.0513916015625,
+      "completions/mean_terminated_length": 639.1173706054688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.438483965014577,
+      "grad_norm": 0.12790414690971375,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 356272319.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.15544694662094116,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3826.0,
+      "completions/mean_length": 879.7645263671875,
+      "completions/mean_terminated_length": 632.36181640625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.447813411078717,
+      "grad_norm": 0.13306255638599396,
+      "learning_rate": 1e-06,
+      "loss": -0.054,
+      "num_tokens": 356881332.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1675432324409485,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2826.0,
+      "completions/mean_length": 888.4029541015625,
+      "completions/mean_terminated_length": 603.8894653320312,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.457142857142857,
+      "grad_norm": 0.14992226660251617,
+      "learning_rate": 1e-06,
+      "loss": -0.0473,
+      "num_tokens": 357462973.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1885533183813095,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3238.0,
+      "completions/mean_length": 1020.11279296875,
+      "completions/mean_terminated_length": 616.2083129882812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 5.466472303206997,
+      "grad_norm": 0.13353706896305084,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 358047978.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.14271056652069092,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2578.0,
+      "completions/mean_length": 893.99560546875,
+      "completions/mean_terminated_length": 588.6699829101562,
+      "completions/min_length": 192.0,
+      "completions/min_terminated_length": 192.0,
+      "epoch": 5.475801749271137,
+      "grad_norm": 0.15376587212085724,
+      "learning_rate": 1e-06,
+      "loss": -0.0344,
+      "num_tokens": 358617246.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.17957280576229095,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3793.0,
+      "completions/mean_length": 977.6563110351562,
+      "completions/mean_terminated_length": 655.0689697265625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.485131195335277,
+      "grad_norm": 0.1412321925163269,
+      "learning_rate": 1e-06,
+      "loss": -0.0368,
+      "num_tokens": 359247778.0,
+      "reward": 0.5859375,
+      "reward_std": 0.17341090738773346,
+      "rewards/verify_math_reward/mean": 0.5859375,
+      "rewards/verify_math_reward/std": 0.4928344786167145,
+      "step": 587
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3510.0,
+      "completions/mean_length": 994.4620971679688,
+      "completions/mean_terminated_length": 639.5596923828125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.494460641399417,
+      "grad_norm": 0.1472453474998474,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 359859656.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.16070912778377533,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 588
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3516.0,
+      "completions/mean_length": 886.232177734375,
+      "completions/mean_terminated_length": 618.4281005859375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.503790087463557,
+      "grad_norm": 0.14182664453983307,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 360456752.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15687909722328186,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3090.0,
+      "completions/mean_length": 806.6563110351562,
+      "completions/mean_terminated_length": 578.9928588867188,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 5.513119533527696,
+      "grad_norm": 0.15292948484420776,
+      "learning_rate": 1e-06,
+      "loss": -0.0103,
+      "num_tokens": 361025668.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.16935335099697113,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 590
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3808.0,
+      "completions/mean_length": 976.122802734375,
+      "completions/mean_terminated_length": 627.7493896484375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 5.522448979591837,
+      "grad_norm": 0.15715806186199188,
+      "learning_rate": 1e-06,
+      "loss": -0.0177,
+      "num_tokens": 361627714.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.16368110477924347,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3077.0,
+      "completions/mean_length": 877.677490234375,
+      "completions/mean_terminated_length": 621.7626342773438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.531778425655976,
+      "grad_norm": 0.12807443737983704,
+      "learning_rate": 1e-06,
+      "loss": -0.0201,
+      "num_tokens": 362245009.0,
+      "reward": 0.6328125,
+      "reward_std": 0.14109407365322113,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 592
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3820.0,
+      "completions/mean_length": 955.97998046875,
+      "completions/mean_terminated_length": 592.3162841796875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 5.541107871720117,
+      "grad_norm": 0.14723558723926544,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 362816959.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.17333491146564484,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3927.0,
+      "completions/mean_length": 1091.693115234375,
+      "completions/mean_terminated_length": 684.264892578125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 5.550437317784256,
+      "grad_norm": 0.1476609855890274,
+      "learning_rate": 1e-06,
+      "loss": -0.0731,
+      "num_tokens": 363441420.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.17998328804969788,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4033.0,
+      "completions/mean_length": 1016.8795166015625,
+      "completions/mean_terminated_length": 655.9850463867188,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 5.559766763848397,
+      "grad_norm": 0.17093658447265625,
+      "learning_rate": 1e-06,
+      "loss": -0.0362,
+      "num_tokens": 364074560.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.1983177363872528,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606892466545105,
+      "step": 595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3781.0,
+      "completions/mean_length": 930.9029541015625,
+      "completions/mean_terminated_length": 633.3297119140625,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 5.569096209912536,
+      "grad_norm": 0.14461827278137207,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 364669057.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1841912716627121,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 596
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4090.0,
+      "completions/mean_length": 840.8717041015625,
+      "completions/mean_terminated_length": 623.8630981445312,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 5.578425655976677,
+      "grad_norm": 0.11666166037321091,
+      "learning_rate": 1e-06,
+      "loss": -0.0211,
+      "num_tokens": 365270686.0,
+      "reward": 0.65625,
+      "reward_std": 0.11599431931972504,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3237.0,
+      "completions/mean_length": 914.8761596679688,
+      "completions/mean_terminated_length": 620.0402221679688,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 5.587755102040816,
+      "grad_norm": 0.1359519064426422,
+      "learning_rate": 1e-06,
+      "loss": -0.0465,
+      "num_tokens": 365863631.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.1713072657585144,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3632.0,
+      "completions/mean_length": 1019.1629638671875,
+      "completions/mean_terminated_length": 649.9425048828125,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.597084548104956,
+      "grad_norm": 0.1442059427499771,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 366475177.0,
+      "reward": 0.59375,
+      "reward_std": 0.1817174106836319,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4021.0,
+      "completions/mean_length": 995.5826416015625,
+      "completions/mean_terminated_length": 623.532470703125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.606413994169096,
+      "grad_norm": 0.157792866230011,
+      "learning_rate": 1e-06,
+      "loss": -0.0248,
+      "num_tokens": 367061315.0,
+      "reward": 0.5959821939468384,
+      "reward_std": 0.17359314858913422,
+      "rewards/verify_math_reward/mean": 0.5959821343421936,
+      "rewards/verify_math_reward/std": 0.490975022315979,
+      "step": 600
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3730.0,
+      "completions/mean_length": 831.3092041015625,
+      "completions/mean_terminated_length": 630.1671142578125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 5.615743440233236,
+      "grad_norm": 0.15126554667949677,
+      "learning_rate": 1e-06,
+      "loss": -0.0244,
+      "num_tokens": 367681616.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.2040313333272934,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 601
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3341.0,
+      "completions/mean_length": 813.552490234375,
+      "completions/mean_terminated_length": 611.3163452148438,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 5.625072886297376,
+      "grad_norm": 0.136699840426445,
+      "learning_rate": 1e-06,
+      "loss": -0.04,
+      "num_tokens": 368277167.0,
+      "reward": 0.65625,
+      "reward_std": 0.16355982422828674,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 602
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3628.0,
+      "completions/mean_length": 865.9207763671875,
+      "completions/mean_terminated_length": 625.7949829101562,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 5.634402332361516,
+      "grad_norm": 0.1896849274635315,
+      "learning_rate": 1e-06,
+      "loss": -0.0125,
+      "num_tokens": 368893856.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.15683633089065552,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 603
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3299.0,
+      "completions/mean_length": 892.7957763671875,
+      "completions/mean_terminated_length": 650.53662109375,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 5.643731778425656,
+      "grad_norm": 0.15675078332424164,
+      "learning_rate": 1e-06,
+      "loss": -0.0289,
+      "num_tokens": 369522193.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.19088521599769592,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 604
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3277.0,
+      "completions/mean_length": 894.27685546875,
+      "completions/mean_terminated_length": 635.5126953125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 5.653061224489796,
+      "grad_norm": 0.13467352092266083,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 370138521.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14661546051502228,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 605
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2968.0,
+      "completions/mean_length": 903.70654296875,
+      "completions/mean_terminated_length": 595.0269165039062,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 5.662390670553936,
+      "grad_norm": 0.15189126133918762,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 370711842.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.18558135628700256,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 606
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2084.0,
+      "completions/mean_length": 881.8917846679688,
+      "completions/mean_terminated_length": 601.04736328125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 5.671720116618076,
+      "grad_norm": 0.14081822335720062,
+      "learning_rate": 1e-06,
+      "loss": -0.0229,
+      "num_tokens": 371293897.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15308114886283875,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 607
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2640.0,
+      "completions/mean_length": 735.9152221679688,
+      "completions/mean_terminated_length": 570.6651000976562,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 5.681049562682215,
+      "grad_norm": 0.1424606740474701,
+      "learning_rate": 1e-06,
+      "loss": -0.0206,
+      "num_tokens": 371875309.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.1468009203672409,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 608
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3414.0,
+      "completions/mean_length": 980.39404296875,
+      "completions/mean_terminated_length": 636.7893676757812,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 5.690379008746356,
+      "grad_norm": 0.14881321787834167,
+      "learning_rate": 1e-06,
+      "loss": -0.0301,
+      "num_tokens": 372478582.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.17972436547279358,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.4907552897930145,
+      "step": 609
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3137.0,
+      "completions/mean_length": 769.6517944335938,
+      "completions/mean_terminated_length": 577.2183837890625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 5.699708454810495,
+      "grad_norm": 0.14888311922550201,
+      "learning_rate": 1e-06,
+      "loss": -0.0104,
+      "num_tokens": 373058974.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.13023702800273895,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 610
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3141.0,
+      "completions/mean_length": 868.497802734375,
+      "completions/mean_terminated_length": 624.4009399414062,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 5.709037900874636,
+      "grad_norm": 0.15976490080356598,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 373674500.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.18904298543930054,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 611
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3895.0,
+      "completions/mean_length": 1077.009033203125,
+      "completions/mean_terminated_length": 632.47119140625,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 5.718367346938775,
+      "grad_norm": 0.16654469072818756,
+      "learning_rate": 1e-06,
+      "loss": -0.0576,
+      "num_tokens": 374268108.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.20331665873527527,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 612
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3129.0,
+      "completions/mean_length": 952.7589721679688,
+      "completions/mean_terminated_length": 593.0845336914062,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 5.727696793002916,
+      "grad_norm": 0.15046453475952148,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 374834604.0,
+      "reward": 0.6484375,
+      "reward_std": 0.13665924966335297,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 613
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3612.0,
+      "completions/mean_length": 902.69091796875,
+      "completions/mean_terminated_length": 593.9130859375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 5.737026239067055,
+      "grad_norm": 0.1479462832212448,
+      "learning_rate": 1e-06,
+      "loss": -0.0382,
+      "num_tokens": 375413567.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.15800705552101135,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.4876568913459778,
+      "step": 614
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3977.0,
+      "completions/mean_length": 953.8013916015625,
+      "completions/mean_terminated_length": 620.1852416992188,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 5.746355685131196,
+      "grad_norm": 0.14168311655521393,
+      "learning_rate": 1e-06,
+      "loss": -0.0232,
+      "num_tokens": 376004413.0,
+      "reward": 0.59375,
+      "reward_std": 0.16570919752120972,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 615
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3523.0,
+      "completions/mean_length": 846.5625610351562,
+      "completions/mean_terminated_length": 621.6611328125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 5.755685131195335,
+      "grad_norm": 0.12374944239854813,
+      "learning_rate": 1e-06,
+      "loss": -0.0434,
+      "num_tokens": 376618197.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1447739452123642,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 616
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2804.0,
+      "completions/mean_length": 860.2567138671875,
+      "completions/mean_terminated_length": 594.519287109375,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 5.765014577259475,
+      "grad_norm": 0.160252645611763,
+      "learning_rate": 1e-06,
+      "loss": -0.02,
+      "num_tokens": 377196795.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1742025464773178,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 617
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2952.0,
+      "completions/mean_length": 987.1897583007812,
+      "completions/mean_terminated_length": 674.0172119140625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 5.774344023323615,
+      "grad_norm": 0.14358121156692505,
+      "learning_rate": 1e-06,
+      "loss": -0.0263,
+      "num_tokens": 377829733.0,
+      "reward": 0.65625,
+      "reward_std": 0.17585016787052155,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 618
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3669.0,
+      "completions/mean_length": 844.825927734375,
+      "completions/mean_terminated_length": 594.735595703125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 5.783673469387755,
+      "grad_norm": 0.12825733423233032,
+      "learning_rate": 1e-06,
+      "loss": -0.008,
+      "num_tokens": 378414057.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1277536004781723,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 619
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3822.0,
+      "completions/mean_length": 804.2142944335938,
+      "completions/mean_terminated_length": 588.9369506835938,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 5.793002915451895,
+      "grad_norm": 0.13255034387111664,
+      "learning_rate": 1e-06,
+      "loss": -0.0332,
+      "num_tokens": 379006233.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1640915721654892,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 620
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4055.0,
+      "completions/mean_length": 948.0614013671875,
+      "completions/mean_terminated_length": 652.1013793945312,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 5.802332361516035,
+      "grad_norm": 0.14350251853466034,
+      "learning_rate": 1e-06,
+      "loss": -0.037,
+      "num_tokens": 379627384.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.14628097414970398,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 621
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3452.0,
+      "completions/mean_length": 905.6428833007812,
+      "completions/mean_terminated_length": 664.3553466796875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 5.811661807580175,
+      "grad_norm": 0.1307872086763382,
+      "learning_rate": 1e-06,
+      "loss": -0.0197,
+      "num_tokens": 380265000.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.17063285410404205,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 622
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3543.0,
+      "completions/mean_length": 999.4844360351562,
+      "completions/mean_terminated_length": 691.7324829101562,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 5.820991253644315,
+      "grad_norm": 0.16919715702533722,
+      "learning_rate": 1e-06,
+      "loss": -0.0447,
+      "num_tokens": 380929162.0,
+      "reward": 0.625,
+      "reward_std": 0.17322616279125214,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 623
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4052.0,
+      "completions/mean_length": 939.6451416015625,
+      "completions/mean_terminated_length": 663.8471069335938,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 5.830320699708455,
+      "grad_norm": 0.12789836525917053,
+      "learning_rate": 1e-06,
+      "loss": -0.0252,
+      "num_tokens": 381577948.0,
+      "reward": 0.5892857313156128,
+      "reward_std": 0.15480753779411316,
+      "rewards/verify_math_reward/mean": 0.5892857313156128,
+      "rewards/verify_math_reward/std": 0.49223825335502625,
+      "step": 624
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2909.0,
+      "completions/mean_length": 856.5089721679688,
+      "completions/mean_terminated_length": 594.6923828125,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 5.839650145772595,
+      "grad_norm": 0.1532348096370697,
+      "learning_rate": 1e-06,
+      "loss": -0.0253,
+      "num_tokens": 382150580.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.16172830760478973,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 625
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4006.0,
+      "completions/mean_length": 837.177490234375,
+      "completions/mean_terminated_length": 607.4635620117188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.848979591836734,
+      "grad_norm": 0.12481541186571121,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 382739003.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.12261268496513367,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 626
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 877.5938110351562,
+      "completions/mean_terminated_length": 617.4813232421875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 5.858309037900875,
+      "grad_norm": 0.1397131234407425,
+      "learning_rate": 1e-06,
+      "loss": -0.0418,
+      "num_tokens": 383345855.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1529742032289505,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 627
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2534.0,
+      "completions/mean_length": 923.6998291015625,
+      "completions/mean_terminated_length": 625.4493408203125,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 5.867638483965014,
+      "grad_norm": 0.1381191462278366,
+      "learning_rate": 1e-06,
+      "loss": -0.0311,
+      "num_tokens": 383938402.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.1447400450706482,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 628
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3131.0,
+      "completions/mean_length": 959.6529541015625,
+      "completions/mean_terminated_length": 647.9423217773438,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 5.876967930029155,
+      "grad_norm": 0.139832004904747,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 384564595.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14628097414970398,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 629
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 933.3125610351562,
+      "completions/mean_terminated_length": 627.4957275390625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 5.886297376093294,
+      "grad_norm": 0.1456081122159958,
+      "learning_rate": 1e-06,
+      "loss": -0.0152,
+      "num_tokens": 385169291.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15022796392440796,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 630
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 909.4810791015625,
+      "completions/mean_terminated_length": 597.0772094726562,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 5.895626822157435,
+      "grad_norm": 0.14111317694187164,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 385744194.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.14966341853141785,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 631
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3519.0,
+      "completions/mean_length": 927.8460083007812,
+      "completions/mean_terminated_length": 663.513916015625,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 5.904956268221574,
+      "grad_norm": 0.1582006961107254,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 386389872.0,
+      "reward": 0.5848214626312256,
+      "reward_std": 0.19813229143619537,
+      "rewards/verify_math_reward/mean": 0.5848214030265808,
+      "rewards/verify_math_reward/std": 0.49302801489830017,
+      "step": 632
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2702.0,
+      "completions/mean_length": 850.9520263671875,
+      "completions/mean_terminated_length": 609.7134399414062,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 5.914285714285715,
+      "grad_norm": 0.126397505402565,
+      "learning_rate": 1e-06,
+      "loss": -0.0334,
+      "num_tokens": 386979381.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.15273529291152954,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 633
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2512.0,
+      "completions/mean_length": 826.7366333007812,
+      "completions/mean_terminated_length": 612.9321899414062,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 5.923615160349854,
+      "grad_norm": 0.14366699755191803,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 387587097.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.17355993390083313,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 634
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3223.0,
+      "completions/mean_length": 1015.529052734375,
+      "completions/mean_terminated_length": 641.554443359375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 5.932944606413994,
+      "grad_norm": 0.15155993402004242,
+      "learning_rate": 1e-06,
+      "loss": -0.063,
+      "num_tokens": 388197099.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.19697365164756775,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714011907577515,
+      "step": 635
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3900.0,
+      "completions/mean_length": 943.7969360351562,
+      "completions/mean_terminated_length": 647.4359130859375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 5.942274052478134,
+      "grad_norm": 0.13637402653694153,
+      "learning_rate": 1e-06,
+      "loss": -0.0345,
+      "num_tokens": 388814469.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.11986783146858215,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 636
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3611.0,
+      "completions/mean_length": 945.7288208007812,
+      "completions/mean_terminated_length": 619.8386840820312,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 5.9516034985422746,
+      "grad_norm": 0.13491137325763702,
+      "learning_rate": 1e-06,
+      "loss": -0.0101,
+      "num_tokens": 389413506.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.15251845121383667,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 637
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 970.0569458007812,
+      "completions/mean_terminated_length": 684.4957885742188,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 5.960932944606414,
+      "grad_norm": 0.13851997256278992,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 390071213.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.16845403611660004,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 638
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3853.0,
+      "completions/mean_length": 818.927490234375,
+      "completions/mean_terminated_length": 592.1134033203125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 5.970262390670554,
+      "grad_norm": 0.13052687048912048,
+      "learning_rate": 1e-06,
+      "loss": -0.0337,
+      "num_tokens": 390658620.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.14638976752758026,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 639
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2962.0,
+      "completions/mean_length": 837.6283569335938,
+      "completions/mean_terminated_length": 548.6112060546875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 5.979591836734694,
+      "grad_norm": 0.1723228394985199,
+      "learning_rate": 1e-06,
+      "loss": -0.0344,
+      "num_tokens": 391190367.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.14162610471248627,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 640
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2989.0,
+      "completions/mean_length": 1043.232177734375,
+      "completions/mean_terminated_length": 642.3636474609375,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 5.988921282798834,
+      "grad_norm": 0.1537492275238037,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 391799087.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.17757610976696014,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 641
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.06534090909090906,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2963.0,
+      "completions/mean_length": 905.102294921875,
+      "completions/mean_terminated_length": 682.0303955078125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 5.998250728862974,
+      "grad_norm": 0.13764840364456177,
+      "learning_rate": 1e-06,
+      "loss": -0.0343,
+      "num_tokens": 392405329.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.13868872821331024,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 642
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3857.0,
+      "completions/mean_length": 923.958740234375,
+      "completions/mean_terminated_length": 638.3978271484375,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.0093294460641395,
+      "grad_norm": 0.14158585667610168,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 393035036.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.15007779002189636,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 643
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2789.0,
+      "completions/mean_length": 798.8761596679688,
+      "completions/mean_terminated_length": 562.2404174804688,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 6.01865889212828,
+      "grad_norm": 0.1399795264005661,
+      "learning_rate": 1e-06,
+      "loss": -0.0274,
+      "num_tokens": 393582685.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.16465751826763153,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 644
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2469.0,
+      "completions/mean_length": 933.51904296875,
+      "completions/mean_terminated_length": 619.2110595703125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 6.0279883381924195,
+      "grad_norm": 0.162126362323761,
+      "learning_rate": 1e-06,
+      "loss": -0.0342,
+      "num_tokens": 394178870.0,
+      "reward": 0.6640625,
+      "reward_std": 0.19099467992782593,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 645
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3825.0,
+      "completions/mean_length": 966.0535888671875,
+      "completions/mean_terminated_length": 642.2659912109375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 6.03731778425656,
+      "grad_norm": 0.1526937335729599,
+      "learning_rate": 1e-06,
+      "loss": -0.0494,
+      "num_tokens": 394801222.0,
+      "reward": 0.5814732313156128,
+      "reward_std": 0.17611299455165863,
+      "rewards/verify_math_reward/mean": 0.5814732313156128,
+      "rewards/verify_math_reward/std": 0.4935929775238037,
+      "step": 646
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3258.0,
+      "completions/mean_length": 969.9598388671875,
+      "completions/mean_terminated_length": 709.1414794921875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 6.0466472303206995,
+      "grad_norm": 0.14036892354488373,
+      "learning_rate": 1e-06,
+      "loss": -0.0402,
+      "num_tokens": 395472018.0,
+      "reward": 0.625,
+      "reward_std": 0.17430922389030457,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 647
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3772.0,
+      "completions/mean_length": 883.6373291015625,
+      "completions/mean_terminated_length": 607.1793823242188,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 6.05597667638484,
+      "grad_norm": 0.16802679002285004,
+      "learning_rate": 1e-06,
+      "loss": -0.0558,
+      "num_tokens": 396060477.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.18765361607074738,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 648
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3419.0,
+      "completions/mean_length": 930.7545166015625,
+      "completions/mean_terminated_length": 654.1796264648438,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 6.0653061224489795,
+      "grad_norm": 0.13883596658706665,
+      "learning_rate": 1e-06,
+      "loss": -0.0284,
+      "num_tokens": 396687241.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.16116377711296082,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 649
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2177.0,
+      "completions/mean_length": 822.1551513671875,
+      "completions/mean_terminated_length": 582.988037109375,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 6.07463556851312,
+      "grad_norm": 0.14306329190731049,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 397265372.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1659344881772995,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 650
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3128.0,
+      "completions/mean_length": 742.6563110351562,
+      "completions/mean_terminated_length": 585.9579467773438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.0839650145772595,
+      "grad_norm": 0.15480206906795502,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 397857944.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.17096774280071259,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 651
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3221.0,
+      "completions/mean_length": 807.1339721679688,
+      "completions/mean_terminated_length": 592.0475463867188,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.093294460641399,
+      "grad_norm": 0.14246529340744019,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 398444032.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14120467007160187,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 652
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2717.0,
+      "completions/mean_length": 840.1484985351562,
+      "completions/mean_terminated_length": 618.9523315429688,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 6.1026239067055394,
+      "grad_norm": 0.13658668100833893,
+      "learning_rate": 1e-06,
+      "loss": -0.0063,
+      "num_tokens": 399054125.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.14989235997200012,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 653
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3798.0,
+      "completions/mean_length": 956.7801513671875,
+      "completions/mean_terminated_length": 644.7840576171875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 6.111953352769679,
+      "grad_norm": 0.1408751904964447,
+      "learning_rate": 1e-06,
+      "loss": -0.0278,
+      "num_tokens": 399676840.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1657087653875351,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 654
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3113.0,
+      "completions/mean_length": 865.1730346679688,
+      "completions/mean_terminated_length": 570.0304565429688,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.121282798833819,
+      "grad_norm": 0.15640050172805786,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 400226979.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.16442786157131195,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 655
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2838.0,
+      "completions/mean_length": 827.4185791015625,
+      "completions/mean_terminated_length": 580.21484375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 6.130612244897959,
+      "grad_norm": 0.15364786982536316,
+      "learning_rate": 1e-06,
+      "loss": -0.0474,
+      "num_tokens": 400787530.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.1642010509967804,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 656
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 874.4799194335938,
+      "completions/mean_terminated_length": 626.6707153320312,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 6.139941690962099,
+      "grad_norm": 0.1450071930885315,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 401393920.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.18205510079860687,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 657
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3379.0,
+      "completions/mean_length": 934.6473388671875,
+      "completions/mean_terminated_length": 598.99755859375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 6.149271137026239,
+      "grad_norm": 0.143891841173172,
+      "learning_rate": 1e-06,
+      "loss": -0.0092,
+      "num_tokens": 401972916.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.13147233426570892,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 658
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3322.0,
+      "completions/mean_length": 796.9051513671875,
+      "completions/mean_terminated_length": 568.5668334960938,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 6.158600583090379,
+      "grad_norm": 0.1359974443912506,
+      "learning_rate": 1e-06,
+      "loss": -0.0178,
+      "num_tokens": 402534447.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.12967249751091003,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 659
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2839.0,
+      "completions/mean_length": 912.6317138671875,
+      "completions/mean_terminated_length": 617.5878295898438,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 6.167930029154519,
+      "grad_norm": 0.14906616508960724,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 403127413.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.16349565982818604,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 660
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3903.0,
+      "completions/mean_length": 1067.2054443359375,
+      "completions/mean_terminated_length": 669.48486328125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 6.1772594752186585,
+      "grad_norm": 0.15464231371879578,
+      "learning_rate": 1e-06,
+      "loss": -0.0402,
+      "num_tokens": 403759925.0,
+      "reward": 0.5424107313156128,
+      "reward_std": 0.19016914069652557,
+      "rewards/verify_math_reward/mean": 0.5424107313156128,
+      "rewards/verify_math_reward/std": 0.4984763562679291,
+      "step": 661
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0513392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3561.0,
+      "completions/mean_length": 804.9163208007812,
+      "completions/mean_terminated_length": 626.810546875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 6.186588921282799,
+      "grad_norm": 0.1159672886133194,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 404375642.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.1319269835948944,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 662
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3932.0,
+      "completions/mean_length": 858.0000610351562,
+      "completions/mean_terminated_length": 592.0772705078125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 6.1959183673469385,
+      "grad_norm": 0.14473634958267212,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 404959298.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1619861125946045,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 663
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2976.0,
+      "completions/mean_length": 855.5781860351562,
+      "completions/mean_terminated_length": 572.4344482421875,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 6.205247813411079,
+      "grad_norm": 0.14569254219532013,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 405512112.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.14958924055099487,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580071330070496,
+      "step": 664
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 959.193115234375,
+      "completions/mean_terminated_length": 643.2002563476562,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.214577259475218,
+      "grad_norm": 0.13061484694480896,
+      "learning_rate": 1e-06,
+      "loss": -0.0183,
+      "num_tokens": 406134557.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.12395747750997543,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 665
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2272.0,
+      "completions/mean_length": 807.224365234375,
+      "completions/mean_terminated_length": 532.8283081054688,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 6.223906705539359,
+      "grad_norm": 0.14673306047916412,
+      "learning_rate": 1e-06,
+      "loss": -0.0389,
+      "num_tokens": 406653582.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.14338389039039612,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 666
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4093.0,
+      "completions/mean_length": 917.33154296875,
+      "completions/mean_terminated_length": 668.6991577148438,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 6.233236151603498,
+      "grad_norm": 0.15444384515285492,
+      "learning_rate": 1e-06,
+      "loss": -0.0292,
+      "num_tokens": 407291391.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1678142249584198,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 667
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3245.0,
+      "completions/mean_length": 1007.15185546875,
+      "completions/mean_terminated_length": 636.489990234375,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 6.242565597667639,
+      "grad_norm": 0.13743498921394348,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 407896367.0,
+      "reward": 0.625,
+      "reward_std": 0.13929422199726105,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 668
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3550.0,
+      "completions/mean_length": 868.232177734375,
+      "completions/mean_terminated_length": 628.2781982421875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.251895043731778,
+      "grad_norm": 0.14347991347312927,
+      "learning_rate": 1e-06,
+      "loss": -0.0186,
+      "num_tokens": 408511703.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.17171843349933624,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 669
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3620.0,
+      "completions/mean_length": 856.5469360351562,
+      "completions/mean_terminated_length": 573.4878540039062,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.261224489795918,
+      "grad_norm": 0.13810473680496216,
+      "learning_rate": 1e-06,
+      "loss": -0.0071,
+      "num_tokens": 409074489.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14083263278007507,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728575229644775,
+      "step": 670
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2964.0,
+      "completions/mean_length": 876.2723388671875,
+      "completions/mean_terminated_length": 582.1437377929688,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 6.270553935860058,
+      "grad_norm": 0.15649516880512238,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 409641469.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1605243682861328,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 671
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3685.0,
+      "completions/mean_length": 946.2935791015625,
+      "completions/mean_terminated_length": 654.3695068359375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 6.279883381924198,
+      "grad_norm": 0.13064932823181152,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 410272356.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.16495807468891144,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 672
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 877.6473388671875,
+      "completions/mean_terminated_length": 592.1798706054688,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 6.289212827988338,
+      "grad_norm": 0.1501125693321228,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 410859448.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.18333503603935242,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 673
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.044642857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3199.0,
+      "completions/mean_length": 791.2142944335938,
+      "completions/mean_terminated_length": 636.7850341796875,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 6.298542274052478,
+      "grad_norm": 0.13228359818458557,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 411491376.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.17299653589725494,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 674
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3417.0,
+      "completions/mean_length": 936.0904541015625,
+      "completions/mean_terminated_length": 604.90380859375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 6.307871720116618,
+      "grad_norm": 0.14179129898548126,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 412057697.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.1608920693397522,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 675
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3303.0,
+      "completions/mean_length": 999.37060546875,
+      "completions/mean_terminated_length": 640.7322387695312,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 6.317201166180758,
+      "grad_norm": 0.1590924859046936,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 412659309.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.18904118239879608,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 676
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3902.0,
+      "completions/mean_length": 946.8292846679688,
+      "completions/mean_terminated_length": 629.5908813476562,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.326530612244898,
+      "grad_norm": 0.1469426304101944,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 413263156.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.1629982441663742,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 677
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4089.0,
+      "completions/mean_length": 932.6719360351562,
+      "completions/mean_terminated_length": 592.4869995117188,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 6.335860058309038,
+      "grad_norm": 0.12550754845142365,
+      "learning_rate": 1e-06,
+      "loss": -0.0382,
+      "num_tokens": 413845526.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1274493932723999,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 678
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 910.4129638671875,
+      "completions/mean_terminated_length": 606.65283203125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 6.345189504373177,
+      "grad_norm": 0.14531581103801727,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 414430264.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.18306542932987213,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 679
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3730.0,
+      "completions/mean_length": 921.97998046875,
+      "completions/mean_terminated_length": 661.3115844726562,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 6.354518950437318,
+      "grad_norm": 0.14274469017982483,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 415063694.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.1825340837240219,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.48291724920272827,
+      "step": 680
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4038.0,
+      "completions/mean_length": 1006.2254638671875,
+      "completions/mean_terminated_length": 678.1753540039062,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 6.363848396501457,
+      "grad_norm": 0.13987290859222412,
+      "learning_rate": 1e-06,
+      "loss": -0.0566,
+      "num_tokens": 415703816.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.14969801902770996,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 681
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 906.9006958007812,
+      "completions/mean_terminated_length": 632.44482421875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 6.373177842565598,
+      "grad_norm": 0.136633038520813,
+      "learning_rate": 1e-06,
+      "loss": -0.0362,
+      "num_tokens": 416320927.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.1664562225341797,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.482613742351532,
+      "step": 682
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 896.70654296875,
+      "completions/mean_terminated_length": 608.6921997070312,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 6.382507288629737,
+      "grad_norm": 0.14189589023590088,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 416913872.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1504889577627182,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 683
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3625.0,
+      "completions/mean_length": 993.0781860351562,
+      "completions/mean_terminated_length": 650.8723754882812,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 6.391836734693878,
+      "grad_norm": 0.15703332424163818,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 417529446.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.18070964515209198,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263834953308105,
+      "step": 684
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2871.0,
+      "completions/mean_length": 876.4006958007812,
+      "completions/mean_terminated_length": 560.7537231445312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.401166180758017,
+      "grad_norm": 0.15196703374385834,
+      "learning_rate": 1e-06,
+      "loss": -0.0565,
+      "num_tokens": 418078669.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.17904219031333923,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 685
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3305.0,
+      "completions/mean_length": 980.3560791015625,
+      "completions/mean_terminated_length": 606.478759765625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 6.410495626822158,
+      "grad_norm": 0.1479184329509735,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 418651356.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.1532677263021469,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 686
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 968.357177734375,
+      "completions/mean_terminated_length": 644.807861328125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 6.419825072886297,
+      "grad_norm": 0.1460193246603012,
+      "learning_rate": 1e-06,
+      "loss": -0.0377,
+      "num_tokens": 419259372.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.17299720644950867,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.47737622261047363,
+      "step": 687
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3936.0,
+      "completions/mean_length": 967.22216796875,
+      "completions/mean_terminated_length": 673.0635375976562,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 6.429154518950437,
+      "grad_norm": 0.13802941143512726,
+      "learning_rate": 1e-06,
+      "loss": -0.0185,
+      "num_tokens": 419898163.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.15996097028255463,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 688
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3807.0,
+      "completions/mean_length": 967.2310791015625,
+      "completions/mean_terminated_length": 630.7626342773438,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.438483965014577,
+      "grad_norm": 0.13665814697742462,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 420499314.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1519550383090973,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 689
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3241.0,
+      "completions/mean_length": 943.3136596679688,
+      "completions/mean_terminated_length": 634.2267456054688,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 6.447813411078717,
+      "grad_norm": 0.1733466535806656,
+      "learning_rate": 1e-06,
+      "loss": -0.0209,
+      "num_tokens": 421101675.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.20812352001667023,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 690
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 1010.22998046875,
+      "completions/mean_terminated_length": 648.55615234375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 6.457142857142857,
+      "grad_norm": 0.16263236105442047,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 421710289.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.20151540637016296,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.48468026518821716,
+      "step": 691
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3612.0,
+      "completions/mean_length": 847.0145263671875,
+      "completions/mean_terminated_length": 605.4832153320312,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 6.466472303206997,
+      "grad_norm": 0.14803138375282288,
+      "learning_rate": 1e-06,
+      "loss": -0.0226,
+      "num_tokens": 422305550.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1765669286251068,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 692
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3020.0,
+      "completions/mean_length": 955.7176513671875,
+      "completions/mean_terminated_length": 596.3818359375,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 6.475801749271137,
+      "grad_norm": 0.15864917635917664,
+      "learning_rate": 1e-06,
+      "loss": -0.0641,
+      "num_tokens": 422867433.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.19347740709781647,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 693
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3649.0,
+      "completions/mean_length": 834.5736694335938,
+      "completions/mean_terminated_length": 587.9111328125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 6.485131195335277,
+      "grad_norm": 0.13870617747306824,
+      "learning_rate": 1e-06,
+      "loss": -0.0163,
+      "num_tokens": 423448731.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1334686130285263,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 694
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3923.0,
+      "completions/mean_length": 963.0625610351562,
+      "completions/mean_terminated_length": 626.1458740234375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 6.494460641399417,
+      "grad_norm": 0.16906289756298065,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 424042643.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17826010286808014,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 695
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3490.0,
+      "completions/mean_length": 971.302490234375,
+      "completions/mean_terminated_length": 635.2719116210938,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.503790087463557,
+      "grad_norm": 0.1475287228822708,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 424650170.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.16814985871315002,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.4907552897930145,
+      "step": 696
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3707.0,
+      "completions/mean_length": 1071.118408203125,
+      "completions/mean_terminated_length": 638.9923095703125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 6.513119533527696,
+      "grad_norm": 0.15114979445934296,
+      "learning_rate": 1e-06,
+      "loss": -0.0548,
+      "num_tokens": 425247812.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.17641498148441315,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 697
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3772.0,
+      "completions/mean_length": 983.82373046875,
+      "completions/mean_terminated_length": 619.0548706054688,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 6.522448979591837,
+      "grad_norm": 0.15000033378601074,
+      "learning_rate": 1e-06,
+      "loss": -0.0444,
+      "num_tokens": 425844046.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.1713828444480896,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 698
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2950.0,
+      "completions/mean_length": 903.763427734375,
+      "completions/mean_terminated_length": 560.4697265625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.531778425655976,
+      "grad_norm": 0.1456417441368103,
+      "learning_rate": 1e-06,
+      "loss": -0.0553,
+      "num_tokens": 426387194.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.164730966091156,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 699
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2657.0,
+      "completions/mean_length": 914.0792846679688,
+      "completions/mean_terminated_length": 576.2457275390625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 6.541107871720117,
+      "grad_norm": 0.11200274527072906,
+      "learning_rate": 1e-06,
+      "loss": -0.0158,
+      "num_tokens": 426934137.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.09923429787158966,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 700
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 961.568115234375,
+      "completions/mean_terminated_length": 641.5707397460938,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 6.550437317784256,
+      "grad_norm": 0.1343359798192978,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 427540870.0,
+      "reward": 0.65625,
+      "reward_std": 0.15600824356079102,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 701
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4031.0,
+      "completions/mean_length": 859.8873291015625,
+      "completions/mean_terminated_length": 598.3438110351562,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 6.559766763848397,
+      "grad_norm": 0.13791272044181824,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 428121201.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14248304069042206,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 702
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 1159.1741943359375,
+      "completions/mean_terminated_length": 678.6026000976562,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 6.569096209912536,
+      "grad_norm": 0.12637297809123993,
+      "learning_rate": 1e-06,
+      "loss": -0.0812,
+      "num_tokens": 428720069.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1504140943288803,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 703
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3918.0,
+      "completions/mean_length": 874.036865234375,
+      "completions/mean_terminated_length": 613.6369018554688,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 6.578425655976677,
+      "grad_norm": 0.13937804102897644,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 429314326.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15642446279525757,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 704
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3819.0,
+      "completions/mean_length": 897.896240234375,
+      "completions/mean_terminated_length": 651.8882446289062,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 6.587755102040816,
+      "grad_norm": 0.1512024700641632,
+      "learning_rate": 1e-06,
+      "loss": -0.0264,
+      "num_tokens": 429937857.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.17739178240299225,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 705
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3628.0,
+      "completions/mean_length": 1037.453125,
+      "completions/mean_terminated_length": 661.8421020507812,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 6.597084548104956,
+      "grad_norm": 0.15871959924697876,
+      "learning_rate": 1e-06,
+      "loss": -0.047,
+      "num_tokens": 430559063.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.18881294131278992,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 706
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3812.0,
+      "completions/mean_length": 828.9520263671875,
+      "completions/mean_terminated_length": 611.1488037109375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 6.606413994169096,
+      "grad_norm": 0.1267891377210617,
+      "learning_rate": 1e-06,
+      "loss": -0.0235,
+      "num_tokens": 431163820.0,
+      "reward": 0.640625,
+      "reward_std": 0.14740711450576782,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 707
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2135.0,
+      "completions/mean_length": 868.3895263671875,
+      "completions/mean_terminated_length": 577.8260498046875,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 6.615743440233236,
+      "grad_norm": 0.15745864808559418,
+      "learning_rate": 1e-06,
+      "loss": -0.0462,
+      "num_tokens": 431728921.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1829138696193695,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 708
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3596.0,
+      "completions/mean_length": 1067.5570068359375,
+      "completions/mean_terminated_length": 621.6273803710938,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 6.625072886297376,
+      "grad_norm": 0.1713033765554428,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 432303708.0,
+      "reward": 0.640625,
+      "reward_std": 0.1825447827577591,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 709
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3884.0,
+      "completions/mean_length": 1034.798095703125,
+      "completions/mean_terminated_length": 632.8219604492188,
+      "completions/min_length": 197.0,
+      "completions/min_terminated_length": 197.0,
+      "epoch": 6.634402332361516,
+      "grad_norm": 0.13735699653625488,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 432904695.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.14263640344142914,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056781768799,
+      "step": 710
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2790.0,
+      "completions/mean_length": 931.4219360351562,
+      "completions/mean_terminated_length": 633.8974609375,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 6.643731778425656,
+      "grad_norm": 0.13081882894039154,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 433507713.0,
+      "reward": 0.6484375,
+      "reward_std": 0.15428510308265686,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 711
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3449.0,
+      "completions/mean_length": 1001.9688110351562,
+      "completions/mean_terminated_length": 630.6849975585938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 6.653061224489796,
+      "grad_norm": 0.1479046493768692,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 434108629.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.1705554574728012,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 712
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3057.0,
+      "completions/mean_length": 942.3527221679688,
+      "completions/mean_terminated_length": 603.2089233398438,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 6.662390670553936,
+      "grad_norm": 0.14598913490772247,
+      "learning_rate": 1e-06,
+      "loss": -0.0169,
+      "num_tokens": 434687641.0,
+      "reward": 0.65625,
+      "reward_std": 0.13046273589134216,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 713
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3565.0,
+      "completions/mean_length": 990.7500610351562,
+      "completions/mean_terminated_length": 626.7930297851562,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 6.671720116618076,
+      "grad_norm": 0.12860062718391418,
+      "learning_rate": 1e-06,
+      "loss": -0.0391,
+      "num_tokens": 435289441.0,
+      "reward": 0.6171875,
+      "reward_std": 0.11997590214014053,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 714
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4014.0,
+      "completions/mean_length": 1056.54248046875,
+      "completions/mean_terminated_length": 622.3341674804688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.681049562682215,
+      "grad_norm": 0.1592123955488205,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 435868087.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.16281278431415558,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 715
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3352.0,
+      "completions/mean_length": 1017.450927734375,
+      "completions/mean_terminated_length": 635.04638671875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 6.690379008746356,
+      "grad_norm": 0.14399969577789307,
+      "learning_rate": 1e-06,
+      "loss": -0.0576,
+      "num_tokens": 436464971.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.18994088470935822,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 716
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 1069.6640625,
+      "completions/mean_terminated_length": 654.8870239257812,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 6.699708454810495,
+      "grad_norm": 0.13264822959899902,
+      "learning_rate": 1e-06,
+      "loss": -0.0719,
+      "num_tokens": 437070030.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.15311436355113983,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 717
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2946.0,
+      "completions/mean_length": 933.1094360351562,
+      "completions/mean_terminated_length": 601.6103515625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 6.709037900874636,
+      "grad_norm": 0.15438160300254822,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 437642256.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15169289708137512,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 718
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4088.0,
+      "completions/mean_length": 920.818115234375,
+      "completions/mean_terminated_length": 605.2478637695312,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 6.718367346938775,
+      "grad_norm": 0.14090892672538757,
+      "learning_rate": 1e-06,
+      "loss": -0.0456,
+      "num_tokens": 438234413.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1369616538286209,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 719
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3112.0,
+      "completions/mean_length": 975.7154541015625,
+      "completions/mean_terminated_length": 614.3374633789062,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 6.727696793002916,
+      "grad_norm": 0.14739517867565155,
+      "learning_rate": 1e-06,
+      "loss": -0.0464,
+      "num_tokens": 438816646.0,
+      "reward": 0.6238839626312256,
+      "reward_std": 0.16131463646888733,
+      "rewards/verify_math_reward/mean": 0.6238839030265808,
+      "rewards/verify_math_reward/std": 0.4846802353858948,
+      "step": 720
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2812.0,
+      "completions/mean_length": 896.2857666015625,
+      "completions/mean_terminated_length": 620.9163818359375,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 6.737026239067055,
+      "grad_norm": 0.14392498135566711,
+      "learning_rate": 1e-06,
+      "loss": -0.0464,
+      "num_tokens": 439409822.0,
+      "reward": 0.6640625,
+      "reward_std": 0.17532657086849213,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 721
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2842.0,
+      "completions/mean_length": 912.3817138671875,
+      "completions/mean_terminated_length": 565.6510009765625,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 6.746355685131196,
+      "grad_norm": 0.14372050762176514,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 439969644.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1350851058959961,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 722
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3879.0,
+      "completions/mean_length": 957.3928833007812,
+      "completions/mean_terminated_length": 606.9280395507812,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 6.755685131195335,
+      "grad_norm": 0.13563469052314758,
+      "learning_rate": 1e-06,
+      "loss": -0.0652,
+      "num_tokens": 440546764.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1422245353460312,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 723
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3991.0,
+      "completions/mean_length": 849.232177734375,
+      "completions/mean_terminated_length": 574.0823364257812,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 6.765014577259475,
+      "grad_norm": 0.1479085236787796,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 441101988.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.17622952163219452,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 724
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3999.0,
+      "completions/mean_length": 1020.1082763671875,
+      "completions/mean_terminated_length": 638.0338745117188,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 6.774344023323615,
+      "grad_norm": 0.15377195179462433,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 441696149.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.17641469836235046,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580071330070496,
+      "step": 725
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3398.0,
+      "completions/mean_length": 964.0881958007812,
+      "completions/mean_terminated_length": 627.2817993164062,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 6.783673469387755,
+      "grad_norm": 0.1564217507839203,
+      "learning_rate": 1e-06,
+      "loss": -0.0682,
+      "num_tokens": 442291068.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.19231371581554413,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 726
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4060.0,
+      "completions/mean_length": 1033.1953125,
+      "completions/mean_terminated_length": 639.7367553710938,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 6.793002915451895,
+      "grad_norm": 0.17613981664180756,
+      "learning_rate": 1e-06,
+      "loss": -0.035,
+      "num_tokens": 442889419.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1970803141593933,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 727
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3906.0,
+      "completions/mean_length": 989.1339721679688,
+      "completions/mean_terminated_length": 655.02099609375,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 6.802332361516035,
+      "grad_norm": 0.15963493287563324,
+      "learning_rate": 1e-06,
+      "loss": -0.0396,
+      "num_tokens": 443503339.0,
+      "reward": 0.5881696939468384,
+      "reward_std": 0.1958770900964737,
+      "rewards/verify_math_reward/mean": 0.5881696343421936,
+      "rewards/verify_math_reward/std": 0.4924395978450775,
+      "step": 728
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 942.12060546875,
+      "completions/mean_terminated_length": 641.3839111328125,
+      "completions/min_length": 13.0,
+      "completions/min_terminated_length": 13.0,
+      "epoch": 6.811661807580175,
+      "grad_norm": 0.1958419531583786,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 444109367.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.18606920540332794,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 729
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3844.0,
+      "completions/mean_length": 1009.857177734375,
+      "completions/mean_terminated_length": 630.8571166992188,
+      "completions/min_length": 22.0,
+      "completions/min_terminated_length": 22.0,
+      "epoch": 6.820991253644315,
+      "grad_norm": 0.18248870968818665,
+      "learning_rate": 1e-06,
+      "loss": -0.0442,
+      "num_tokens": 444689327.0,
+      "reward": 0.5758928656578064,
+      "reward_std": 0.18600277602672577,
+      "rewards/verify_math_reward/mean": 0.5758928656578064,
+      "rewards/verify_math_reward/std": 0.49448272585868835,
+      "step": 730
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3845.0,
+      "completions/mean_length": 1059.735595703125,
+      "completions/mean_terminated_length": 634.81298828125,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 6.830320699708455,
+      "grad_norm": 0.15374544262886047,
+      "learning_rate": 1e-06,
+      "loss": -0.026,
+      "num_tokens": 445277090.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.1599598526954651,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.4876568913459778,
+      "step": 731
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4089.0,
+      "completions/mean_length": 921.9420166015625,
+      "completions/mean_terminated_length": 657.1173095703125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.839650145772595,
+      "grad_norm": 0.14172156155109406,
+      "learning_rate": 1e-06,
+      "loss": -0.0343,
+      "num_tokens": 445911110.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.16476628184318542,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 732
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3452.0,
+      "completions/mean_length": 923.560302734375,
+      "completions/mean_terminated_length": 591.0604248046875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 6.848979591836734,
+      "grad_norm": 0.15090593695640564,
+      "learning_rate": 1e-06,
+      "loss": -0.0305,
+      "num_tokens": 446491548.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.16721759736537933,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 733
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2433.0,
+      "completions/mean_length": 929.9810791015625,
+      "completions/mean_terminated_length": 602.4617919921875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 6.858309037900875,
+      "grad_norm": 0.13988660275936127,
+      "learning_rate": 1e-06,
+      "loss": -0.0618,
+      "num_tokens": 447069459.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1465412974357605,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 734
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3668.0,
+      "completions/mean_length": 1077.0726318359375,
+      "completions/mean_terminated_length": 614.7142944335938,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 6.867638483965014,
+      "grad_norm": 0.16139984130859375,
+      "learning_rate": 1e-06,
+      "loss": -0.0665,
+      "num_tokens": 447646876.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.13996683061122894,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 735
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2852.0,
+      "completions/mean_length": 1014.2410888671875,
+      "completions/mean_terminated_length": 596.3092651367188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 6.876967930029155,
+      "grad_norm": 0.14299577474594116,
+      "learning_rate": 1e-06,
+      "loss": -0.0561,
+      "num_tokens": 448217500.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.13617070019245148,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 736
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2525.0,
+      "completions/mean_length": 862.4129638671875,
+      "completions/mean_terminated_length": 579.8665161132812,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 6.886297376093294,
+      "grad_norm": 0.11797186732292175,
+      "learning_rate": 1e-06,
+      "loss": -0.0234,
+      "num_tokens": 448794326.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.11922591924667358,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 737
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3834.0,
+      "completions/mean_length": 989.216552734375,
+      "completions/mean_terminated_length": 672.0418090820312,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 6.895626822157435,
+      "grad_norm": 0.1549098640680313,
+      "learning_rate": 1e-06,
+      "loss": -0.0284,
+      "num_tokens": 449434768.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.1636369228363037,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 738
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 912.7355346679688,
+      "completions/mean_terminated_length": 579.10107421875,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 6.904956268221574,
+      "grad_norm": 0.14883829653263092,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 449985603.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.15169291198253632,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 739
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3245.0,
+      "completions/mean_length": 1001.7991333007812,
+      "completions/mean_terminated_length": 639.13720703125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 6.914285714285715,
+      "grad_norm": 0.12948399782180786,
+      "learning_rate": 1e-06,
+      "loss": -0.0302,
+      "num_tokens": 450592591.0,
+      "reward": 0.5948660969734192,
+      "reward_std": 0.1337614506483078,
+      "rewards/verify_math_reward/mean": 0.5948660969734192,
+      "rewards/verify_math_reward/std": 0.49119213223457336,
+      "step": 740
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3968.0,
+      "completions/mean_length": 851.8638916015625,
+      "completions/mean_terminated_length": 581.1922607421875,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 6.923615160349854,
+      "grad_norm": 0.15998977422714233,
+      "learning_rate": 1e-06,
+      "loss": -0.0512,
+      "num_tokens": 451153725.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.19448630511760712,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 741
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2984.0,
+      "completions/mean_length": 918.7131958007812,
+      "completions/mean_terminated_length": 602.9337158203125,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 6.932944606413994,
+      "grad_norm": 0.1429097205400467,
+      "learning_rate": 1e-06,
+      "loss": -0.0231,
+      "num_tokens": 451729620.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.15169358253479004,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 742
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3919.0,
+      "completions/mean_length": 830.9141235351562,
+      "completions/mean_terminated_length": 583.9747924804688,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 6.942274052478134,
+      "grad_norm": 0.14885066449642181,
+      "learning_rate": 1e-06,
+      "loss": -0.0336,
+      "num_tokens": 452311039.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14469726383686066,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 743
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4050.0,
+      "completions/mean_length": 1033.8203125,
+      "completions/mean_terminated_length": 662.0663452148438,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 6.9516034985422746,
+      "grad_norm": 0.20462048053741455,
+      "learning_rate": 1e-06,
+      "loss": -0.0529,
+      "num_tokens": 452926334.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.14797276258468628,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 744
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3846.0,
+      "completions/mean_length": 979.1563110351562,
+      "completions/mean_terminated_length": 631.12158203125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 6.960932944606414,
+      "grad_norm": 0.1431466042995453,
+      "learning_rate": 1e-06,
+      "loss": -0.0692,
+      "num_tokens": 453525578.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.17400752007961273,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 745
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 986.2031860351562,
+      "completions/mean_terminated_length": 599.9171752929688,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 6.970262390670554,
+      "grad_norm": 0.14980660378932953,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 454094632.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.156576007604599,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 746
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 961.2969360351562,
+      "completions/mean_terminated_length": 589.5155639648438,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.979591836734694,
+      "grad_norm": 0.1564895510673523,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 454653346.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.17081506550312042,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 747
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3631.0,
+      "completions/mean_length": 973.3303833007812,
+      "completions/mean_terminated_length": 624.6451416015625,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 6.988921282798834,
+      "grad_norm": 0.13402433693408966,
+      "learning_rate": 1e-06,
+      "loss": -0.0175,
+      "num_tokens": 455237186.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.11468092352151871,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 748
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.13068181818181823,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2105.0,
+      "completions/mean_length": 1031.70458984375,
+      "completions/mean_terminated_length": 571.058837890625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 6.998250728862974,
+      "grad_norm": 0.15120480954647064,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 455789856.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.1374509036540985,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 749
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2845.0,
+      "completions/mean_length": 1026.2489013671875,
+      "completions/mean_terminated_length": 601.0863647460938,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.0093294460641395,
+      "grad_norm": 0.1724964827299118,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 456358799.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.18479041755199432,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 750
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3597.0,
+      "completions/mean_length": 910.23779296875,
+      "completions/mean_terminated_length": 585.0,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 7.01865889212828,
+      "grad_norm": 0.16510646045207977,
+      "learning_rate": 1e-06,
+      "loss": -0.0469,
+      "num_tokens": 456925588.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.15650072693824768,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 751
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3010.0,
+      "completions/mean_length": 1020.1574096679688,
+      "completions/mean_terminated_length": 589.6959228515625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 7.0279883381924195,
+      "grad_norm": 0.14759129285812378,
+      "learning_rate": 1e-06,
+      "loss": -0.0536,
+      "num_tokens": 457473401.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.15037837624549866,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 752
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3612.0,
+      "completions/mean_length": 1010.2935791015625,
+      "completions/mean_terminated_length": 648.627197265625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 7.03731778425656,
+      "grad_norm": 0.15122123062610626,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 458079256.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1657833456993103,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 753
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3690.0,
+      "completions/mean_length": 1047.5592041015625,
+      "completions/mean_terminated_length": 603.1572875976562,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 7.0466472303206995,
+      "grad_norm": 0.1405087411403656,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 458637829.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.13647380471229553,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 754
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2927.0,
+      "completions/mean_length": 1016.2545166015625,
+      "completions/mean_terminated_length": 642.3679809570312,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 7.05597667638484,
+      "grad_norm": 0.14581283926963806,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 459251761.0,
+      "reward": 0.625,
+      "reward_std": 0.14744029939174652,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 755
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3745.0,
+      "completions/mean_length": 960.5703735351562,
+      "completions/mean_terminated_length": 648.950927734375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.0653061224489795,
+      "grad_norm": 0.16463600099086761,
+      "learning_rate": 1e-06,
+      "loss": -0.0216,
+      "num_tokens": 459869728.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14688828587532043,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 756
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2517.0,
+      "completions/mean_length": 911.763427734375,
+      "completions/mean_terminated_length": 573.6839599609375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.07463556851312,
+      "grad_norm": 0.13060037791728973,
+      "learning_rate": 1e-06,
+      "loss": -0.0026,
+      "num_tokens": 460421652.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.10295554995536804,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 757
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2671.0,
+      "completions/mean_length": 982.70654296875,
+      "completions/mean_terminated_length": 591.5891723632812,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 7.0839650145772595,
+      "grad_norm": 0.14986397325992584,
+      "learning_rate": 1e-06,
+      "loss": -0.0647,
+      "num_tokens": 460980549.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16799576580524445,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 758
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2811.0,
+      "completions/mean_length": 1005.8381958007812,
+      "completions/mean_terminated_length": 568.8853759765625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 7.093294460641399,
+      "grad_norm": 0.15561595559120178,
+      "learning_rate": 1e-06,
+      "loss": -0.0749,
+      "num_tokens": 461519324.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.17356175184249878,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 759
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3806.0,
+      "completions/mean_length": 950.8225708007812,
+      "completions/mean_terminated_length": 625.4593505859375,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 7.1026239067055394,
+      "grad_norm": 0.1461905837059021,
+      "learning_rate": 1e-06,
+      "loss": -0.031,
+      "num_tokens": 462119117.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.14902400970458984,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 760
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3537.0,
+      "completions/mean_length": 994.786865234375,
+      "completions/mean_terminated_length": 574.2167358398438,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 7.111953352769679,
+      "grad_norm": 0.14319172501564026,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 462654902.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.13403314352035522,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 761
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3699.0,
+      "completions/mean_length": 1089.7578125,
+      "completions/mean_terminated_length": 660.2946166992188,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 7.121282798833819,
+      "grad_norm": 0.15229927003383636,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 463262917.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.1388823539018631,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644601345062,
+      "step": 762
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4074.0,
+      "completions/mean_length": 1020.075927734375,
+      "completions/mean_terminated_length": 629.298095703125,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 7.130612244897959,
+      "grad_norm": 0.1739799678325653,
+      "learning_rate": 1e-06,
+      "loss": -0.0425,
+      "num_tokens": 463857961.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.20489785075187683,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 763
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4037.0,
+      "completions/mean_length": 919.8660888671875,
+      "completions/mean_terminated_length": 633.9367065429688,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 7.139941690962099,
+      "grad_norm": 0.13902339339256287,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 464459257.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.14173556864261627,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 764
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3244.0,
+      "completions/mean_length": 1117.0390625,
+      "completions/mean_terminated_length": 634.0687255859375,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 7.149271137026239,
+      "grad_norm": 0.14938311278820038,
+      "learning_rate": 1e-06,
+      "loss": -0.0649,
+      "num_tokens": 465047596.0,
+      "reward": 0.640625,
+      "reward_std": 0.15270251035690308,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 765
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4034.0,
+      "completions/mean_length": 1020.6027221679688,
+      "completions/mean_terminated_length": 581.2601928710938,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 7.158600583090379,
+      "grad_norm": 0.15528525412082672,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 465586256.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.13925214111804962,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 766
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3763.0,
+      "completions/mean_length": 924.0022583007812,
+      "completions/mean_terminated_length": 646.83740234375,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 7.167930029154519,
+      "grad_norm": 0.12575432658195496,
+      "learning_rate": 1e-06,
+      "loss": -0.013,
+      "num_tokens": 466212634.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.14304685592651367,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.4884119927883148,
+      "step": 767
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2874.0,
+      "completions/mean_length": 929.0256958007812,
+      "completions/mean_terminated_length": 584.107666015625,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 7.1772594752186585,
+      "grad_norm": 0.14837078750133514,
+      "learning_rate": 1e-06,
+      "loss": -0.068,
+      "num_tokens": 466770673.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.15920916199684143,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392156600952,
+      "step": 768
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3504.0,
+      "completions/mean_length": 899.2991333007812,
+      "completions/mean_terminated_length": 624.1890869140625,
+      "completions/min_length": 195.0,
+      "completions/min_terminated_length": 195.0,
+      "epoch": 7.186588921282799,
+      "grad_norm": 0.14967486262321472,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 467373669.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.18547075986862183,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 769
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2592.0,
+      "completions/mean_length": 1030.08154296875,
+      "completions/mean_terminated_length": 596.5567016601562,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.1959183673469385,
+      "grad_norm": 0.1560906171798706,
+      "learning_rate": 1e-06,
+      "loss": -0.0659,
+      "num_tokens": 467934486.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14846131205558777,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 770
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4011.0,
+      "completions/mean_length": 1075.2388916015625,
+      "completions/mean_terminated_length": 648.099365234375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 7.205247813411079,
+      "grad_norm": 0.1507735550403595,
+      "learning_rate": 1e-06,
+      "loss": -0.0271,
+      "num_tokens": 468528676.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1463979184627533,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 771
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2812.0,
+      "completions/mean_length": 971.9375610351562,
+      "completions/mean_terminated_length": 605.7755737304688,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.214577259475218,
+      "grad_norm": 0.13557055592536926,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 469107900.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1357244998216629,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 772
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3604.0,
+      "completions/mean_length": 997.388427734375,
+      "completions/mean_terminated_length": 550.2069091796875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.223906705539359,
+      "grad_norm": 0.17375889420509338,
+      "learning_rate": 1e-06,
+      "loss": -0.0812,
+      "num_tokens": 469633592.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.1640166938304901,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 773
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4060.0,
+      "completions/mean_length": 940.03466796875,
+      "completions/mean_terminated_length": 609.2614135742188,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.233236151603498,
+      "grad_norm": 0.14711524546146393,
+      "learning_rate": 1e-06,
+      "loss": -0.0118,
+      "num_tokens": 470219519.0,
+      "reward": 0.640625,
+      "reward_std": 0.14214855432510376,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 774
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3198.0,
+      "completions/mean_length": 1053.8460693359375,
+      "completions/mean_terminated_length": 663.040283203125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 7.242565597667639,
+      "grad_norm": 0.1405188888311386,
+      "learning_rate": 1e-06,
+      "loss": -0.0667,
+      "num_tokens": 470837261.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1637124866247177,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 775
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3995.0,
+      "completions/mean_length": 1063.1473388671875,
+      "completions/mean_terminated_length": 651.847900390625,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 7.251895043731778,
+      "grad_norm": 0.15649832785129547,
+      "learning_rate": 1e-06,
+      "loss": -0.0607,
+      "num_tokens": 471437553.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14928685128688812,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 776
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3452.0,
+      "completions/mean_length": 907.5547485351562,
+      "completions/mean_terminated_length": 577.7155151367188,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 7.261224489795918,
+      "grad_norm": 0.13619768619537354,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 471988922.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15026184916496277,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 777
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 949.4810791015625,
+      "completions/mean_terminated_length": 649.4462280273438,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 7.270553935860058,
+      "grad_norm": 0.14237339794635773,
+      "learning_rate": 1e-06,
+      "loss": -0.0526,
+      "num_tokens": 472605641.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.15361180901527405,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 778
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2924.0,
+      "completions/mean_length": 1091.9129638671875,
+      "completions/mean_terminated_length": 697.4368896484375,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 7.279883381924198,
+      "grad_norm": 0.17100362479686737,
+      "learning_rate": 1e-06,
+      "loss": -0.0293,
+      "num_tokens": 473250547.0,
+      "reward": 0.5993303656578064,
+      "reward_std": 0.1982492059469223,
+      "rewards/verify_math_reward/mean": 0.5993303656578064,
+      "rewards/verify_math_reward/std": 0.49030786752700806,
+      "step": 779
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3855.0,
+      "completions/mean_length": 909.9207763671875,
+      "completions/mean_terminated_length": 601.8421020507812,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 7.289212827988338,
+      "grad_norm": 0.15483121573925018,
+      "learning_rate": 1e-06,
+      "loss": -0.0242,
+      "num_tokens": 473830476.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.17097026109695435,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 780
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3814.0,
+      "completions/mean_length": 907.6428833007812,
+      "completions/mean_terminated_length": 590.76318359375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 7.298542274052478,
+      "grad_norm": 0.14821454882621765,
+      "learning_rate": 1e-06,
+      "loss": -0.0387,
+      "num_tokens": 474394252.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.14398936927318573,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 781
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4092.0,
+      "completions/mean_length": 1057.7421875,
+      "completions/mean_terminated_length": 641.3311767578125,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 7.307871720116618,
+      "grad_norm": 0.1600455492734909,
+      "learning_rate": 1e-06,
+      "loss": -0.077,
+      "num_tokens": 474993029.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1810038536787033,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 782
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3665.0,
+      "completions/mean_length": 989.4029541015625,
+      "completions/mean_terminated_length": 625.2880249023438,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 7.317201166180758,
+      "grad_norm": 0.14733344316482544,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 475579854.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.16022127866744995,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 783
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 920.8817138671875,
+      "completions/mean_terminated_length": 566.3399658203125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.326530612244898,
+      "grad_norm": 0.15291845798492432,
+      "learning_rate": 1e-06,
+      "loss": -0.0857,
+      "num_tokens": 476126268.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.15285545587539673,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 784
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3022.0,
+      "completions/mean_length": 929.0234985351562,
+      "completions/mean_terminated_length": 601.4051513671875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 7.335860058309038,
+      "grad_norm": 0.14991307258605957,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 476696249.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15007638931274414,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 785
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3840.0,
+      "completions/mean_length": 1021.325927734375,
+      "completions/mean_terminated_length": 626.342529296875,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.345189504373177,
+      "grad_norm": 0.13734778761863708,
+      "learning_rate": 1e-06,
+      "loss": -0.0361,
+      "num_tokens": 477283549.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.14091113209724426,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 786
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 1034.755615234375,
+      "completions/mean_terminated_length": 650.1771240234375,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 7.354518950437318,
+      "grad_norm": 0.16111509501934052,
+      "learning_rate": 1e-06,
+      "loss": -0.0525,
+      "num_tokens": 477881346.0,
+      "reward": 0.65625,
+      "reward_std": 0.13042178750038147,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 787
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 934.5223388671875,
+      "completions/mean_terminated_length": 670.747314453125,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.363848396501457,
+      "grad_norm": 0.13426731526851654,
+      "learning_rate": 1e-06,
+      "loss": -0.0221,
+      "num_tokens": 478531622.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1428300142288208,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 788
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3587.0,
+      "completions/mean_length": 953.122802734375,
+      "completions/mean_terminated_length": 619.4345703125,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.373177842565598,
+      "grad_norm": 0.14411106705665588,
+      "learning_rate": 1e-06,
+      "loss": -0.0371,
+      "num_tokens": 479119204.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.1360633224248886,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 789
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3287.0,
+      "completions/mean_length": 824.443115234375,
+      "completions/mean_terminated_length": 593.83154296875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.382507288629737,
+      "grad_norm": 0.15481586754322052,
+      "learning_rate": 1e-06,
+      "loss": -0.0275,
+      "num_tokens": 479706241.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.17938736081123352,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 790
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3903.0,
+      "completions/mean_length": 925.86279296875,
+      "completions/mean_terminated_length": 602.2201538085938,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 7.391836734693878,
+      "grad_norm": 0.14867083728313446,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 480286422.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.1306488960981369,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 791
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2666.0,
+      "completions/mean_length": 863.3482666015625,
+      "completions/mean_terminated_length": 559.4237060546875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 7.401166180758017,
+      "grad_norm": 0.15872924029827118,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 480842262.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.15240898728370667,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 792
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3198.0,
+      "completions/mean_length": 964.70654296875,
+      "completions/mean_terminated_length": 571.327880859375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 7.410495626822158,
+      "grad_norm": 0.14340198040008545,
+      "learning_rate": 1e-06,
+      "loss": -0.0253,
+      "num_tokens": 481386087.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.12166907638311386,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 793
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 880.7935791015625,
+      "completions/mean_terminated_length": 641.7733764648438,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 7.419825072886297,
+      "grad_norm": 0.19853998720645905,
+      "learning_rate": 1e-06,
+      "loss": -0.0173,
+      "num_tokens": 482007174.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.15431898832321167,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 794
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3523.0,
+      "completions/mean_length": 878.8359985351562,
+      "completions/mean_terminated_length": 572.0648193359375,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 7.429154518950437,
+      "grad_norm": 0.15817876160144806,
+      "learning_rate": 1e-06,
+      "loss": -0.0458,
+      "num_tokens": 482555395.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.13662534952163696,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 795
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3699.0,
+      "completions/mean_length": 1139.6796875,
+      "completions/mean_terminated_length": 725.9453125,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 7.438483965014577,
+      "grad_norm": 0.140898197889328,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 483225604.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.16953669488430023,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 796
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3069.0,
+      "completions/mean_length": 1163.546875,
+      "completions/mean_terminated_length": 647.8661499023438,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 7.447813411078717,
+      "grad_norm": 0.16424517333507538,
+      "learning_rate": 1e-06,
+      "loss": -0.084,
+      "num_tokens": 483806214.0,
+      "reward": 0.59375,
+      "reward_std": 0.19643910229206085,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 797
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3591.0,
+      "completions/mean_length": 1056.661865234375,
+      "completions/mean_terminated_length": 644.48291015625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 7.457142857142857,
+      "grad_norm": 0.15525534749031067,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 484410879.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.16991646587848663,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 798
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4079.0,
+      "completions/mean_length": 979.09716796875,
+      "completions/mean_terminated_length": 626.7515258789062,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 7.466472303206997,
+      "grad_norm": 0.1439310908317566,
+      "learning_rate": 1e-06,
+      "loss": -0.0479,
+      "num_tokens": 485007070.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.1469549834728241,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 799
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3260.0,
+      "completions/mean_length": 932.7489013671875,
+      "completions/mean_terminated_length": 635.3492431640625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 7.475801749271137,
+      "grad_norm": 0.1319865733385086,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 485618653.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.13624626398086548,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 800
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 1058.0770263671875,
+      "completions/mean_terminated_length": 628.5108642578125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 7.485131195335277,
+      "grad_norm": 0.17439578473567963,
+      "learning_rate": 1e-06,
+      "loss": -0.0574,
+      "num_tokens": 486194834.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.18791463971138,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 801
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3046.0,
+      "completions/mean_length": 1086.14404296875,
+      "completions/mean_terminated_length": 625.175048828125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 7.494460641399417,
+      "grad_norm": 0.1541268229484558,
+      "learning_rate": 1e-06,
+      "loss": -0.069,
+      "num_tokens": 486765475.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.164872944355011,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 802
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3808.0,
+      "completions/mean_length": 1109.700927734375,
+      "completions/mean_terminated_length": 647.9020385742188,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.503790087463557,
+      "grad_norm": 0.14485584199428558,
+      "learning_rate": 1e-06,
+      "loss": -0.0446,
+      "num_tokens": 487362919.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.13996681571006775,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 803
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3594.0,
+      "completions/mean_length": 1082.977783203125,
+      "completions/mean_terminated_length": 608.056884765625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 7.513119533527696,
+      "grad_norm": 0.18010494112968445,
+      "learning_rate": 1e-06,
+      "loss": -0.0716,
+      "num_tokens": 487925395.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1855827420949936,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 804
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3636.0,
+      "completions/mean_length": 1021.4453735351562,
+      "completions/mean_terminated_length": 630.8414916992188,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 7.522448979591837,
+      "grad_norm": 0.15672233700752258,
+      "learning_rate": 1e-06,
+      "loss": -0.0813,
+      "num_tokens": 488512066.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.18678346276283264,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 805
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2837.0,
+      "completions/mean_length": 1024.31591796875,
+      "completions/mean_terminated_length": 625.3455200195312,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 7.531778425655976,
+      "grad_norm": 0.13961265981197357,
+      "learning_rate": 1e-06,
+      "loss": -0.0253,
+      "num_tokens": 489087253.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.10915841907262802,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975659370422363,
+      "step": 806
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 1130.915283203125,
+      "completions/mean_terminated_length": 609.4960327148438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.541107871720117,
+      "grad_norm": 0.16179832816123962,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 489639329.0,
+      "reward": 0.5870535969734192,
+      "reward_std": 0.12253670394420624,
+      "rewards/verify_math_reward/mean": 0.5870535969734192,
+      "rewards/verify_math_reward/std": 0.49263837933540344,
+      "step": 807
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4076.0,
+      "completions/mean_length": 994.7969360351562,
+      "completions/mean_terminated_length": 678.19189453125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 7.550437317784256,
+      "grad_norm": 0.12515318393707275,
+      "learning_rate": 1e-06,
+      "loss": -0.0474,
+      "num_tokens": 490270091.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.1443263590335846,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 808
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 1075.321533203125,
+      "completions/mean_terminated_length": 665.6729736328125,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 7.559766763848397,
+      "grad_norm": 0.15811415016651154,
+      "learning_rate": 1e-06,
+      "loss": -0.0883,
+      "num_tokens": 490883131.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1891588270664215,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 809
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2694.0,
+      "completions/mean_length": 979.1004638671875,
+      "completions/mean_terminated_length": 600.703369140625,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 7.569096209912536,
+      "grad_norm": 0.16665959358215332,
+      "learning_rate": 1e-06,
+      "loss": -0.0393,
+      "num_tokens": 491465133.0,
+      "reward": 0.6328125,
+      "reward_std": 0.17394039034843445,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 810
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2918.0,
+      "completions/mean_length": 1056.6015625,
+      "completions/mean_terminated_length": 653.1416015625,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 7.578425655976677,
+      "grad_norm": 0.14888350665569305,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 492067320.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.1754724681377411,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 811
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 1046.505615234375,
+      "completions/mean_terminated_length": 637.3328857421875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.587755102040816,
+      "grad_norm": 0.15476591885089874,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 492663789.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.16751113533973694,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 812
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3923.0,
+      "completions/mean_length": 1062.5692138671875,
+      "completions/mean_terminated_length": 624.7943725585938,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 7.597084548104956,
+      "grad_norm": 0.1265028417110443,
+      "learning_rate": 1e-06,
+      "loss": -0.0847,
+      "num_tokens": 493240459.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.13162527978420258,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692258834839,
+      "step": 813
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2685.0,
+      "completions/mean_length": 807.7500610351562,
+      "completions/mean_terminated_length": 541.9927978515625,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 7.606413994169096,
+      "grad_norm": 0.17390672862529755,
+      "learning_rate": 1e-06,
+      "loss": -0.0395,
+      "num_tokens": 493778947.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.15353690087795258,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425028860569,
+      "step": 814
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1428571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2613.0,
+      "completions/mean_length": 1092.364990234375,
+      "completions/mean_terminated_length": 591.7591552734375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 7.615743440233236,
+      "grad_norm": 0.14996708929538727,
+      "learning_rate": 1e-06,
+      "loss": -0.0481,
+      "num_tokens": 494318954.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.11276020854711533,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 815
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3920.0,
+      "completions/mean_length": 1029.2467041015625,
+      "completions/mean_terminated_length": 648.307373046875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 7.625072886297376,
+      "grad_norm": 0.16492515802383423,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 494921807.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.19456438720226288,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 816
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2582.0,
+      "completions/mean_length": 1058.930908203125,
+      "completions/mean_terminated_length": 598.295654296875,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 7.634402332361516,
+      "grad_norm": 0.13783925771713257,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 495472913.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.1241518035531044,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 817
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3297.0,
+      "completions/mean_length": 1077.78125,
+      "completions/mean_terminated_length": 624.46728515625,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 7.643731778425656,
+      "grad_norm": 0.14262299239635468,
+      "learning_rate": 1e-06,
+      "loss": -0.0805,
+      "num_tokens": 496050789.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.1150946095585823,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 818
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3792.0,
+      "completions/mean_length": 1025.185302734375,
+      "completions/mean_terminated_length": 665.2643432617188,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 7.653061224489796,
+      "grad_norm": 0.179700568318367,
+      "learning_rate": 1e-06,
+      "loss": -0.0663,
+      "num_tokens": 496681899.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.19621339440345764,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 819
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3769.0,
+      "completions/mean_length": 867.5513916015625,
+      "completions/mean_terminated_length": 585.4539184570312,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 7.662390670553936,
+      "grad_norm": 0.13440033793449402,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 497246881.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.1191510558128357,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 820
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 1038.3114013671875,
+      "completions/mean_terminated_length": 692.6596069335938,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 7.671720116618076,
+      "grad_norm": 0.16319260001182556,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 497883560.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.18257686495780945,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 821
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4082.0,
+      "completions/mean_length": 1162.907470703125,
+      "completions/mean_terminated_length": 647.1141967773438,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 7.681049562682215,
+      "grad_norm": 0.1864021271467209,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 498472957.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.16871324181556702,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.4934072494506836,
+      "step": 822
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2861.0,
+      "completions/mean_length": 1001.0201416015625,
+      "completions/mean_terminated_length": 581.2952880859375,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 7.690379008746356,
+      "grad_norm": 0.17237922549247742,
+      "learning_rate": 1e-06,
+      "loss": -0.0565,
+      "num_tokens": 499017711.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.15991777181625366,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140389680862427,
+      "step": 823
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4072.0,
+      "completions/mean_length": 1097.649658203125,
+      "completions/mean_terminated_length": 602.4733276367188,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 7.699708454810495,
+      "grad_norm": 0.16699232161045074,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 499567957.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.13565146923065186,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 824
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3463.0,
+      "completions/mean_length": 1012.4185791015625,
+      "completions/mean_terminated_length": 633.7330932617188,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 7.709037900874636,
+      "grad_norm": 0.1604796200990677,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 500168724.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17299792170524597,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 825
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2477.0,
+      "completions/mean_length": 1059.7757568359375,
+      "completions/mean_terminated_length": 603.7573852539062,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 7.718367346938775,
+      "grad_norm": 0.16491541266441345,
+      "learning_rate": 1e-06,
+      "loss": -0.0648,
+      "num_tokens": 500733163.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14812389016151428,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 826
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3093.0,
+      "completions/mean_length": 1029.9140625,
+      "completions/mean_terminated_length": 618.5151977539062,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 7.727696793002916,
+      "grad_norm": 0.15837045013904572,
+      "learning_rate": 1e-06,
+      "loss": -0.0479,
+      "num_tokens": 501317390.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.16461192071437836,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 827
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3114.0,
+      "completions/mean_length": 1072.04248046875,
+      "completions/mean_terminated_length": 670.6321411132812,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 7.737026239067055,
+      "grad_norm": 0.14271746575832367,
+      "learning_rate": 1e-06,
+      "loss": -0.0562,
+      "num_tokens": 501940604.0,
+      "reward": 0.6082589626312256,
+      "reward_std": 0.13996751606464386,
+      "rewards/verify_math_reward/mean": 0.6082589030265808,
+      "rewards/verify_math_reward/std": 0.48841196298599243,
+      "step": 828
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3696.0,
+      "completions/mean_length": 987.7188110351562,
+      "completions/mean_terminated_length": 601.62109375,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 7.746355685131196,
+      "grad_norm": 0.16480091214179993,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 502510240.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.14147454500198364,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 829
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3593.0,
+      "completions/mean_length": 1021.4676513671875,
+      "completions/mean_terminated_length": 656.8226928710938,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 7.755685131195335,
+      "grad_norm": 0.1681492030620575,
+      "learning_rate": 1e-06,
+      "loss": -0.0335,
+      "num_tokens": 503129171.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.15567445755004883,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 830
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2689.0,
+      "completions/mean_length": 1121.786865234375,
+      "completions/mean_terminated_length": 652.9832153320312,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 7.765014577259475,
+      "grad_norm": 0.1567305028438568,
+      "learning_rate": 1e-06,
+      "loss": -0.0799,
+      "num_tokens": 503721316.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.16691270470619202,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 831
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1484375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3431.0,
+      "completions/mean_length": 1183.7489013671875,
+      "completions/mean_terminated_length": 676.1088256835938,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 7.774344023323615,
+      "grad_norm": 0.14212025701999664,
+      "learning_rate": 1e-06,
+      "loss": -0.0476,
+      "num_tokens": 504318731.0,
+      "reward": 0.5926339626312256,
+      "reward_std": 0.1441006362438202,
+      "rewards/verify_math_reward/mean": 0.5926339030265808,
+      "rewards/verify_math_reward/std": 0.49161845445632935,
+      "step": 832
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3618.0,
+      "completions/mean_length": 897.48779296875,
+      "completions/mean_terminated_length": 643.148193359375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 7.783673469387755,
+      "grad_norm": 0.15433727204799652,
+      "learning_rate": 1e-06,
+      "loss": -0.0141,
+      "num_tokens": 504940736.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.14556559920310974,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.47942501306533813,
+      "step": 833
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 978.8795166015625,
+      "completions/mean_terminated_length": 596.0751953125,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 7.793002915451895,
+      "grad_norm": 0.15658137202262878,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 505513500.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.14864607155323029,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 834
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3422.0,
+      "completions/mean_length": 1131.747802734375,
+      "completions/mean_terminated_length": 677.76318359375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.802332361516035,
+      "grad_norm": 0.15244808793067932,
+      "learning_rate": 1e-06,
+      "loss": -0.0189,
+      "num_tokens": 506132762.0,
+      "reward": 0.6261160969734192,
+      "reward_std": 0.14838463068008423,
+      "rewards/verify_math_reward/mean": 0.6261160969734192,
+      "rewards/verify_math_reward/std": 0.48410359025001526,
+      "step": 835
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3523.0,
+      "completions/mean_length": 1018.4609985351562,
+      "completions/mean_terminated_length": 609.9380493164062,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 7.811661807580175,
+      "grad_norm": 0.14682023227214813,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 506715895.0,
+      "reward": 0.6328125,
+      "reward_std": 0.14342664182186127,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 836
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3556.0,
+      "completions/mean_length": 1073.087158203125,
+      "completions/mean_terminated_length": 632.4066162109375,
+      "completions/min_length": 189.0,
+      "completions/min_terminated_length": 189.0,
+      "epoch": 7.820991253644315,
+      "grad_norm": 0.13297942280769348,
+      "learning_rate": 1e-06,
+      "loss": -0.0778,
+      "num_tokens": 507296341.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.13778719305992126,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 837
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3708.0,
+      "completions/mean_length": 1040.8382568359375,
+      "completions/mean_terminated_length": 599.9271850585938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 7.830320699708455,
+      "grad_norm": 0.12285968661308289,
+      "learning_rate": 1e-06,
+      "loss": -0.0184,
+      "num_tokens": 507853228.0,
+      "reward": 0.65625,
+      "reward_std": 0.09630580246448517,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 838
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2163.0,
+      "completions/mean_length": 946.7902221679688,
+      "completions/mean_terminated_length": 599.4795532226562,
+      "completions/min_length": 99.0,
+      "completions/min_terminated_length": 99.0,
+      "epoch": 7.839650145772595,
+      "grad_norm": 0.16421256959438324,
+      "learning_rate": 1e-06,
+      "loss": -0.0755,
+      "num_tokens": 508432288.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.18483206629753113,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 839
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3049.0,
+      "completions/mean_length": 991.1473388671875,
+      "completions/mean_terminated_length": 631.556640625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.848979591836734,
+      "grad_norm": 0.14624477922916412,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 509024308.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.14707262814044952,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 840
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3407.0,
+      "completions/mean_length": 863.888427734375,
+      "completions/mean_terminated_length": 581.4708862304688,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 7.858309037900875,
+      "grad_norm": 0.16527561843395233,
+      "learning_rate": 1e-06,
+      "loss": -0.0455,
+      "num_tokens": 509600840.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1464664340019226,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 841
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3342.0,
+      "completions/mean_length": 995.10498046875,
+      "completions/mean_terminated_length": 665.8740844726562,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 7.867638483965014,
+      "grad_norm": 0.14894086122512817,
+      "learning_rate": 1e-06,
+      "loss": -0.059,
+      "num_tokens": 510224766.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.1710016429424286,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 842
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3342.0,
+      "completions/mean_length": 888.997802734375,
+      "completions/mean_terminated_length": 583.1956176757812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 7.876967930029155,
+      "grad_norm": 0.14595289528369904,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 510790988.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.13973930478096008,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 843
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 916.6808471679688,
+      "completions/mean_terminated_length": 544.0424194335938,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.886297376093294,
+      "grad_norm": 0.13176091015338898,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 511310462.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.10885602235794067,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 844
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2973.0,
+      "completions/mean_length": 898.08154296875,
+      "completions/mean_terminated_length": 614.426513671875,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 7.895626822157435,
+      "grad_norm": 0.1341967135667801,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 511913487.0,
+      "reward": 0.65625,
+      "reward_std": 0.146052747964859,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 845
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3089.0,
+      "completions/mean_length": 950.8125610351562,
+      "completions/mean_terminated_length": 621.1688842773438,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 7.904956268221574,
+      "grad_norm": 0.15034164488315582,
+      "learning_rate": 1e-06,
+      "loss": -0.0341,
+      "num_tokens": 512513919.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.146052747964859,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 846
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2751.0,
+      "completions/mean_length": 963.4754638671875,
+      "completions/mean_terminated_length": 656.365234375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 7.914285714285715,
+      "grad_norm": 0.15172356367111206,
+      "learning_rate": 1e-06,
+      "loss": -0.0232,
+      "num_tokens": 513150345.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1837814897298813,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 847
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2917.0,
+      "completions/mean_length": 1067.719970703125,
+      "completions/mean_terminated_length": 608.417724609375,
+      "completions/min_length": 192.0,
+      "completions/min_terminated_length": 192.0,
+      "epoch": 7.923615160349854,
+      "grad_norm": 0.1684914082288742,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 513715222.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.14920878410339355,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 848
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4043.0,
+      "completions/mean_length": 1003.7210083007812,
+      "completions/mean_terminated_length": 645.5865478515625,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 7.932944606413994,
+      "grad_norm": 0.13501520454883575,
+      "learning_rate": 1e-06,
+      "loss": -0.0405,
+      "num_tokens": 514324860.0,
+      "reward": 0.65625,
+      "reward_std": 0.137190580368042,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 849
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3537.0,
+      "completions/mean_length": 1103.036865234375,
+      "completions/mean_terminated_length": 635.7484130859375,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 7.942274052478134,
+      "grad_norm": 0.16624946892261505,
+      "learning_rate": 1e-06,
+      "loss": -0.1007,
+      "num_tokens": 514912341.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.16465610265731812,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580071330070496,
+      "step": 850
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3974.0,
+      "completions/mean_length": 963.2991333007812,
+      "completions/mean_terminated_length": 656.1715698242188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 7.9516034985422746,
+      "grad_norm": 0.15555180609226227,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 515533929.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.172096386551857,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159480571747,
+      "step": 851
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4006.0,
+      "completions/mean_length": 1144.5748291015625,
+      "completions/mean_terminated_length": 657.1482543945312,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 7.960932944606414,
+      "grad_norm": 0.18935686349868774,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 516128092.0,
+      "reward": 0.598214328289032,
+      "reward_std": 0.1679982841014862,
+      "rewards/verify_math_reward/mean": 0.5982142686843872,
+      "rewards/verify_math_reward/std": 0.49053287506103516,
+      "step": 852
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2854.0,
+      "completions/mean_length": 926.00341796875,
+      "completions/mean_terminated_length": 649.0133666992188,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 7.970262390670554,
+      "grad_norm": 0.15786395967006683,
+      "learning_rate": 1e-06,
+      "loss": -0.0538,
+      "num_tokens": 516743751.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.1711532026529312,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 853
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3564.0,
+      "completions/mean_length": 977.70654296875,
+      "completions/mean_terminated_length": 603.51123046875,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 7.979591836734694,
+      "grad_norm": 0.1329893171787262,
+      "learning_rate": 1e-06,
+      "loss": -0.0199,
+      "num_tokens": 517312008.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.12542173266410828,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 854
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3417.0,
+      "completions/mean_length": 1025.9185791015625,
+      "completions/mean_terminated_length": 670.3549194335938,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 7.988921282798834,
+      "grad_norm": 0.15467685461044312,
+      "learning_rate": 1e-06,
+      "loss": -0.0606,
+      "num_tokens": 517951415.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.16111889481544495,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 855
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.10511363636363635,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3768.0,
+      "completions/mean_length": 1108.477294921875,
+      "completions/mean_terminated_length": 757.5618896484375,
+      "completions/min_length": 231.0,
+      "completions/min_terminated_length": 231.0,
+      "epoch": 7.998250728862974,
+      "grad_norm": 0.1504327952861786,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 518547114.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.13324150443077087,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 856
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3454.0,
+      "completions/mean_length": 1041.661865234375,
+      "completions/mean_terminated_length": 675.1412353515625,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 8.00932944606414,
+      "grad_norm": 0.1281849443912506,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 519181643.0,
+      "reward": 0.6283482313156128,
+      "reward_std": 0.14560836553573608,
+      "rewards/verify_math_reward/mean": 0.6283482313156128,
+      "rewards/verify_math_reward/std": 0.4835159182548523,
+      "step": 857
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2888.0,
+      "completions/mean_length": 1023.0803833007812,
+      "completions/mean_terminated_length": 637.03515625,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 8.018658892128279,
+      "grad_norm": 0.14101547002792358,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 519784579.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.15180166065692902,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 858
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3584.0,
+      "completions/mean_length": 1123.53125,
+      "completions/mean_terminated_length": 646.0880737304688,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 8.02798833819242,
+      "grad_norm": 0.13459783792495728,
+      "learning_rate": 1e-06,
+      "loss": -0.0282,
+      "num_tokens": 520367951.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1164814680814743,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.4866124987602234,
+      "step": 859
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3709.0,
+      "completions/mean_length": 1063.2366943359375,
+      "completions/mean_terminated_length": 703.5455322265625,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 8.03731778425656,
+      "grad_norm": 0.14415781199932098,
+      "learning_rate": 1e-06,
+      "loss": -0.0559,
+      "num_tokens": 521012059.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.16484296321868896,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 860
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3998.0,
+      "completions/mean_length": 985.091552734375,
+      "completions/mean_terminated_length": 624.7994995117188,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.0466472303207,
+      "grad_norm": 0.1543746292591095,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 521598821.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1519104540348053,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 861
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3893.0,
+      "completions/mean_length": 1037.724365234375,
+      "completions/mean_terminated_length": 644.8475952148438,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.055976676384839,
+      "grad_norm": 0.1572313755750656,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 522192262.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.16191446781158447,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 862
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4015.0,
+      "completions/mean_length": 1053.443115234375,
+      "completions/mean_terminated_length": 645.2012939453125,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 8.06530612244898,
+      "grad_norm": 0.14160212874412537,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 522806307.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.14158472418785095,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 863
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3677.0,
+      "completions/mean_length": 994.9129638671875,
+      "completions/mean_terminated_length": 665.6617431640625,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 8.07463556851312,
+      "grad_norm": 0.13232599198818207,
+      "learning_rate": 1e-06,
+      "loss": -0.0439,
+      "num_tokens": 523431381.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.11791391670703888,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 864
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3664.0,
+      "completions/mean_length": 1088.2054443359375,
+      "completions/mean_terminated_length": 614.1085205078125,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 8.08396501457726,
+      "grad_norm": 0.1556416004896164,
+      "learning_rate": 1e-06,
+      "loss": -0.0253,
+      "num_tokens": 524004125.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.161197692155838,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 865
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3066.0,
+      "completions/mean_length": 934.4888916015625,
+      "completions/mean_terminated_length": 607.4359741210938,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "epoch": 8.093294460641399,
+      "grad_norm": 0.16776452958583832,
+      "learning_rate": 1e-06,
+      "loss": -0.0452,
+      "num_tokens": 524583003.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.16698937118053436,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 866
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3467.0,
+      "completions/mean_length": 1013.8683471679688,
+      "completions/mean_terminated_length": 678.1906127929688,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 8.102623906705539,
+      "grad_norm": 0.14194448292255402,
+      "learning_rate": 1e-06,
+      "loss": -0.0366,
+      "num_tokens": 525211685.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.15352734923362732,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 867
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 973.5457763671875,
+      "completions/mean_terminated_length": 658.998779296875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 8.11195335276968,
+      "grad_norm": 0.16999202966690063,
+      "learning_rate": 1e-06,
+      "loss": -0.0346,
+      "num_tokens": 525845910.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.1806240826845169,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 868
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3410.0,
+      "completions/mean_length": 1045.3951416015625,
+      "completions/mean_terminated_length": 653.5037231445312,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 8.12128279883382,
+      "grad_norm": 0.14440327882766724,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 526446952.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15300700068473816,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 869
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 1011.40966796875,
+      "completions/mean_terminated_length": 662.7167358398438,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.130612244897959,
+      "grad_norm": 0.14697590470314026,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 527065823.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.15597867965698242,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 870
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3392.0,
+      "completions/mean_length": 1015.286865234375,
+      "completions/mean_terminated_length": 645.6012573242188,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 8.139941690962099,
+      "grad_norm": 0.1197003424167633,
+      "learning_rate": 1e-06,
+      "loss": -0.0443,
+      "num_tokens": 527677616.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.11539769917726517,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 871
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4064.0,
+      "completions/mean_length": 967.677490234375,
+      "completions/mean_terminated_length": 639.8014526367188,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 8.14927113702624,
+      "grad_norm": 0.17388927936553955,
+      "learning_rate": 1e-06,
+      "loss": -0.0202,
+      "num_tokens": 528292895.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.15108489990234375,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 872
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3690.0,
+      "completions/mean_length": 973.161865234375,
+      "completions/mean_terminated_length": 628.7596435546875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 8.15860058309038,
+      "grad_norm": 0.15422604978084564,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 528893016.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.17156758904457092,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 873
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3953.0,
+      "completions/mean_length": 1122.3404541015625,
+      "completions/mean_terminated_length": 675.7188720703125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 8.167930029154519,
+      "grad_norm": 0.16426236927509308,
+      "learning_rate": 1e-06,
+      "loss": -0.0536,
+      "num_tokens": 529511961.0,
+      "reward": 0.6484375,
+      "reward_std": 0.16157424449920654,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 874
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3935.0,
+      "completions/mean_length": 970.1272583007812,
+      "completions/mean_terminated_length": 621.0843505859375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 8.177259475218658,
+      "grad_norm": 0.14696228504180908,
+      "learning_rate": 1e-06,
+      "loss": -0.0616,
+      "num_tokens": 530093051.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.14872092008590698,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 875
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2971.0,
+      "completions/mean_length": 950.3370971679688,
+      "completions/mean_terminated_length": 559.5960083007812,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 8.186588921282798,
+      "grad_norm": 0.1521543264389038,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 530631577.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1464325189590454,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 876
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2943.0,
+      "completions/mean_length": 957.1763916015625,
+      "completions/mean_terminated_length": 619.626708984375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 8.19591836734694,
+      "grad_norm": 0.16165433824062347,
+      "learning_rate": 1e-06,
+      "loss": -0.0465,
+      "num_tokens": 531232575.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.17010192573070526,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 877
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 1080.52685546875,
+      "completions/mean_terminated_length": 640.9309692382812,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 8.205247813411079,
+      "grad_norm": 0.1745336651802063,
+      "learning_rate": 1e-06,
+      "loss": -0.0727,
+      "num_tokens": 531827103.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.15352876484394073,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 878
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2929.0,
+      "completions/mean_length": 935.3438110351562,
+      "completions/mean_terminated_length": 646.6114501953125,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.214577259475218,
+      "grad_norm": 0.14890854060649872,
+      "learning_rate": 1e-06,
+      "loss": -0.0098,
+      "num_tokens": 532450347.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.13894835114479065,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 879
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4032.0,
+      "completions/mean_length": 1087.28125,
+      "completions/mean_terminated_length": 692.1969604492188,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.223906705539358,
+      "grad_norm": 0.15094119310379028,
+      "learning_rate": 1e-06,
+      "loss": -0.0465,
+      "num_tokens": 533087719.0,
+      "reward": 0.59375,
+      "reward_std": 0.16506868600845337,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 880
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2684.0,
+      "completions/mean_length": 925.794677734375,
+      "completions/mean_terminated_length": 631.970703125,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 8.2332361516035,
+      "grad_norm": 0.15419861674308777,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 533701359.0,
+      "reward": 0.65625,
+      "reward_std": 0.17521215975284576,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 881
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3938.0,
+      "completions/mean_length": 1071.513427734375,
+      "completions/mean_terminated_length": 643.84716796875,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 8.242565597667639,
+      "grad_norm": 0.1561041623353958,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 534310291.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.17322544753551483,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 882
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 961.6741333007812,
+      "completions/mean_terminated_length": 616.0049438476562,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 8.251895043731778,
+      "grad_norm": 0.18054859340190887,
+      "learning_rate": 1e-06,
+      "loss": -0.0291,
+      "num_tokens": 534897119.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1587563306093216,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 883
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3047.0,
+      "completions/mean_length": 1010.0770263671875,
+      "completions/mean_terminated_length": 644.0811157226562,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.261224489795918,
+      "grad_norm": 0.12483751028776169,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 535495828.0,
+      "reward": 0.640625,
+      "reward_std": 0.13440406322479248,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 884
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4024.0,
+      "completions/mean_length": 1054.0748291015625,
+      "completions/mean_terminated_length": 632.7661743164062,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.270553935860057,
+      "grad_norm": 0.1630391925573349,
+      "learning_rate": 1e-06,
+      "loss": -0.061,
+      "num_tokens": 536091255.0,
+      "reward": 0.640625,
+      "reward_std": 0.1556745022535324,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 885
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2993.0,
+      "completions/mean_length": 1008.9230346679688,
+      "completions/mean_terminated_length": 651.3909912109375,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 8.279883381924199,
+      "grad_norm": 0.14400123059749603,
+      "learning_rate": 1e-06,
+      "loss": -0.0066,
+      "num_tokens": 536705106.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.1310279667377472,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.47942501306533813,
+      "step": 886
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3232.0,
+      "completions/mean_length": 914.4777221679688,
+      "completions/mean_terminated_length": 619.6048583984375,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 8.289212827988338,
+      "grad_norm": 0.1641090363264084,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 537297718.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.19467133283615112,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 887
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3310.0,
+      "completions/mean_length": 914.794677734375,
+      "completions/mean_terminated_length": 619.9512329101562,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 8.298542274052478,
+      "grad_norm": 0.15631234645843506,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 537896078.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.14620289206504822,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 888
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2598.0,
+      "completions/mean_length": 954.6574096679688,
+      "completions/mean_terminated_length": 629.6908569335938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.307871720116617,
+      "grad_norm": 0.1582319438457489,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 538493875.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.14324188232421875,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 889
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3435.0,
+      "completions/mean_length": 990.7801513671875,
+      "completions/mean_terminated_length": 635.4564819335938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 8.317201166180759,
+      "grad_norm": 0.1555420458316803,
+      "learning_rate": 1e-06,
+      "loss": -0.0506,
+      "num_tokens": 539098374.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.12700362503528595,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 890
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4071.0,
+      "completions/mean_length": 1056.364990234375,
+      "completions/mean_terminated_length": 630.9707641601562,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 8.326530612244898,
+      "grad_norm": 0.25550377368927,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 539690261.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.16071052849292755,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 891
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2905.0,
+      "completions/mean_length": 909.872802734375,
+      "completions/mean_terminated_length": 593.2147216796875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 8.335860058309038,
+      "grad_norm": 0.14263087511062622,
+      "learning_rate": 1e-06,
+      "loss": -0.0237,
+      "num_tokens": 540261715.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.14571575820446014,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 892
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3723.0,
+      "completions/mean_length": 894.8058471679688,
+      "completions/mean_terminated_length": 644.4115600585938,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 8.345189504373177,
+      "grad_norm": 0.17056600749492645,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 540878357.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1889663189649582,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 893
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3472.0,
+      "completions/mean_length": 970.8984985351562,
+      "completions/mean_terminated_length": 613.2997436523438,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 8.354518950437317,
+      "grad_norm": 0.18080608546733856,
+      "learning_rate": 1e-06,
+      "loss": -0.0331,
+      "num_tokens": 541464946.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.14489202201366425,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 894
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3953.0,
+      "completions/mean_length": 1053.421875,
+      "completions/mean_terminated_length": 688.3125,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.363848396501458,
+      "grad_norm": 0.143610879778862,
+      "learning_rate": 1e-06,
+      "loss": -0.0365,
+      "num_tokens": 542099068.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.16694408655166626,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 895
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3614.0,
+      "completions/mean_length": 1019.86279296875,
+      "completions/mean_terminated_length": 650.7262573242188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.373177842565598,
+      "grad_norm": 0.15640057623386383,
+      "learning_rate": 1e-06,
+      "loss": -0.0583,
+      "num_tokens": 542703033.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.1497408002614975,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 896
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3837.0,
+      "completions/mean_length": 907.3638916015625,
+      "completions/mean_terminated_length": 581.8327026367188,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.382507288629737,
+      "grad_norm": 0.15166081488132477,
+      "learning_rate": 1e-06,
+      "loss": -0.0803,
+      "num_tokens": 543276783.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.16543565690517426,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 897
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 931.1563110351562,
+      "completions/mean_terminated_length": 625.1309814453125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 8.391836734693877,
+      "grad_norm": 0.1535331904888153,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 543864531.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.13065001368522644,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 898
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3598.0,
+      "completions/mean_length": 883.3192138671875,
+      "completions/mean_terminated_length": 581.2722778320312,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 8.401166180758018,
+      "grad_norm": 0.1459299474954605,
+      "learning_rate": 1e-06,
+      "loss": -0.0106,
+      "num_tokens": 544432697.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.13290520012378693,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 899
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3848.0,
+      "completions/mean_length": 891.98779296875,
+      "completions/mean_terminated_length": 586.470703125,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.410495626822158,
+      "grad_norm": 0.19860893487930298,
+      "learning_rate": 1e-06,
+      "loss": -0.0242,
+      "num_tokens": 544992830.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.1822744905948639,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 900
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4006.0,
+      "completions/mean_length": 984.35498046875,
+      "completions/mean_terminated_length": 645.462890625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.419825072886297,
+      "grad_norm": 0.16229510307312012,
+      "learning_rate": 1e-06,
+      "loss": -0.0643,
+      "num_tokens": 545597484.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1874253898859024,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 901
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2895.0,
+      "completions/mean_length": 828.7377319335938,
+      "completions/mean_terminated_length": 585.8477172851562,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 8.429154518950437,
+      "grad_norm": 0.13886448740959167,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 546167209.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.12926062941551208,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 902
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3234.0,
+      "completions/mean_length": 949.51123046875,
+      "completions/mean_terminated_length": 619.731201171875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 8.438483965014576,
+      "grad_norm": 0.159769669175148,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 546757243.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.1511283665895462,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 903
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3728.0,
+      "completions/mean_length": 947.2288208007812,
+      "completions/mean_terminated_length": 659.582275390625,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 8.447813411078718,
+      "grad_norm": 0.14023955166339874,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 547395560.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.13290591537952423,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 904
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2821.0,
+      "completions/mean_length": 898.2053833007812,
+      "completions/mean_terminated_length": 623.001220703125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 8.457142857142857,
+      "grad_norm": 0.16417650878429413,
+      "learning_rate": 1e-06,
+      "loss": -0.0492,
+      "num_tokens": 548005400.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.1587124466896057,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 905
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3877.0,
+      "completions/mean_length": 969.3214721679688,
+      "completions/mean_terminated_length": 611.5422973632812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 8.466472303206997,
+      "grad_norm": 0.1593242734670639,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 548583000.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.13207922875881195,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 906
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3351.0,
+      "completions/mean_length": 1042.243408203125,
+      "completions/mean_terminated_length": 654.28173828125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 8.475801749271136,
+      "grad_norm": 0.1524815559387207,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 549188602.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.12610389292240143,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 907
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3177.0,
+      "completions/mean_length": 1148.8929443359375,
+      "completions/mean_terminated_length": 662.179443359375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.485131195335278,
+      "grad_norm": 0.18232788145542145,
+      "learning_rate": 1e-06,
+      "loss": -0.069,
+      "num_tokens": 549781050.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.1669459044933319,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 908
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4086.0,
+      "completions/mean_length": 918.5614013671875,
+      "completions/mean_terminated_length": 632.5145874023438,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.494460641399417,
+      "grad_norm": 0.14517763257026672,
+      "learning_rate": 1e-06,
+      "loss": -0.0206,
+      "num_tokens": 550387033.0,
+      "reward": 0.65625,
+      "reward_std": 0.14086836576461792,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 909
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3756.0,
+      "completions/mean_length": 980.107177734375,
+      "completions/mean_terminated_length": 657.7733764648438,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 8.503790087463557,
+      "grad_norm": 0.16488566994667053,
+      "learning_rate": 1e-06,
+      "loss": -0.0434,
+      "num_tokens": 551021209.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.15206310153007507,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 910
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2943.0,
+      "completions/mean_length": 796.7344360351562,
+      "completions/mean_terminated_length": 555.710205078125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 8.513119533527696,
+      "grad_norm": 0.15691713988780975,
+      "learning_rate": 1e-06,
+      "loss": -0.0366,
+      "num_tokens": 551574083.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.13760285079479218,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 911
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3972.0,
+      "completions/mean_length": 1059.30029296875,
+      "completions/mean_terminated_length": 682.0941162109375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 8.522448979591836,
+      "grad_norm": 0.15728360414505005,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 552211912.0,
+      "reward": 0.566964328289032,
+      "reward_std": 0.14309103786945343,
+      "rewards/verify_math_reward/mean": 0.5669642686843872,
+      "rewards/verify_math_reward/std": 0.49577224254608154,
+      "step": 912
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 1040.5904541015625,
+      "completions/mean_terminated_length": 669.6583251953125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 8.531778425655977,
+      "grad_norm": 0.1604510396718979,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 552832257.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1799853891134262,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 913
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2722.0,
+      "completions/mean_length": 938.3069458007812,
+      "completions/mean_terminated_length": 568.2032470703125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 8.541107871720117,
+      "grad_norm": 0.16543976962566376,
+      "learning_rate": 1e-06,
+      "loss": -0.0653,
+      "num_tokens": 553382220.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.1338823139667511,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 914
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3344.0,
+      "completions/mean_length": 874.4688110351562,
+      "completions/mean_terminated_length": 605.6832275390625,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 8.550437317784256,
+      "grad_norm": 0.1473904699087143,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 553971696.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.13981598615646362,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 915
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 1065.8695068359375,
+      "completions/mean_terminated_length": 744.15185546875,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 8.559766763848396,
+      "grad_norm": 0.14510010182857513,
+      "learning_rate": 1e-06,
+      "loss": -0.0387,
+      "num_tokens": 554673475.0,
+      "reward": 0.574776828289032,
+      "reward_std": 0.1414317786693573,
+      "rewards/verify_math_reward/mean": 0.5747767686843872,
+      "rewards/verify_math_reward/std": 0.49465295672416687,
+      "step": 916
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3618.0,
+      "completions/mean_length": 1033.57373046875,
+      "completions/mean_terminated_length": 635.8057861328125,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.569096209912537,
+      "grad_norm": 0.1547669768333435,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 555266077.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.14958995580673218,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 917
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2662.0,
+      "completions/mean_length": 932.8449096679688,
+      "completions/mean_terminated_length": 626.9828491210938,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 8.578425655976677,
+      "grad_norm": 0.16214434802532196,
+      "learning_rate": 1e-06,
+      "loss": -0.0265,
+      "num_tokens": 555872298.0,
+      "reward": 0.640625,
+      "reward_std": 0.14816778898239136,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 918
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2974.0,
+      "completions/mean_length": 839.763427734375,
+      "completions/mean_terminated_length": 576.593505859375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.587755102040816,
+      "grad_norm": 0.1655416637659073,
+      "learning_rate": 1e-06,
+      "loss": -0.0484,
+      "num_tokens": 556445814.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.16172832250595093,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 919
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3134.0,
+      "completions/mean_length": 961.5859985351562,
+      "completions/mean_terminated_length": 675.2509155273438,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.597084548104956,
+      "grad_norm": 0.14155803620815277,
+      "learning_rate": 1e-06,
+      "loss": -0.0173,
+      "num_tokens": 557082923.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.14917626976966858,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 920
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2920.0,
+      "completions/mean_length": 959.739990234375,
+      "completions/mean_terminated_length": 600.8644409179688,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 8.606413994169095,
+      "grad_norm": 0.1766148805618286,
+      "learning_rate": 1e-06,
+      "loss": -0.0337,
+      "num_tokens": 557648698.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.1504889726638794,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 921
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3246.0,
+      "completions/mean_length": 896.1295166015625,
+      "completions/mean_terminated_length": 666.4736328125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 8.615743440233237,
+      "grad_norm": 0.15933699905872345,
+      "learning_rate": 1e-06,
+      "loss": -0.024,
+      "num_tokens": 558289982.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.16368041932582855,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 922
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2674.0,
+      "completions/mean_length": 1005.1551513671875,
+      "completions/mean_terminated_length": 634.2537231445312,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 8.625072886297376,
+      "grad_norm": 0.1732131987810135,
+      "learning_rate": 1e-06,
+      "loss": -0.0742,
+      "num_tokens": 558893569.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1779584288597107,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 923
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4087.0,
+      "completions/mean_length": 945.92529296875,
+      "completions/mean_terminated_length": 602.8477783203125,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 8.634402332361516,
+      "grad_norm": 0.17209410667419434,
+      "learning_rate": 1e-06,
+      "loss": -0.0707,
+      "num_tokens": 559472990.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.15511246025562286,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 924
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3556.0,
+      "completions/mean_length": 993.716552734375,
+      "completions/mean_terminated_length": 638.7288208007812,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 8.643731778425655,
+      "grad_norm": 0.16843537986278534,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 560078504.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.16239909827709198,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 925
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3466.0,
+      "completions/mean_length": 936.8348388671875,
+      "completions/mean_terminated_length": 618.5896606445312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 8.653061224489797,
+      "grad_norm": 0.160786971449852,
+      "learning_rate": 1e-06,
+      "loss": -0.0538,
+      "num_tokens": 560669916.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.16897355020046234,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 926
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3447.0,
+      "completions/mean_length": 847.3047485351562,
+      "completions/mean_terminated_length": 580.5036010742188,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 8.662390670553936,
+      "grad_norm": 0.12944777309894562,
+      "learning_rate": 1e-06,
+      "loss": -0.0156,
+      "num_tokens": 561241789.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.09615495055913925,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 927
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3919.0,
+      "completions/mean_length": 1026.333740234375,
+      "completions/mean_terminated_length": 649.3571166992188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 8.671720116618076,
+      "grad_norm": 0.17108920216560364,
+      "learning_rate": 1e-06,
+      "loss": -0.0709,
+      "num_tokens": 561849080.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.17250937223434448,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 928
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3197.0,
+      "completions/mean_length": 944.7489013671875,
+      "completions/mean_terminated_length": 640.0379638671875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 8.681049562682215,
+      "grad_norm": 0.16505981981754303,
+      "learning_rate": 1e-06,
+      "loss": -0.0298,
+      "num_tokens": 562460687.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1601106822490692,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 929
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3878.0,
+      "completions/mean_length": 1026.344970703125,
+      "completions/mean_terminated_length": 618.8685302734375,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 8.690379008746355,
+      "grad_norm": 0.17340941727161407,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 563036524.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14771132171154022,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 930
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3892.0,
+      "completions/mean_length": 1091.484375,
+      "completions/mean_terminated_length": 675.3569946289062,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 8.699708454810496,
+      "grad_norm": 0.16088353097438812,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 563661470.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1681487262248993,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 931
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2490.0,
+      "completions/mean_length": 959.5881958007812,
+      "completions/mean_terminated_length": 647.8711547851562,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 8.709037900874636,
+      "grad_norm": 0.15052680671215057,
+      "learning_rate": 1e-06,
+      "loss": -0.0249,
+      "num_tokens": 564283093.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.1403045356273651,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 932
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3959.0,
+      "completions/mean_length": 1056.3035888671875,
+      "completions/mean_terminated_length": 687.2791137695312,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 8.718367346938775,
+      "grad_norm": 0.16645358502864838,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 564920917.0,
+      "reward": 0.65625,
+      "reward_std": 0.1550350785255432,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 933
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 1070.3404541015625,
+      "completions/mean_terminated_length": 690.232421875,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 8.727696793002915,
+      "grad_norm": 0.16387112438678741,
+      "learning_rate": 1e-06,
+      "loss": -0.0079,
+      "num_tokens": 565556510.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1564226597547531,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 934
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3985.0,
+      "completions/mean_length": 961.8303833007812,
+      "completions/mean_terminated_length": 603.1940307617188,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 8.737026239067056,
+      "grad_norm": 0.1628786325454712,
+      "learning_rate": 1e-06,
+      "loss": -0.0749,
+      "num_tokens": 566120942.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.1592409610748291,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 935
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3378.0,
+      "completions/mean_length": 869.2902221679688,
+      "completions/mean_terminated_length": 625.2532958984375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.746355685131196,
+      "grad_norm": 0.170728400349617,
+      "learning_rate": 1e-06,
+      "loss": -0.0338,
+      "num_tokens": 566729890.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1675506979227066,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807061672210693,
+      "step": 936
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2456.0,
+      "completions/mean_length": 906.0614013671875,
+      "completions/mean_terminated_length": 614.6541137695312,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 8.755685131195335,
+      "grad_norm": 0.1713971644639969,
+      "learning_rate": 1e-06,
+      "loss": -0.0362,
+      "num_tokens": 567327737.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.16453874111175537,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 937
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3724.0,
+      "completions/mean_length": 999.1641235351562,
+      "completions/mean_terminated_length": 661.8848876953125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 8.765014577259475,
+      "grad_norm": 0.17029625177383423,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 567949212.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14473934471607208,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 938
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2817.0,
+      "completions/mean_length": 767.677490234375,
+      "completions/mean_terminated_length": 545.789306640625,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 8.774344023323614,
+      "grad_norm": 0.14980624616146088,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 568491651.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.14207187294960022,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 939
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 1074.49560546875,
+      "completions/mean_terminated_length": 629.5877075195312,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 8.783673469387756,
+      "grad_norm": 0.17293629050254822,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 569077039.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.15390461683273315,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 940
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3494.0,
+      "completions/mean_length": 829.3917846679688,
+      "completions/mean_terminated_length": 607.46484375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 8.793002915451895,
+      "grad_norm": 0.15138781070709229,
+      "learning_rate": 1e-06,
+      "loss": -0.0418,
+      "num_tokens": 569665766.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.14996832609176636,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 941
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3891.0,
+      "completions/mean_length": 992.7723388671875,
+      "completions/mean_terminated_length": 616.0350341796875,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 8.802332361516035,
+      "grad_norm": 0.16286368668079376,
+      "learning_rate": 1e-06,
+      "loss": -0.0106,
+      "num_tokens": 570243074.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.14894984662532806,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 942
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4040.0,
+      "completions/mean_length": 906.7969360351562,
+      "completions/mean_terminated_length": 602.6919555664062,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 8.811661807580174,
+      "grad_norm": 0.1696043610572815,
+      "learning_rate": 1e-06,
+      "loss": -0.0468,
+      "num_tokens": 570826212.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.15097612142562866,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 943
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3213.0,
+      "completions/mean_length": 951.2623291015625,
+      "completions/mean_terminated_length": 659.7987670898438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 8.820991253644316,
+      "grad_norm": 0.11802743375301361,
+      "learning_rate": 1e-06,
+      "loss": -0.0352,
+      "num_tokens": 571452839.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.13601915538311005,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 944
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 1012.1529541015625,
+      "completions/mean_terminated_length": 624.7349243164062,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.830320699708455,
+      "grad_norm": 0.1597726047039032,
+      "learning_rate": 1e-06,
+      "loss": -0.0252,
+      "num_tokens": 572034000.0,
+      "reward": 0.6484375,
+      "reward_std": 0.13767842948436737,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 945
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3956.0,
+      "completions/mean_length": 918.6350708007812,
+      "completions/mean_terminated_length": 589.9420776367188,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 8.839650145772595,
+      "grad_norm": 0.18028230965137482,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 572596777.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16442857682704926,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 946
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3385.0,
+      "completions/mean_length": 941.6451416015625,
+      "completions/mean_terminated_length": 632.3946533203125,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 8.848979591836734,
+      "grad_norm": 0.1487460881471634,
+      "learning_rate": 1e-06,
+      "loss": -0.0219,
+      "num_tokens": 573195331.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.12985864281654358,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 947
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3945.0,
+      "completions/mean_length": 1013.7120971679688,
+      "completions/mean_terminated_length": 686.4568481445312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 8.858309037900874,
+      "grad_norm": 0.14884889125823975,
+      "learning_rate": 1e-06,
+      "loss": -0.0612,
+      "num_tokens": 573841481.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.1504134237766266,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 948
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3585.0,
+      "completions/mean_length": 968.1741333007812,
+      "completions/mean_terminated_length": 601.5711059570312,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 8.867638483965015,
+      "grad_norm": 0.17088302969932556,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 574410709.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1497747004032135,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 949
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3131.0,
+      "completions/mean_length": 1037.688720703125,
+      "completions/mean_terminated_length": 591.8478393554688,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 8.876967930029155,
+      "grad_norm": 0.16182148456573486,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 574963590.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.11979115009307861,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 950
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2928.0,
+      "completions/mean_length": 1056.55029296875,
+      "completions/mean_terminated_length": 635.58447265625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 8.886297376093294,
+      "grad_norm": 0.1759294718503952,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 575557835.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.15469878911972046,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 951
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3753.0,
+      "completions/mean_length": 975.974365234375,
+      "completions/mean_terminated_length": 627.5843505859375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 8.895626822157434,
+      "grad_norm": 0.15874795615673065,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 576153716.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1577788144350052,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 952
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 862.3013916015625,
+      "completions/mean_terminated_length": 609.3646240234375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.904956268221575,
+      "grad_norm": 0.17351357638835907,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 576751274.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1762627214193344,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 953
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3106.0,
+      "completions/mean_length": 917.1563110351562,
+      "completions/mean_terminated_length": 618.2906494140625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 8.914285714285715,
+      "grad_norm": 0.17315226793289185,
+      "learning_rate": 1e-06,
+      "loss": -0.0401,
+      "num_tokens": 577348886.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1712619662284851,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 954
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3196.0,
+      "completions/mean_length": 1004.9241333007812,
+      "completions/mean_terminated_length": 612.2213745117188,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 8.923615160349854,
+      "grad_norm": 0.20299702882766724,
+      "learning_rate": 1e-06,
+      "loss": -0.0577,
+      "num_tokens": 577919322.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.18408571183681488,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 955
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3038.0,
+      "completions/mean_length": 997.677490234375,
+      "completions/mean_terminated_length": 625.8787231445312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 8.932944606413994,
+      "grad_norm": 0.14476415514945984,
+      "learning_rate": 1e-06,
+      "loss": -0.0046,
+      "num_tokens": 578510257.0,
+      "reward": 0.6328125,
+      "reward_std": 0.10393194854259491,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 956
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4050.0,
+      "completions/mean_length": 1154.4632568359375,
+      "completions/mean_terminated_length": 668.669677734375,
+      "completions/min_length": 191.0,
+      "completions/min_terminated_length": 191.0,
+      "epoch": 8.942274052478133,
+      "grad_norm": 0.17567642033100128,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 579116144.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.16258454322814941,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 957
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3858.0,
+      "completions/mean_length": 1015.1417846679688,
+      "completions/mean_terminated_length": 666.8707885742188,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 8.951603498542275,
+      "grad_norm": 0.15093271434307098,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 579748223.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.15924237668514252,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 958
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3779.0,
+      "completions/mean_length": 1059.5748291015625,
+      "completions/mean_terminated_length": 621.3677978515625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.960932944606414,
+      "grad_norm": 0.1546793133020401,
+      "learning_rate": 1e-06,
+      "loss": -0.05,
+      "num_tokens": 580325962.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1260286271572113,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 959
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3806.0,
+      "completions/mean_length": 1076.0145263671875,
+      "completions/mean_terminated_length": 679.4507446289062,
+      "completions/min_length": 197.0,
+      "completions/min_terminated_length": 197.0,
+      "epoch": 8.970262390670554,
+      "grad_norm": 0.16840921342372894,
+      "learning_rate": 1e-06,
+      "loss": -0.0753,
+      "num_tokens": 580960807.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.16589029133319855,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631320357322693,
+      "step": 960
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3538.0,
+      "completions/mean_length": 895.0982666015625,
+      "completions/mean_terminated_length": 606.9391479492188,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 8.979591836734693,
+      "grad_norm": 0.14716318249702454,
+      "learning_rate": 1e-06,
+      "loss": -0.0383,
+      "num_tokens": 581548271.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.12230847775936127,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 961
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3686.0,
+      "completions/mean_length": 1048.3046875,
+      "completions/mean_terminated_length": 643.743408203125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 8.988921282798835,
+      "grad_norm": 0.158160999417305,
+      "learning_rate": 1e-06,
+      "loss": -0.0451,
+      "num_tokens": 582154744.0,
+      "reward": 0.59375,
+      "reward_std": 0.1725100725889206,
+      "rewards/verify_math_reward/mean": 0.59375,
+      "rewards/verify_math_reward/std": 0.4914066195487976,
+      "step": 962
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.08806818181818177,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2611.0,
+      "completions/mean_length": 963.0568237304688,
+      "completions/mean_terminated_length": 660.4984130859375,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 8.998250728862974,
+      "grad_norm": 0.1551835685968399,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 582796379.0,
+      "reward": 0.6171875,
+      "reward_std": 0.17074090242385864,
+      "rewards/verify_math_reward/mean": 0.6171875,
+      "rewards/verify_math_reward/std": 0.4863446056842804,
+      "step": 963
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3567.0,
+      "completions/mean_length": 1075.719970703125,
+      "completions/mean_terminated_length": 696.2876586914062,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.00932944606414,
+      "grad_norm": 0.17357894778251648,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 583442832.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.18359534442424774,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 964
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4023.0,
+      "completions/mean_length": 943.8638916015625,
+      "completions/mean_terminated_length": 574.4114990234375,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 9.018658892128279,
+      "grad_norm": 0.1535881757736206,
+      "learning_rate": 1e-06,
+      "loss": -0.0146,
+      "num_tokens": 583989494.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.11445268988609314,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 965
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2672.0,
+      "completions/mean_length": 913.6350708007812,
+      "completions/mean_terminated_length": 605.91552734375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 9.02798833819242,
+      "grad_norm": 0.15367503464221954,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 584581199.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.1781042218208313,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 966
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2673.0,
+      "completions/mean_length": 1067.841552734375,
+      "completions/mean_terminated_length": 648.4396362304688,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.03731778425656,
+      "grad_norm": 0.16338209807872772,
+      "learning_rate": 1e-06,
+      "loss": -0.0812,
+      "num_tokens": 585181921.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1717950999736786,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 967
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3597.0,
+      "completions/mean_length": 1065.376220703125,
+      "completions/mean_terminated_length": 667.4154052734375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 9.0466472303207,
+      "grad_norm": 0.16495244204998016,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 585816362.0,
+      "reward": 0.609375,
+      "reward_std": 0.1637563705444336,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 968
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3891.0,
+      "completions/mean_length": 979.1886596679688,
+      "completions/mean_terminated_length": 613.8765869140625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.055976676384839,
+      "grad_norm": 0.15480107069015503,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 586393331.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.15631386637687683,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 969
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2841.0,
+      "completions/mean_length": 846.8516235351562,
+      "completions/mean_terminated_length": 567.2279052734375,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 9.06530612244898,
+      "grad_norm": 0.15223339200019836,
+      "learning_rate": 1e-06,
+      "loss": -0.0323,
+      "num_tokens": 586945822.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.13193020224571228,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 970
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3711.0,
+      "completions/mean_length": 1049.376220703125,
+      "completions/mean_terminated_length": 657.9962158203125,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 9.07463556851312,
+      "grad_norm": 0.15771889686584473,
+      "learning_rate": 1e-06,
+      "loss": -0.0285,
+      "num_tokens": 587560679.0,
+      "reward": 0.625,
+      "reward_std": 0.14496827125549316,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 971
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3058.0,
+      "completions/mean_length": 870.4598388671875,
+      "completions/mean_terminated_length": 613.9710693359375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 9.08396501457726,
+      "grad_norm": 0.1466354876756668,
+      "learning_rate": 1e-06,
+      "loss": -0.0389,
+      "num_tokens": 588153195.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.14481490850448608,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 972
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3716.0,
+      "completions/mean_length": 959.4453735351562,
+      "completions/mean_terminated_length": 626.4284057617188,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.093294460641399,
+      "grad_norm": 0.1576017290353775,
+      "learning_rate": 1e-06,
+      "loss": -0.0469,
+      "num_tokens": 588748626.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.1539480984210968,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 973
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3221.0,
+      "completions/mean_length": 1120.8828125,
+      "completions/mean_terminated_length": 669.6439819335938,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 9.102623906705539,
+      "grad_norm": 0.1499904990196228,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 589349721.0,
+      "reward": 0.6160714626312256,
+      "reward_std": 0.1361714005470276,
+      "rewards/verify_math_reward/mean": 0.6160714030265808,
+      "rewards/verify_math_reward/std": 0.486612468957901,
+      "step": 974
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3254.0,
+      "completions/mean_length": 1097.8035888671875,
+      "completions/mean_terminated_length": 643.0642700195312,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 9.11195335276968,
+      "grad_norm": 0.17377203702926636,
+      "learning_rate": 1e-06,
+      "loss": -0.0699,
+      "num_tokens": 589955537.0,
+      "reward": 0.6049107313156128,
+      "reward_std": 0.1645801067352295,
+      "rewards/verify_math_reward/mean": 0.6049107313156128,
+      "rewards/verify_math_reward/std": 0.48914292454719543,
+      "step": 975
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4077.0,
+      "completions/mean_length": 1063.610595703125,
+      "completions/mean_terminated_length": 621.548583984375,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 9.12128279883382,
+      "grad_norm": 0.1703103482723236,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 590533764.0,
+      "reward": 0.6071428656578064,
+      "reward_std": 0.13842841982841492,
+      "rewards/verify_math_reward/mean": 0.6071428656578064,
+      "rewards/verify_math_reward/std": 0.48865827918052673,
+      "step": 976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2921.0,
+      "completions/mean_length": 1112.9654541015625,
+      "completions/mean_terminated_length": 678.0984497070312,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.130612244897959,
+      "grad_norm": 0.1722087413072586,
+      "learning_rate": 1e-06,
+      "loss": -0.0685,
+      "num_tokens": 591156989.0,
+      "reward": 0.609375,
+      "reward_std": 0.19054891169071198,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 977
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2800.0,
+      "completions/mean_length": 1054.8538818359375,
+      "completions/mean_terminated_length": 624.8318481445312,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 9.139941690962099,
+      "grad_norm": 0.15863892436027527,
+      "learning_rate": 1e-06,
+      "loss": -0.065,
+      "num_tokens": 591736250.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1472145915031433,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 978
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2974.0,
+      "completions/mean_length": 1022.419677734375,
+      "completions/mean_terminated_length": 640.6323852539062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 9.14927113702624,
+      "grad_norm": 0.14767885208129883,
+      "learning_rate": 1e-06,
+      "loss": -0.0626,
+      "num_tokens": 592341626.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.14011839032173157,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 979
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2632.0,
+      "completions/mean_length": 1121.891845703125,
+      "completions/mean_terminated_length": 612.6000366210938,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 9.15860058309038,
+      "grad_norm": 0.14965596795082092,
+      "learning_rate": 1e-06,
+      "loss": -0.0794,
+      "num_tokens": 592901465.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.17138142883777618,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 980
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2515.0,
+      "completions/mean_length": 914.122802734375,
+      "completions/mean_terminated_length": 606.450439453125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 9.167930029154519,
+      "grad_norm": 0.1620972603559494,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 593494359.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1645801067352295,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 981
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3590.0,
+      "completions/mean_length": 948.9631958007812,
+      "completions/mean_terminated_length": 601.8922119140625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.177259475218658,
+      "grad_norm": 0.14093415439128876,
+      "learning_rate": 1e-06,
+      "loss": -0.0598,
+      "num_tokens": 594059542.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.1346304714679718,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 982
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2735.0,
+      "completions/mean_length": 865.7142944335938,
+      "completions/mean_terminated_length": 604.6417236328125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.186588921282798,
+      "grad_norm": 0.12272296100854874,
+      "learning_rate": 1e-06,
+      "loss": -0.0773,
+      "num_tokens": 594646142.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.14286141097545624,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 983
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3964.0,
+      "completions/mean_length": 1021.22216796875,
+      "completions/mean_terminated_length": 639.2860717773438,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 9.19591836734694,
+      "grad_norm": 0.15324079990386963,
+      "learning_rate": 1e-06,
+      "loss": -0.0327,
+      "num_tokens": 595245405.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.14676813781261444,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 984
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2819.0,
+      "completions/mean_length": 858.1060791015625,
+      "completions/mean_terminated_length": 587.9552612304688,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 9.205247813411079,
+      "grad_norm": 0.15378931164741516,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 595803316.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.12065806984901428,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 985
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2483.0,
+      "completions/mean_length": 800.0379638671875,
+      "completions/mean_terminated_length": 576.1168212890625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 9.214577259475218,
+      "grad_norm": 0.14740386605262756,
+      "learning_rate": 1e-06,
+      "loss": -0.048,
+      "num_tokens": 596372262.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.1233583390712738,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 986
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 1108.1875,
+      "completions/mean_terminated_length": 676.9961547851562,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 9.223906705539358,
+      "grad_norm": 0.1522056609392166,
+      "learning_rate": 1e-06,
+      "loss": -0.068,
+      "num_tokens": 597001806.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.13087642192840576,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 987
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3695.0,
+      "completions/mean_length": 1029.610595703125,
+      "completions/mean_terminated_length": 704.043212890625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 9.2332361516035,
+      "grad_norm": 0.15282049775123596,
+      "learning_rate": 1e-06,
+      "loss": -0.0249,
+      "num_tokens": 597671961.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.17878004908561707,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 988
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2499.0,
+      "completions/mean_length": 935.6629638671875,
+      "completions/mean_terminated_length": 600.1210327148438,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 9.242565597667639,
+      "grad_norm": 0.1368328332901001,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 598241691.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.11265284568071365,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 989
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3921.0,
+      "completions/mean_length": 971.911865234375,
+      "completions/mean_terminated_length": 635.9468383789062,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 9.251895043731778,
+      "grad_norm": 0.17850814759731293,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 598853556.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.20267587900161743,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 990
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2447.0,
+      "completions/mean_length": 921.1864013671875,
+      "completions/mean_terminated_length": 618.4535522460938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 9.261224489795918,
+      "grad_norm": 0.14040787518024445,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 599461579.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.1288476437330246,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 991
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2509.0,
+      "completions/mean_length": 999.724365234375,
+      "completions/mean_terminated_length": 636.8192138671875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 9.270553935860057,
+      "grad_norm": 0.14651288092136383,
+      "learning_rate": 1e-06,
+      "loss": -0.0372,
+      "num_tokens": 600058644.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1253136545419693,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 992
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2805.0,
+      "completions/mean_length": 952.8638916015625,
+      "completions/mean_terminated_length": 640.478515625,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 9.279883381924199,
+      "grad_norm": 0.13161633908748627,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 600679842.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.12471451610326767,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 993
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2948.0,
+      "completions/mean_length": 942.80810546875,
+      "completions/mean_terminated_length": 642.136962890625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.289212827988338,
+      "grad_norm": 0.14655812084674835,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 601288286.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.1597309112548828,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 994
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2822.0,
+      "completions/mean_length": 990.450927734375,
+      "completions/mean_terminated_length": 635.0895385742188,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 9.298542274052478,
+      "grad_norm": 0.15559905767440796,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 601891442.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1550350934267044,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 995
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3974.0,
+      "completions/mean_length": 999.51123046875,
+      "completions/mean_terminated_length": 606.1207275390625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 9.307871720116617,
+      "grad_norm": 0.16221782565116882,
+      "learning_rate": 1e-06,
+      "loss": -0.0061,
+      "num_tokens": 602465748.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.11317459493875504,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 996
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3369.0,
+      "completions/mean_length": 915.6272583007812,
+      "completions/mean_terminated_length": 612.3643188476562,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.317201166180759,
+      "grad_norm": 0.17097395658493042,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 603053990.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.17521145939826965,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 997
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2651.0,
+      "completions/mean_length": 885.4732666015625,
+      "completions/mean_terminated_length": 613.3947143554688,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 9.326530612244898,
+      "grad_norm": 0.1613817811012268,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 603638366.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.16308379173278809,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 998
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2974.0,
+      "completions/mean_length": 851.1730346679688,
+      "completions/mean_terminated_length": 580.4437866210938,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 9.335860058309038,
+      "grad_norm": 0.16307564079761505,
+      "learning_rate": 1e-06,
+      "loss": -0.0355,
+      "num_tokens": 604209769.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.16149896383285522,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 999
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3464.0,
+      "completions/mean_length": 1016.1217041015625,
+      "completions/mean_terminated_length": 616.0870361328125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 9.345189504373177,
+      "grad_norm": 0.13637185096740723,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 604793046.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.12467173486948013,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900502204895,
+      "step": 1000
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3012.0,
+      "completions/mean_length": 1028.419677734375,
+      "completions/mean_terminated_length": 607.9898071289062,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 9.354518950437317,
+      "grad_norm": 0.15392091870307922,
+      "learning_rate": 1e-06,
+      "loss": -0.0823,
+      "num_tokens": 605365990.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.15672573447227478,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1001
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2266.0,
+      "completions/mean_length": 922.6194458007812,
+      "completions/mean_terminated_length": 572.6431274414062,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.363848396501458,
+      "grad_norm": 0.1472814381122589,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 605910817.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.09153397381305695,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1002
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3679.0,
+      "completions/mean_length": 1002.6105346679688,
+      "completions/mean_terminated_length": 618.3626098632812,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.373177842565598,
+      "grad_norm": 0.16151034832000732,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 606491340.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1381234973669052,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1003
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3622.0,
+      "completions/mean_length": 926.2120971679688,
+      "completions/mean_terminated_length": 623.9584350585938,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 9.382507288629737,
+      "grad_norm": 0.1649787873029709,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 607093194.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.17649024724960327,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1004
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3869.0,
+      "completions/mean_length": 1013.5089721679688,
+      "completions/mean_terminated_length": 634.9573974609375,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 9.391836734693877,
+      "grad_norm": 0.15088605880737305,
+      "learning_rate": 1e-06,
+      "loss": -0.0309,
+      "num_tokens": 607684922.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.12369534373283386,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1005
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3121.0,
+      "completions/mean_length": 987.2511596679688,
+      "completions/mean_terminated_length": 678.283447265625,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 9.401166180758018,
+      "grad_norm": 0.15360213816165924,
+      "learning_rate": 1e-06,
+      "loss": -0.0336,
+      "num_tokens": 608326331.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.15297238528728485,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1006
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3543.0,
+      "completions/mean_length": 986.15185546875,
+      "completions/mean_terminated_length": 591.0641479492188,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.410495626822158,
+      "grad_norm": 0.14688071608543396,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 608884675.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13636502623558044,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1007
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3300.0,
+      "completions/mean_length": 985.6105346679688,
+      "completions/mean_terminated_length": 638.2965087890625,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.419825072886297,
+      "grad_norm": 0.14192089438438416,
+      "learning_rate": 1e-06,
+      "loss": -0.04,
+      "num_tokens": 609487726.0,
+      "reward": 0.6127232313156128,
+      "reward_std": 0.13342514634132385,
+      "rewards/verify_math_reward/mean": 0.6127232313156128,
+      "rewards/verify_math_reward/std": 0.4873998463153839,
+      "step": 1008
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2320.0,
+      "completions/mean_length": 926.54248046875,
+      "completions/mean_terminated_length": 657.9443359375,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 9.429154518950437,
+      "grad_norm": 0.14036203920841217,
+      "learning_rate": 1e-06,
+      "loss": -0.0379,
+      "num_tokens": 610119020.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.13883888721466064,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1009
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3672.0,
+      "completions/mean_length": 1002.7076416015625,
+      "completions/mean_terminated_length": 596.5177001953125,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 9.438483965014576,
+      "grad_norm": 0.1588844507932663,
+      "learning_rate": 1e-06,
+      "loss": -0.0389,
+      "num_tokens": 610688742.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1463116705417633,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1010
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3221.0,
+      "completions/mean_length": 940.87841796875,
+      "completions/mean_terminated_length": 618.7687377929688,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 9.447813411078718,
+      "grad_norm": 0.14721238613128662,
+      "learning_rate": 1e-06,
+      "loss": -0.0559,
+      "num_tokens": 611282289.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.148458793759346,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1011
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2689.0,
+      "completions/mean_length": 916.1741333007812,
+      "completions/mean_terminated_length": 565.4869995117188,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 9.457142857142857,
+      "grad_norm": 0.17061950266361237,
+      "learning_rate": 1e-06,
+      "loss": -0.0555,
+      "num_tokens": 611828373.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.13835172355175018,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1012
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2452.0,
+      "completions/mean_length": 905.169677734375,
+      "completions/mean_terminated_length": 617.9172973632812,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.466472303206997,
+      "grad_norm": 0.1752035915851593,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 612443141.0,
+      "reward": 0.6328125,
+      "reward_std": 0.1632649153470993,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1013
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3795.0,
+      "completions/mean_length": 1090.075927734375,
+      "completions/mean_terminated_length": 712.4472045898438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.475801749271136,
+      "grad_norm": 0.15727031230926514,
+      "learning_rate": 1e-06,
+      "loss": -0.0385,
+      "num_tokens": 613093729.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.1594706028699875,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791128396987915,
+      "step": 1014
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3332.0,
+      "completions/mean_length": 1075.4576416015625,
+      "completions/mean_terminated_length": 700.2584838867188,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 9.485131195335278,
+      "grad_norm": 0.15654075145721436,
+      "learning_rate": 1e-06,
+      "loss": -0.0335,
+      "num_tokens": 613741923.0,
+      "reward": 0.5647321939468384,
+      "reward_std": 0.1702541708946228,
+      "rewards/verify_math_reward/mean": 0.5647321343421936,
+      "rewards/verify_math_reward/std": 0.49606895446777344,
+      "step": 1015
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4069.0,
+      "completions/mean_length": 894.3839721679688,
+      "completions/mean_terminated_length": 593.3773193359375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 9.494460641399417,
+      "grad_norm": 0.1495983600616455,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 614307971.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.1140422374010086,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1016
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3553.0,
+      "completions/mean_length": 1007.6797485351562,
+      "completions/mean_terminated_length": 615.3270263671875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 9.503790087463557,
+      "grad_norm": 0.15612642467021942,
+      "learning_rate": 1e-06,
+      "loss": -0.045,
+      "num_tokens": 614879468.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.1381234973669052,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1017
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3540.0,
+      "completions/mean_length": 958.232177734375,
+      "completions/mean_terminated_length": 616.4950561523438,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 9.513119533527696,
+      "grad_norm": 0.17223958671092987,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 615470988.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.17217238247394562,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1018
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3682.0,
+      "completions/mean_length": 917.2277221679688,
+      "completions/mean_terminated_length": 626.8404541015625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 9.522448979591836,
+      "grad_norm": 0.1533408910036087,
+      "learning_rate": 1e-06,
+      "loss": -0.0638,
+      "num_tokens": 616066824.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.17461301386356354,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1019
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3232.0,
+      "completions/mean_length": 973.87060546875,
+      "completions/mean_terminated_length": 638.1162109375,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 9.531778425655977,
+      "grad_norm": 0.15724606812000275,
+      "learning_rate": 1e-06,
+      "loss": -0.0245,
+      "num_tokens": 616667908.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14421899616718292,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1020
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3696.0,
+      "completions/mean_length": 1000.5870971679688,
+      "completions/mean_terminated_length": 620.4486083984375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 9.541107871720117,
+      "grad_norm": 0.12718215584754944,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 617250818.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1176849827170372,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1021
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3039.0,
+      "completions/mean_length": 1051.359375,
+      "completions/mean_terminated_length": 634.0736083984375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 9.550437317784256,
+      "grad_norm": 0.14777742326259613,
+      "learning_rate": 1e-06,
+      "loss": -0.0585,
+      "num_tokens": 617838620.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.1374502032995224,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1022
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3545.0,
+      "completions/mean_length": 1105.6473388671875,
+      "completions/mean_terminated_length": 746.8049926757812,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 9.559766763848396,
+      "grad_norm": 0.14828738570213318,
+      "learning_rate": 1e-06,
+      "loss": -0.0753,
+      "num_tokens": 618537208.0,
+      "reward": 0.6116071939468384,
+      "reward_std": 0.16101223230361938,
+      "rewards/verify_math_reward/mean": 0.6116071343421936,
+      "rewards/verify_math_reward/std": 0.48765692114830017,
+      "step": 1023
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2577.0,
+      "completions/mean_length": 875.0949096679688,
+      "completions/mean_terminated_length": 635.651123046875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 9.569096209912537,
+      "grad_norm": 0.158096581697464,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 619166709.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1504133939743042,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 1024
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3686.0,
+      "completions/mean_length": 1024.938720703125,
+      "completions/mean_terminated_length": 647.7907104492188,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 9.578425655976677,
+      "grad_norm": 0.13805274665355682,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 619766750.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.12651577591896057,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1025
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3483.0,
+      "completions/mean_length": 948.3906860351562,
+      "completions/mean_terminated_length": 575.07861328125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 9.587755102040816,
+      "grad_norm": 0.13969606161117554,
+      "learning_rate": 1e-06,
+      "loss": -0.0415,
+      "num_tokens": 620324668.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.10505989193916321,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1026
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3338.0,
+      "completions/mean_length": 933.9453735351562,
+      "completions/mean_terminated_length": 611.1279296875,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 9.597084548104956,
+      "grad_norm": 0.11436095833778381,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 620907499.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.10205401480197906,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.4476594924926758,
+      "step": 1027
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3164.0,
+      "completions/mean_length": 1061.7098388671875,
+      "completions/mean_terminated_length": 693.3416748046875,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.606413994169095,
+      "grad_norm": 0.15719173848628998,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 621555911.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1708935797214508,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1028
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2652.0,
+      "completions/mean_length": 872.9910888671875,
+      "completions/mean_terminated_length": 569.97314453125,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 9.615743440233237,
+      "grad_norm": 0.16108962893486023,
+      "learning_rate": 1e-06,
+      "loss": -0.0192,
+      "num_tokens": 622117487.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1215910017490387,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1029
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2228.0,
+      "completions/mean_length": 863.154052734375,
+      "completions/mean_terminated_length": 576.4010009765625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 9.625072886297376,
+      "grad_norm": 0.130886048078537,
+      "learning_rate": 1e-06,
+      "loss": -0.0751,
+      "num_tokens": 622677217.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.12677650153636932,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1030
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3420.0,
+      "completions/mean_length": 986.5402221679688,
+      "completions/mean_terminated_length": 652.1483154296875,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 9.634402332361516,
+      "grad_norm": 0.15525905787944794,
+      "learning_rate": 1e-06,
+      "loss": -0.0281,
+      "num_tokens": 623294469.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.1435782015323639,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1031
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3081.0,
+      "completions/mean_length": 1017.1272583007812,
+      "completions/mean_terminated_length": 647.6624755859375,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 9.643731778425655,
+      "grad_norm": 0.15184278786182404,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 623906839.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.16431981325149536,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1032
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3006.0,
+      "completions/mean_length": 996.3035888671875,
+      "completions/mean_terminated_length": 602.5056762695312,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 9.653061224489797,
+      "grad_norm": 0.1531890630722046,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 624469775.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.1356828510761261,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1033
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3280.0,
+      "completions/mean_length": 1031.4554443359375,
+      "completions/mean_terminated_length": 650.7904663085938,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 9.662390670553936,
+      "grad_norm": 0.15431952476501465,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 625078079.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.12189549207687378,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1034
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3946.0,
+      "completions/mean_length": 903.677490234375,
+      "completions/mean_terminated_length": 607.8036499023438,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 9.671720116618076,
+      "grad_norm": 0.15675632655620575,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 625661590.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.16067594289779663,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1035
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3691.0,
+      "completions/mean_length": 969.3370971679688,
+      "completions/mean_terminated_length": 611.5596923828125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 9.681049562682215,
+      "grad_norm": 0.17152757942676544,
+      "learning_rate": 1e-06,
+      "loss": -0.0687,
+      "num_tokens": 626242276.0,
+      "reward": 0.6640625,
+      "reward_std": 0.1575499027967453,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1036
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3885.0,
+      "completions/mean_length": 994.7188110351562,
+      "completions/mean_terminated_length": 648.4218139648438,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 9.690379008746355,
+      "grad_norm": 0.15449100732803345,
+      "learning_rate": 1e-06,
+      "loss": -0.0466,
+      "num_tokens": 626844176.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.14602065086364746,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1037
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3598.0,
+      "completions/mean_length": 1010.8482666015625,
+      "completions/mean_terminated_length": 670.6022338867188,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 9.699708454810496,
+      "grad_norm": 0.17662253975868225,
+      "learning_rate": 1e-06,
+      "loss": -0.0265,
+      "num_tokens": 627469016.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.18498291075229645,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1038
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0636160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4031.0,
+      "completions/mean_length": 844.6295166015625,
+      "completions/mean_terminated_length": 623.73779296875,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 9.709037900874636,
+      "grad_norm": 0.16566677391529083,
+      "learning_rate": 1e-06,
+      "loss": -0.019,
+      "num_tokens": 628081644.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.16209669411182404,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1039
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2892.0,
+      "completions/mean_length": 1054.6920166015625,
+      "completions/mean_terminated_length": 633.4688720703125,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 9.718367346938775,
+      "grad_norm": 0.1413305401802063,
+      "learning_rate": 1e-06,
+      "loss": -0.0235,
+      "num_tokens": 628665344.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.12151571363210678,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1040
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3107.0,
+      "completions/mean_length": 863.1953735351562,
+      "completions/mean_terminated_length": 576.4459228515625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 9.727696793002915,
+      "grad_norm": 0.16033810377120972,
+      "learning_rate": 1e-06,
+      "loss": -0.0297,
+      "num_tokens": 629230319.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.15117114782333374,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1041
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3069.0,
+      "completions/mean_length": 858.1920166015625,
+      "completions/mean_terminated_length": 600.7277221679688,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 9.737026239067056,
+      "grad_norm": 0.13776952028274536,
+      "learning_rate": 1e-06,
+      "loss": -0.0524,
+      "num_tokens": 629811307.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.13267767429351807,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1042
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3617.0,
+      "completions/mean_length": 1069.3695068359375,
+      "completions/mean_terminated_length": 619.255126953125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 9.746355685131196,
+      "grad_norm": 0.14992396533489227,
+      "learning_rate": 1e-06,
+      "loss": -0.0538,
+      "num_tokens": 630381254.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.12899848818778992,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1043
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2844.0,
+      "completions/mean_length": 968.8850708007812,
+      "completions/mean_terminated_length": 636.8704223632812,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 9.755685131195335,
+      "grad_norm": 0.1591418832540512,
+      "learning_rate": 1e-06,
+      "loss": -0.0654,
+      "num_tokens": 630982847.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.15018518269062042,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1044
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3728.0,
+      "completions/mean_length": 954.8292846679688,
+      "completions/mean_terminated_length": 599.7403564453125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 9.765014577259475,
+      "grad_norm": 0.1500181406736374,
+      "learning_rate": 1e-06,
+      "loss": -0.0488,
+      "num_tokens": 631540606.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13711318373680115,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1045
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4027.0,
+      "completions/mean_length": 1027.9051513671875,
+      "completions/mean_terminated_length": 731.2350463867188,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 9.774344023323614,
+      "grad_norm": 0.15682144463062286,
+      "learning_rate": 1e-06,
+      "loss": -0.0321,
+      "num_tokens": 632232321.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.18344520032405853,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1046
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3091.0,
+      "completions/mean_length": 1128.544677734375,
+      "completions/mean_terminated_length": 678.4678344726562,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 9.783673469387756,
+      "grad_norm": 0.15192003548145294,
+      "learning_rate": 1e-06,
+      "loss": -0.0607,
+      "num_tokens": 632857577.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.13519500195980072,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 1047
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3623.0,
+      "completions/mean_length": 1026.7421875,
+      "completions/mean_terminated_length": 675.5335693359375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 9.793002915451895,
+      "grad_norm": 0.14906039834022522,
+      "learning_rate": 1e-06,
+      "loss": -0.0431,
+      "num_tokens": 633494130.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13598594069480896,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1048
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3550.0,
+      "completions/mean_length": 965.2589721679688,
+      "completions/mean_terminated_length": 641.38916015625,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 9.802332361516035,
+      "grad_norm": 0.1628960818052292,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 634102778.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.1832476705312729,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 1049
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2185.0,
+      "completions/mean_length": 947.47216796875,
+      "completions/mean_terminated_length": 621.7623291015625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 9.811661807580174,
+      "grad_norm": 0.16928373277187347,
+      "learning_rate": 1e-06,
+      "loss": -0.0301,
+      "num_tokens": 634695489.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.14579172432422638,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1050
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3358.0,
+      "completions/mean_length": 992.6094360351562,
+      "completions/mean_terminated_length": 624.5418090820312,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 9.820991253644316,
+      "grad_norm": 0.182173490524292,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 635276315.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1749507337808609,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1051
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3876.0,
+      "completions/mean_length": 1172.7601318359375,
+      "completions/mean_terminated_length": 698.8236083984375,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 9.830320699708455,
+      "grad_norm": 0.13864195346832275,
+      "learning_rate": 1e-06,
+      "loss": -0.0693,
+      "num_tokens": 635909356.0,
+      "reward": 0.6328125,
+      "reward_std": 0.12505152821540833,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1052
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3337.0,
+      "completions/mean_length": 1001.6551513671875,
+      "completions/mean_terminated_length": 617.28857421875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 9.839650145772595,
+      "grad_norm": 0.14914987981319427,
+      "learning_rate": 1e-06,
+      "loss": -0.0586,
+      "num_tokens": 636484175.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.12238264828920364,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1053
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3370.0,
+      "completions/mean_length": 1054.5648193359375,
+      "completions/mean_terminated_length": 642.1013793945312,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 9.848979591836734,
+      "grad_norm": 0.15453556180000305,
+      "learning_rate": 1e-06,
+      "loss": -0.0266,
+      "num_tokens": 637080849.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1303137093782425,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 1054
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2204.0,
+      "completions/mean_length": 1002.6964721679688,
+      "completions/mean_terminated_length": 605.3198852539062,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 9.858309037900874,
+      "grad_norm": 0.15499663352966309,
+      "learning_rate": 1e-06,
+      "loss": -0.064,
+      "num_tokens": 637663625.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12779568135738373,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1055
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3460.0,
+      "completions/mean_length": 1049.083740234375,
+      "completions/mean_terminated_length": 683.4537353515625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 9.867638483965015,
+      "grad_norm": 0.13593731820583344,
+      "learning_rate": 1e-06,
+      "loss": -0.0438,
+      "num_tokens": 638304596.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.1352698653936386,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 1056
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2919.0,
+      "completions/mean_length": 1067.0692138671875,
+      "completions/mean_terminated_length": 634.3648071289062,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 9.876967930029155,
+      "grad_norm": 0.150171160697937,
+      "learning_rate": 1e-06,
+      "loss": -0.0407,
+      "num_tokens": 638889042.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.13069167733192444,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1057
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3939.0,
+      "completions/mean_length": 1020.2957763671875,
+      "completions/mean_terminated_length": 642.5776977539062,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 9.886297376093294,
+      "grad_norm": 0.15999186038970947,
+      "learning_rate": 1e-06,
+      "loss": -0.0579,
+      "num_tokens": 639495667.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16619592905044556,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1058
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3659.0,
+      "completions/mean_length": 1047.9609375,
+      "completions/mean_terminated_length": 652.061767578125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 9.895626822157434,
+      "grad_norm": 0.1646793782711029,
+      "learning_rate": 1e-06,
+      "loss": -0.051,
+      "num_tokens": 640099264.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.17156758904457092,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1059
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3322.0,
+      "completions/mean_length": 962.232177734375,
+      "completions/mean_terminated_length": 586.1799926757812,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 9.904956268221575,
+      "grad_norm": 0.14414063096046448,
+      "learning_rate": 1e-06,
+      "loss": -0.0132,
+      "num_tokens": 640654392.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.092888742685318,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1060
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3160.0,
+      "completions/mean_length": 774.5313110351562,
+      "completions/mean_terminated_length": 557.312744140625,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 9.914285714285715,
+      "grad_norm": 0.15139399468898773,
+      "learning_rate": 1e-06,
+      "loss": -0.0244,
+      "num_tokens": 641203716.0,
+      "reward": 0.7421875596046448,
+      "reward_std": 0.11265214532613754,
+      "rewards/verify_math_reward/mean": 0.7421875,
+      "rewards/verify_math_reward/std": 0.43767455220222473,
+      "step": 1061
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3058.0,
+      "completions/mean_length": 905.9285888671875,
+      "completions/mean_terminated_length": 622.9696655273438,
+      "completions/min_length": 207.0,
+      "completions/min_terminated_length": 207.0,
+      "epoch": 9.923615160349854,
+      "grad_norm": 0.13992974162101746,
+      "learning_rate": 1e-06,
+      "loss": -0.0313,
+      "num_tokens": 641805276.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.12148109823465347,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1062
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 932.1328735351562,
+      "completions/mean_terminated_length": 574.478271484375,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.932944606413994,
+      "grad_norm": 0.16572162508964539,
+      "learning_rate": 1e-06,
+      "loss": -0.0338,
+      "num_tokens": 642363331.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.12482328712940216,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1063
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3439.0,
+      "completions/mean_length": 1039.891845703125,
+      "completions/mean_terminated_length": 711.2373046875,
+      "completions/min_length": 217.0,
+      "completions/min_terminated_length": 217.0,
+      "epoch": 9.942274052478133,
+      "grad_norm": 0.161685973405838,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 643018562.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.1583433598279953,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1064
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3772.0,
+      "completions/mean_length": 1000.2567138671875,
+      "completions/mean_terminated_length": 646.0173950195312,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 9.951603498542275,
+      "grad_norm": 0.15626482665538788,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 643629864.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.13511762022972107,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1065
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4000.0,
+      "completions/mean_length": 910.5725708007812,
+      "completions/mean_terminated_length": 615.3378295898438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 9.960932944606414,
+      "grad_norm": 0.14039351046085358,
+      "learning_rate": 1e-06,
+      "loss": -0.0359,
+      "num_tokens": 644225617.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1278284788131714,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.4646684527397156,
+      "step": 1066
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2472.0,
+      "completions/mean_length": 1004.35498046875,
+      "completions/mean_terminated_length": 641.9925537109375,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 9.970262390670554,
+      "grad_norm": 0.1683109551668167,
+      "learning_rate": 1e-06,
+      "loss": -0.0494,
+      "num_tokens": 644833279.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1755887120962143,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1067
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3040.0,
+      "completions/mean_length": 851.1373291015625,
+      "completions/mean_terminated_length": 609.9124755859375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 9.979591836734693,
+      "grad_norm": 0.1568983495235443,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 645420890.0,
+      "reward": 0.7555803656578064,
+      "reward_std": 0.13038787245750427,
+      "rewards/verify_math_reward/mean": 0.7555803656578064,
+      "rewards/verify_math_reward/std": 0.42998260259628296,
+      "step": 1068
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2420.0,
+      "completions/mean_length": 1032.6273193359375,
+      "completions/mean_terminated_length": 643.4440307617188,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 9.988921282798835,
+      "grad_norm": 0.16326849162578583,
+      "learning_rate": 1e-06,
+      "loss": -0.0608,
+      "num_tokens": 646036516.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.15537913143634796,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 1069
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.17045454545454541,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2543.0,
+      "completions/mean_length": 1248.866455078125,
+      "completions/mean_terminated_length": 663.8390502929688,
+      "completions/min_length": 221.0,
+      "completions/min_terminated_length": 221.0,
+      "epoch": 9.998250728862974,
+      "grad_norm": 0.15602833032608032,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 646637390.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.14574895799160004,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1070
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3991.0,
+      "completions/mean_length": 1052.3114013671875,
+      "completions/mean_terminated_length": 643.917724609375,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 10.00932944606414,
+      "grad_norm": 0.18460336327552795,
+      "learning_rate": 1e-06,
+      "loss": -0.0736,
+      "num_tokens": 647238589.0,
+      "reward": 0.625,
+      "reward_std": 0.17086149752140045,
+      "rewards/verify_math_reward/mean": 0.625,
+      "rewards/verify_math_reward/std": 0.48439329862594604,
+      "step": 1071
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3022.0,
+      "completions/mean_length": 974.3214721679688,
+      "completions/mean_terminated_length": 655.6260375976562,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 10.018658892128279,
+      "grad_norm": 0.1680677831172943,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 647865021.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.15605314075946808,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1072
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3301.0,
+      "completions/mean_length": 1047.950927734375,
+      "completions/mean_terminated_length": 638.97216796875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 10.02798833819242,
+      "grad_norm": 0.1526758223772049,
+      "learning_rate": 1e-06,
+      "loss": -0.0788,
+      "num_tokens": 648460737.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1469210684299469,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1073
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3904.0,
+      "completions/mean_length": 1009.3516235351562,
+      "completions/mean_terminated_length": 630.2894897460938,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 10.03731778425656,
+      "grad_norm": 0.1646697074174881,
+      "learning_rate": 1e-06,
+      "loss": -0.0606,
+      "num_tokens": 649049660.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1620207130908966,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1074
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4093.0,
+      "completions/mean_length": 1050.563720703125,
+      "completions/mean_terminated_length": 689.3695068359375,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 10.0466472303207,
+      "grad_norm": 0.15181021392345428,
+      "learning_rate": 1e-06,
+      "loss": -0.0704,
+      "num_tokens": 649697277.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.14507634937763214,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1075
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4013.0,
+      "completions/mean_length": 896.8772583007812,
+      "completions/mean_terminated_length": 621.5587768554688,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 10.055976676384839,
+      "grad_norm": 0.15000467002391815,
+      "learning_rate": 1e-06,
+      "loss": -0.0569,
+      "num_tokens": 650286639.0,
+      "reward": 0.7533482313156128,
+      "reward_std": 0.13714781403541565,
+      "rewards/verify_math_reward/mean": 0.7533482313156128,
+      "rewards/verify_math_reward/std": 0.4313030242919922,
+      "step": 1076
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3429.0,
+      "completions/mean_length": 1108.6317138671875,
+      "completions/mean_terminated_length": 642.216796875,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 10.06530612244898,
+      "grad_norm": 0.15487568080425262,
+      "learning_rate": 1e-06,
+      "loss": -0.0827,
+      "num_tokens": 650876701.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.13929352164268494,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1077
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3924.0,
+      "completions/mean_length": 1101.8092041015625,
+      "completions/mean_terminated_length": 687.11181640625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 10.07463556851312,
+      "grad_norm": 0.1741434931755066,
+      "learning_rate": 1e-06,
+      "loss": -0.0699,
+      "num_tokens": 651504938.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.1892682909965515,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1078
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3902.0,
+      "completions/mean_length": 1098.8013916015625,
+      "completions/mean_terminated_length": 653.0641479492188,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 10.08396501457726,
+      "grad_norm": 0.16074298322200775,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 652117112.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.1419203132390976,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1079
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 1060.25,
+      "completions/mean_terminated_length": 674.5761108398438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.093294460641399,
+      "grad_norm": 0.14189216494560242,
+      "learning_rate": 1e-06,
+      "loss": -0.0527,
+      "num_tokens": 652755272.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1442515105009079,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1080
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3082.0,
+      "completions/mean_length": 1005.5178833007812,
+      "completions/mean_terminated_length": 630.3279418945312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 10.102623906705539,
+      "grad_norm": 0.1739742010831833,
+      "learning_rate": 1e-06,
+      "loss": -0.0383,
+      "num_tokens": 653351568.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.16825789213180542,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1081
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2823.0,
+      "completions/mean_length": 970.3683471679688,
+      "completions/mean_terminated_length": 621.3523559570312,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 10.11195335276968,
+      "grad_norm": 0.17674899101257324,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 653947650.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.1453045904636383,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1082
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4061.0,
+      "completions/mean_length": 953.341552734375,
+      "completions/mean_terminated_length": 649.46142578125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 10.12128279883382,
+      "grad_norm": 0.1479760855436325,
+      "learning_rate": 1e-06,
+      "loss": -0.0796,
+      "num_tokens": 654578276.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.1575152724981308,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1083
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2731.0,
+      "completions/mean_length": 997.9944458007812,
+      "completions/mean_terminated_length": 677.5110473632812,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.130612244897959,
+      "grad_norm": 0.16130521893501282,
+      "learning_rate": 1e-06,
+      "loss": -0.0391,
+      "num_tokens": 655222855.0,
+      "reward": 0.6194196939468384,
+      "reward_std": 0.13940368592739105,
+      "rewards/verify_math_reward/mean": 0.6194196343421936,
+      "rewards/verify_math_reward/std": 0.48580074310302734,
+      "step": 1084
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3313.0,
+      "completions/mean_length": 1030.5067138671875,
+      "completions/mean_terminated_length": 671.20947265625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 10.139941690962099,
+      "grad_norm": 0.1279752552509308,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 655844813.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.11858651787042618,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1085
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3103.0,
+      "completions/mean_length": 853.3850708007812,
+      "completions/mean_terminated_length": 561.4708251953125,
+      "completions/min_length": 113.0,
+      "completions/min_terminated_length": 113.0,
+      "epoch": 10.14927113702624,
+      "grad_norm": 0.15580108761787415,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 656389894.0,
+      "reward": 0.7868303656578064,
+      "reward_std": 0.1168951541185379,
+      "rewards/verify_math_reward/mean": 0.7868303656578064,
+      "rewards/verify_math_reward/std": 0.4097752273082733,
+      "step": 1086
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4050.0,
+      "completions/mean_length": 998.2511596679688,
+      "completions/mean_terminated_length": 626.521240234375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 10.15860058309038,
+      "grad_norm": 0.1457132250070572,
+      "learning_rate": 1e-06,
+      "loss": -0.0328,
+      "num_tokens": 656986199.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.11753595620393753,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1087
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3383.0,
+      "completions/mean_length": 1092.73779296875,
+      "completions/mean_terminated_length": 681.1231079101562,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 10.167930029154519,
+      "grad_norm": 0.1617908775806427,
+      "learning_rate": 1e-06,
+      "loss": -0.0176,
+      "num_tokens": 657607948.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.1563466638326645,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1088
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3949.0,
+      "completions/mean_length": 1112.1976318359375,
+      "completions/mean_terminated_length": 711.8392333984375,
+      "completions/min_length": 202.0,
+      "completions/min_terminated_length": 202.0,
+      "epoch": 10.177259475218658,
+      "grad_norm": 0.13057444989681244,
+      "learning_rate": 1e-06,
+      "loss": -0.0431,
+      "num_tokens": 658261861.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.12099438905715942,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1089
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 883.5803833007812,
+      "completions/mean_terminated_length": 602.8834838867188,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 10.186588921282798,
+      "grad_norm": 0.1505209058523178,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 658844061.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.1307237595319748,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1090
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3926.0,
+      "completions/mean_length": 880.7667846679688,
+      "completions/mean_terminated_length": 582.76953125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 10.19591836734694,
+      "grad_norm": 0.19235415756702423,
+      "learning_rate": 1e-06,
+      "loss": -0.0418,
+      "num_tokens": 659406084.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.17243380844593048,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1091
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3177.0,
+      "completions/mean_length": 1098.2388916015625,
+      "completions/mean_terminated_length": 678.704833984375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 10.205247813411079,
+      "grad_norm": 0.18200965225696564,
+      "learning_rate": 1e-06,
+      "loss": -0.042,
+      "num_tokens": 660031442.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.16570918262004852,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 1092
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4075.0,
+      "completions/mean_length": 953.6082763671875,
+      "completions/mean_terminated_length": 662.3621826171875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 10.214577259475218,
+      "grad_norm": 0.14221099019050598,
+      "learning_rate": 1e-06,
+      "loss": -0.0294,
+      "num_tokens": 660657771.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.12820754945278168,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1093
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 1083.5357666015625,
+      "completions/mean_terminated_length": 670.659912109375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 10.223906705539358,
+      "grad_norm": 0.1637217104434967,
+      "learning_rate": 1e-06,
+      "loss": -0.0621,
+      "num_tokens": 661282835.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1703290492296219,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1094
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3873.0,
+      "completions/mean_length": 975.1763916015625,
+      "completions/mean_terminated_length": 643.8296508789062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 10.2332361516035,
+      "grad_norm": 0.15690085291862488,
+      "learning_rate": 1e-06,
+      "loss": -0.0163,
+      "num_tokens": 661888313.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.11422768235206604,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1095
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3734.0,
+      "completions/mean_length": 1146.0045166015625,
+      "completions/mean_terminated_length": 672.1709594726562,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 10.242565597667639,
+      "grad_norm": 0.16998103260993958,
+      "learning_rate": 1e-06,
+      "loss": -0.0812,
+      "num_tokens": 662497989.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.17367054522037506,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179925441741943,
+      "step": 1096
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3975.0,
+      "completions/mean_length": 959.1763916015625,
+      "completions/mean_terminated_length": 613.2317504882812,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.251895043731778,
+      "grad_norm": 0.13692548871040344,
+      "learning_rate": 1e-06,
+      "loss": -0.0656,
+      "num_tokens": 663079347.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.12956301867961884,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1097
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3943.0,
+      "completions/mean_length": 1013.2467041015625,
+      "completions/mean_terminated_length": 643.3162231445312,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 10.261224489795918,
+      "grad_norm": 0.15446586906909943,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 663680168.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.13606150448322296,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1098
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2962.0,
+      "completions/mean_length": 1048.00341796875,
+      "completions/mean_terminated_length": 594.7115478515625,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 10.270553935860057,
+      "grad_norm": 0.18502353131771088,
+      "learning_rate": 1e-06,
+      "loss": -0.0665,
+      "num_tokens": 664237363.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.15774603188037872,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1099
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3784.0,
+      "completions/mean_length": 927.7410888671875,
+      "completions/mean_terminated_length": 625.63330078125,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 10.279883381924199,
+      "grad_norm": 0.1612381637096405,
+      "learning_rate": 1e-06,
+      "loss": -0.0258,
+      "num_tokens": 664850587.0,
+      "reward": 0.629464328289032,
+      "reward_std": 0.1337621510028839,
+      "rewards/verify_math_reward/mean": 0.6294642686843872,
+      "rewards/verify_math_reward/std": 0.4832179844379425,
+      "step": 1100
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2885.0,
+      "completions/mean_length": 839.0971069335938,
+      "completions/mean_terminated_length": 605.3480834960938,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 10.289212827988338,
+      "grad_norm": 0.16346973180770874,
+      "learning_rate": 1e-06,
+      "loss": -0.0166,
+      "num_tokens": 665446594.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.1456729769706726,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1101
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3736.0,
+      "completions/mean_length": 987.5178833007812,
+      "completions/mean_terminated_length": 665.9507446289062,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.298542274052478,
+      "grad_norm": 0.15040259063243866,
+      "learning_rate": 1e-06,
+      "loss": -0.0392,
+      "num_tokens": 666079994.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.15139050781726837,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1102
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4059.0,
+      "completions/mean_length": 1012.4464721679688,
+      "completions/mean_terminated_length": 646.7315673828125,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 10.307871720116617,
+      "grad_norm": 0.14104214310646057,
+      "learning_rate": 1e-06,
+      "loss": -0.0287,
+      "num_tokens": 666691042.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12474842369556427,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1103
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3559.0,
+      "completions/mean_length": 1050.540283203125,
+      "completions/mean_terminated_length": 680.8160400390625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.317201166180759,
+      "grad_norm": 0.1439608782529831,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 667319358.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.10746845602989197,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1104
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3646.0,
+      "completions/mean_length": 957.76123046875,
+      "completions/mean_terminated_length": 645.862548828125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 10.326530612244898,
+      "grad_norm": 0.16249814629554749,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 667930424.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1633773297071457,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1105
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3228.0,
+      "completions/mean_length": 978.1038208007812,
+      "completions/mean_terminated_length": 655.5628051757812,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 10.335860058309038,
+      "grad_norm": 0.15066829323768616,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 668547517.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.14267031848430634,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1106
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2457.0,
+      "completions/mean_length": 797.7600708007812,
+      "completions/mean_terminated_length": 582.0606079101562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 10.345189504373177,
+      "grad_norm": 0.16265735030174255,
+      "learning_rate": 1e-06,
+      "loss": -0.0243,
+      "num_tokens": 669123614.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.12061669677495956,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422141790390015,
+      "step": 1107
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3145.0,
+      "completions/mean_length": 952.9285888671875,
+      "completions/mean_terminated_length": 610.6138305664062,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 10.354518950437317,
+      "grad_norm": 0.17049048840999603,
+      "learning_rate": 1e-06,
+      "loss": -0.066,
+      "num_tokens": 669700902.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1596214473247528,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1108
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0591517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2682.0,
+      "completions/mean_length": 796.6920166015625,
+      "completions/mean_terminated_length": 589.2621459960938,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 10.363848396501458,
+      "grad_norm": 0.13095861673355103,
+      "learning_rate": 1e-06,
+      "loss": -0.0308,
+      "num_tokens": 670285042.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.11294566094875336,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829095363616943,
+      "step": 1109
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 1026.9832763671875,
+      "completions/mean_terminated_length": 645.7628784179688,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 10.373177842565598,
+      "grad_norm": 0.14463892579078674,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 670884811.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.1314416527748108,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1110
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3369.0,
+      "completions/mean_length": 994.3147583007812,
+      "completions/mean_terminated_length": 630.7755737304688,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 10.382507288629737,
+      "grad_norm": 0.15866541862487793,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 671464445.0,
+      "reward": 0.65625,
+      "reward_std": 0.14447720348834991,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1111
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3549.0,
+      "completions/mean_length": 892.4141235351562,
+      "completions/mean_terminated_length": 608.2564086914062,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 10.391836734693877,
+      "grad_norm": 0.14958196878433228,
+      "learning_rate": 1e-06,
+      "loss": -0.0344,
+      "num_tokens": 672050560.0,
+      "reward": 0.754464328289032,
+      "reward_std": 0.12921854853630066,
+      "rewards/verify_math_reward/mean": 0.7544642686843872,
+      "rewards/verify_math_reward/std": 0.43064478039741516,
+      "step": 1112
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3337.0,
+      "completions/mean_length": 1150.2310791015625,
+      "completions/mean_terminated_length": 672.6420288085938,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 10.401166180758018,
+      "grad_norm": 0.14654992520809174,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 672668919.0,
+      "reward": 0.6104910969734192,
+      "reward_std": 0.12042984366416931,
+      "rewards/verify_math_reward/mean": 0.6104910969734192,
+      "rewards/verify_math_reward/std": 0.48791125416755676,
+      "step": 1113
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3357.0,
+      "completions/mean_length": 876.6116333007812,
+      "completions/mean_terminated_length": 612.2174072265625,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 10.410495626822158,
+      "grad_norm": 0.12034684419631958,
+      "learning_rate": 1e-06,
+      "loss": -0.0504,
+      "num_tokens": 673270203.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.11126275360584259,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1114
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3316.0,
+      "completions/mean_length": 1035.78125,
+      "completions/mean_terminated_length": 611.93896484375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 10.419825072886297,
+      "grad_norm": 0.1664595603942871,
+      "learning_rate": 1e-06,
+      "loss": -0.0763,
+      "num_tokens": 673831095.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.1554897278547287,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1115
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3208.0,
+      "completions/mean_length": 1114.919677734375,
+      "completions/mean_terminated_length": 631.605712890625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 10.429154518950437,
+      "grad_norm": 0.17589278519153595,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 674410319.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16345034539699554,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 1116
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3903.0,
+      "completions/mean_length": 810.6975708007812,
+      "completions/mean_terminated_length": 649.125244140625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 10.438483965014576,
+      "grad_norm": 0.1613699197769165,
+      "learning_rate": 1e-06,
+      "loss": -0.0254,
+      "num_tokens": 675044560.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.16243509948253632,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1117
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3036.0,
+      "completions/mean_length": 990.950927734375,
+      "completions/mean_terminated_length": 652.7772216796875,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.447813411078718,
+      "grad_norm": 0.15767882764339447,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 675663276.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.15511175990104675,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1118
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2819.0,
+      "completions/mean_length": 1018.247802734375,
+      "completions/mean_terminated_length": 657.5137329101562,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.457142857142857,
+      "grad_norm": 0.15579132735729218,
+      "learning_rate": 1e-06,
+      "loss": -0.025,
+      "num_tokens": 676283754.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.13391369581222534,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 1119
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2636.0,
+      "completions/mean_length": 1041.25,
+      "completions/mean_terminated_length": 613.740478515625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 10.466472303206997,
+      "grad_norm": 0.1636897474527359,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 676857530.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.14211323857307434,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1120
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3175.0,
+      "completions/mean_length": 935.755615234375,
+      "completions/mean_terminated_length": 638.6386108398438,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 10.475801749271136,
+      "grad_norm": 0.1545189917087555,
+      "learning_rate": 1e-06,
+      "loss": -0.0561,
+      "num_tokens": 677471551.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1334686130285263,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1121
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2984.0,
+      "completions/mean_length": 996.8370971679688,
+      "completions/mean_terminated_length": 576.5449829101562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 10.485131195335278,
+      "grad_norm": 0.18272235989570618,
+      "learning_rate": 1e-06,
+      "loss": -0.0657,
+      "num_tokens": 678007077.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.14128093421459198,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1122
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3729.0,
+      "completions/mean_length": 966.0848388671875,
+      "completions/mean_terminated_length": 650.7862548828125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.494460641399417,
+      "grad_norm": 0.15357354283332825,
+      "learning_rate": 1e-06,
+      "loss": -0.0641,
+      "num_tokens": 678620913.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.14135509729385376,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1123
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3157.0,
+      "completions/mean_length": 894.8438110351562,
+      "completions/mean_terminated_length": 615.131103515625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 10.503790087463557,
+      "grad_norm": 0.15871113538742065,
+      "learning_rate": 1e-06,
+      "loss": -0.0329,
+      "num_tokens": 679213685.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.13241735100746155,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1124
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3650.0,
+      "completions/mean_length": 850.6417846679688,
+      "completions/mean_terminated_length": 588.3510131835938,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 10.513119533527696,
+      "grad_norm": 0.15624141693115234,
+      "learning_rate": 1e-06,
+      "loss": -0.0363,
+      "num_tokens": 679781652.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.13200436532497406,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1125
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2380.0,
+      "completions/mean_length": 929.8739013671875,
+      "completions/mean_terminated_length": 563.186767578125,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 10.522448979591836,
+      "grad_norm": 0.1677175760269165,
+      "learning_rate": 1e-06,
+      "loss": -0.0369,
+      "num_tokens": 680339675.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1344464272260666,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613664388656616,
+      "step": 1126
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2253.0,
+      "completions/mean_length": 871.9241333007812,
+      "completions/mean_terminated_length": 551.4944458007812,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 10.531778425655977,
+      "grad_norm": 0.178900808095932,
+      "learning_rate": 1e-06,
+      "loss": -0.023,
+      "num_tokens": 680880983.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.13984806835651398,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1127
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2851.0,
+      "completions/mean_length": 933.958740234375,
+      "completions/mean_terminated_length": 567.7446899414062,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 10.541107871720117,
+      "grad_norm": 0.1565646529197693,
+      "learning_rate": 1e-06,
+      "loss": -0.0333,
+      "num_tokens": 681438370.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.10942055284976959,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.4651124179363251,
+      "step": 1128
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2629.0,
+      "completions/mean_length": 890.15185546875,
+      "completions/mean_terminated_length": 588.7472534179688,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.550437317784256,
+      "grad_norm": 0.15974071621894836,
+      "learning_rate": 1e-06,
+      "loss": -0.0306,
+      "num_tokens": 682009338.0,
+      "reward": 0.65625,
+      "reward_std": 0.13673411309719086,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1129
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2735.0,
+      "completions/mean_length": 946.3326416015625,
+      "completions/mean_terminated_length": 611.9234619140625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 10.559766763848396,
+      "grad_norm": 0.1527777463197708,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 682591908.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.14594466984272003,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1130
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2332.0,
+      "completions/mean_length": 839.0949096679688,
+      "completions/mean_terminated_length": 592.7742919921875,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 10.569096209912537,
+      "grad_norm": 0.16545908153057098,
+      "learning_rate": 1e-06,
+      "loss": -0.0187,
+      "num_tokens": 683166153.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.12828493118286133,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1131
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1529017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2772.0,
+      "completions/mean_length": 1189.87060546875,
+      "completions/mean_terminated_length": 665.312255859375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.578425655976677,
+      "grad_norm": 0.16721579432487488,
+      "learning_rate": 1e-06,
+      "loss": -0.0883,
+      "num_tokens": 683764973.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.15875522792339325,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1132
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3871.0,
+      "completions/mean_length": 857.3750610351562,
+      "completions/mean_terminated_length": 624.9378051757812,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 10.587755102040816,
+      "grad_norm": 0.14830856025218964,
+      "learning_rate": 1e-06,
+      "loss": -0.0194,
+      "num_tokens": 684386341.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.12651759386062622,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1133
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3153.0,
+      "completions/mean_length": 1000.8516235351562,
+      "completions/mean_terminated_length": 650.9652099609375,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 10.597084548104956,
+      "grad_norm": 0.15503476560115814,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 685000200.0,
+      "reward": 0.6328125,
+      "reward_std": 0.14075776934623718,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1134
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3690.0,
+      "completions/mean_length": 888.6585083007812,
+      "completions/mean_terminated_length": 578.5238647460938,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.606413994169095,
+      "grad_norm": 0.17902444303035736,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 685558062.0,
+      "reward": 0.7377232313156128,
+      "reward_std": 0.15229134261608124,
+      "rewards/verify_math_reward/mean": 0.7377232313156128,
+      "rewards/verify_math_reward/std": 0.4401180148124695,
+      "step": 1135
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2762.0,
+      "completions/mean_length": 934.3817138671875,
+      "completions/mean_terminated_length": 576.9813842773438,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 10.615743440233237,
+      "grad_norm": 0.16346406936645508,
+      "learning_rate": 1e-06,
+      "loss": -0.0851,
+      "num_tokens": 686110260.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.147819384932518,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1136
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2515.0,
+      "completions/mean_length": 1025.3092041015625,
+      "completions/mean_terminated_length": 591.1095581054688,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 10.625072886297376,
+      "grad_norm": 0.2029131054878235,
+      "learning_rate": 1e-06,
+      "loss": -0.0639,
+      "num_tokens": 686671081.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.16875603795051575,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1137
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 893.138427734375,
+      "completions/mean_terminated_length": 609.0449829101562,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 10.634402332361516,
+      "grad_norm": 0.14421267807483673,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 687264261.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.11178633570671082,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1138
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2668.0,
+      "completions/mean_length": 917.5881958007812,
+      "completions/mean_terminated_length": 623.003662109375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 10.643731778425655,
+      "grad_norm": 0.151288241147995,
+      "learning_rate": 1e-06,
+      "loss": -0.0255,
+      "num_tokens": 687852260.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1359841227531433,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1139
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3071.0,
+      "completions/mean_length": 1052.0513916015625,
+      "completions/mean_terminated_length": 647.9873657226562,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 10.653061224489797,
+      "grad_norm": 0.162523090839386,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 688463394.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.13906781375408173,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1140
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4085.0,
+      "completions/mean_length": 1101.118408203125,
+      "completions/mean_terminated_length": 646.8817749023438,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.662390670553936,
+      "grad_norm": 0.17056100070476532,
+      "learning_rate": 1e-06,
+      "loss": -0.085,
+      "num_tokens": 689050604.0,
+      "reward": 0.65625,
+      "reward_std": 0.15037909150123596,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1141
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3051.0,
+      "completions/mean_length": 968.9676513671875,
+      "completions/mean_terminated_length": 628.3997192382812,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 10.671720116618076,
+      "grad_norm": 0.14288674294948578,
+      "learning_rate": 1e-06,
+      "loss": -0.0388,
+      "num_tokens": 689652943.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1219707801938057,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1142
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3984.0,
+      "completions/mean_length": 986.19873046875,
+      "completions/mean_terminated_length": 582.2774047851562,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 10.681049562682215,
+      "grad_norm": 0.17460224032402039,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 690213561.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.13147304952144623,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1143
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2849.0,
+      "completions/mean_length": 908.8605346679688,
+      "completions/mean_terminated_length": 617.7089233398438,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 10.690379008746355,
+      "grad_norm": 0.13765406608581543,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 690810356.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.12587566673755646,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2463.0,
+      "completions/mean_length": 953.1975708007812,
+      "completions/mean_terminated_length": 615.2200317382812,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 10.699708454810496,
+      "grad_norm": 0.16693969070911407,
+      "learning_rate": 1e-06,
+      "loss": -0.0839,
+      "num_tokens": 691397125.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1585690677165985,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1145
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3089.0,
+      "completions/mean_length": 942.4933471679688,
+      "completions/mean_terminated_length": 629.0772705078125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 10.709037900874636,
+      "grad_norm": 0.14636832475662231,
+      "learning_rate": 1e-06,
+      "loss": -0.0446,
+      "num_tokens": 691991519.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1571401208639145,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1146
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3242.0,
+      "completions/mean_length": 986.2254638671875,
+      "completions/mean_terminated_length": 621.7381591796875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 10.718367346938775,
+      "grad_norm": 0.13918933272361755,
+      "learning_rate": 1e-06,
+      "loss": -0.0368,
+      "num_tokens": 692579833.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.11283829063177109,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1147
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3907.0,
+      "completions/mean_length": 1017.70654296875,
+      "completions/mean_terminated_length": 630.9861450195312,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 10.727696793002915,
+      "grad_norm": 0.16253246366977692,
+      "learning_rate": 1e-06,
+      "loss": -0.0393,
+      "num_tokens": 693167786.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14210325479507446,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1148
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4062.0,
+      "completions/mean_length": 930.05029296875,
+      "completions/mean_terminated_length": 632.3968505859375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 10.737026239067056,
+      "grad_norm": 0.15924592316150665,
+      "learning_rate": 1e-06,
+      "loss": -0.0704,
+      "num_tokens": 693771247.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.14770174026489258,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1149
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3442.0,
+      "completions/mean_length": 1046.6507568359375,
+      "completions/mean_terminated_length": 646.2310791015625,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 10.746355685131196,
+      "grad_norm": 0.15888065099716187,
+      "learning_rate": 1e-06,
+      "loss": -0.0646,
+      "num_tokens": 694374342.0,
+      "reward": 0.6272321939468384,
+      "reward_std": 0.17344370484352112,
+      "rewards/verify_math_reward/mean": 0.6272321343421936,
+      "rewards/verify_math_reward/std": 0.4838111698627472,
+      "step": 1150
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4019.0,
+      "completions/mean_length": 972.58935546875,
+      "completions/mean_terminated_length": 636.6971435546875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 10.755685131195335,
+      "grad_norm": 0.15894484519958496,
+      "learning_rate": 1e-06,
+      "loss": -0.0379,
+      "num_tokens": 694979950.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.145303875207901,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 1151
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3627.0,
+      "completions/mean_length": 1081.4676513671875,
+      "completions/mean_terminated_length": 633.152587890625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 10.765014577259475,
+      "grad_norm": 0.15034615993499756,
+      "learning_rate": 1e-06,
+      "loss": -0.0684,
+      "num_tokens": 695567729.0,
+      "reward": 0.6305803656578064,
+      "reward_std": 0.14722095429897308,
+      "rewards/verify_math_reward/mean": 0.6305803656578064,
+      "rewards/verify_math_reward/std": 0.4829172194004059,
+      "step": 1152
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3079.0,
+      "completions/mean_length": 952.6920166015625,
+      "completions/mean_terminated_length": 597.3614501953125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 10.774344023323614,
+      "grad_norm": 0.16728702187538147,
+      "learning_rate": 1e-06,
+      "loss": -0.0606,
+      "num_tokens": 696140021.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.14117074012756348,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1153
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3968.0,
+      "completions/mean_length": 980.482177734375,
+      "completions/mean_terminated_length": 623.9801025390625,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 10.783673469387756,
+      "grad_norm": 0.1673901528120041,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 696730101.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.15590018033981323,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1154
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3332.0,
+      "completions/mean_length": 954.3594360351562,
+      "completions/mean_terminated_length": 625.0875244140625,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.793002915451895,
+      "grad_norm": 0.15242673456668854,
+      "learning_rate": 1e-06,
+      "loss": -0.0408,
+      "num_tokens": 697324351.0,
+      "reward": 0.640625,
+      "reward_std": 0.15248385071754456,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 1155
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3945.0,
+      "completions/mean_length": 981.66748046875,
+      "completions/mean_terminated_length": 655.2576904296875,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 10.802332361516035,
+      "grad_norm": 0.15549147129058838,
+      "learning_rate": 1e-06,
+      "loss": -0.0546,
+      "num_tokens": 697946629.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.13659143447875977,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1156
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3469.0,
+      "completions/mean_length": 1054.188720703125,
+      "completions/mean_terminated_length": 615.204345703125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 10.811661807580174,
+      "grad_norm": 0.16542983055114746,
+      "learning_rate": 1e-06,
+      "loss": -0.0822,
+      "num_tokens": 698526854.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.15578323602676392,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1157
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 1057.3226318359375,
+      "completions/mean_terminated_length": 627.6497192382812,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 10.820991253644316,
+      "grad_norm": 0.17541861534118652,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 699109343.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15529470145702362,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1158
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4045.0,
+      "completions/mean_length": 781.0558471679688,
+      "completions/mean_terminated_length": 547.3858642578125,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 10.830320699708455,
+      "grad_norm": 0.1647026389837265,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 699652657.0,
+      "reward": 0.8024553656578064,
+      "reward_std": 0.10817524790763855,
+      "rewards/verify_math_reward/mean": 0.8024553656578064,
+      "rewards/verify_math_reward/std": 0.3983690142631531,
+      "step": 1159
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3876.0,
+      "completions/mean_length": 1030.8326416015625,
+      "completions/mean_terminated_length": 645.7612915039062,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 10.839650145772595,
+      "grad_norm": 0.1713884472846985,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 700260491.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1737472116947174,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1160
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3724.0,
+      "completions/mean_length": 873.5670166015625,
+      "completions/mean_terminated_length": 579.1912841796875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 10.848979591836734,
+      "grad_norm": 0.1826779991388321,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 700818055.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1509779393672943,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1161
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2199.0,
+      "completions/mean_length": 972.4453735351562,
+      "completions/mean_terminated_length": 619.3478393554688,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 10.858309037900874,
+      "grad_norm": 0.1627926379442215,
+      "learning_rate": 1e-06,
+      "loss": -0.0667,
+      "num_tokens": 701404254.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.16717414557933807,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1162
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 848.239990234375,
+      "completions/mean_terminated_length": 598.4122924804688,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 10.867638483965015,
+      "grad_norm": 0.17906469106674194,
+      "learning_rate": 1e-06,
+      "loss": -0.0337,
+      "num_tokens": 701991813.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.15097863972187042,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1163
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3925.0,
+      "completions/mean_length": 1101.38623046875,
+      "completions/mean_terminated_length": 669.2132568359375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 10.876967930029155,
+      "grad_norm": 0.17050032317638397,
+      "learning_rate": 1e-06,
+      "loss": -0.0427,
+      "num_tokens": 702598143.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.13147304952144623,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1164
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4083.0,
+      "completions/mean_length": 1037.6328125,
+      "completions/mean_terminated_length": 591.7838745117188,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 10.886297376093294,
+      "grad_norm": 0.1833752989768982,
+      "learning_rate": 1e-06,
+      "loss": -0.0762,
+      "num_tokens": 703146134.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.15315786004066467,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1165
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3746.0,
+      "completions/mean_length": 935.4386596679688,
+      "completions/mean_terminated_length": 608.4840087890625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 10.895626822157434,
+      "grad_norm": 0.15420681238174438,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 703728695.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.13523708283901215,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3185.0,
+      "completions/mean_length": 930.8795166015625,
+      "completions/mean_terminated_length": 624.8274536132812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 10.904956268221575,
+      "grad_norm": 0.1642269343137741,
+      "learning_rate": 1e-06,
+      "loss": -0.0509,
+      "num_tokens": 704327027.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.14661867916584015,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1167
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3135.0,
+      "completions/mean_length": 1023.3147583007812,
+      "completions/mean_terminated_length": 548.1572265625,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 10.914285714285715,
+      "grad_norm": 0.16227683424949646,
+      "learning_rate": 1e-06,
+      "loss": -0.0601,
+      "num_tokens": 704844149.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1000252291560173,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1168
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3465.0,
+      "completions/mean_length": 1114.774658203125,
+      "completions/mean_terminated_length": 740.2487182617188,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 10.923615160349854,
+      "grad_norm": 0.1442495584487915,
+      "learning_rate": 1e-06,
+      "loss": -0.0345,
+      "num_tokens": 705519483.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.13106118142604828,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 1169
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3631.0,
+      "completions/mean_length": 1007.4397583007812,
+      "completions/mean_terminated_length": 597.453857421875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 10.932944606413994,
+      "grad_norm": 0.18583931028842926,
+      "learning_rate": 1e-06,
+      "loss": -0.0617,
+      "num_tokens": 706083317.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.17540396749973297,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1170
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 1024.9910888671875,
+      "completions/mean_terminated_length": 639.1859130859375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 10.942274052478133,
+      "grad_norm": 0.15888862311840057,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 706688533.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.1430903524160385,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 1171
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3884.0,
+      "completions/mean_length": 1144.587158203125,
+      "completions/mean_terminated_length": 679.3772583007812,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 10.951603498542275,
+      "grad_norm": 0.1542436182498932,
+      "learning_rate": 1e-06,
+      "loss": -0.0807,
+      "num_tokens": 707304755.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.1274939775466919,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 1172
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3657.0,
+      "completions/mean_length": 1071.61279296875,
+      "completions/mean_terminated_length": 657.102783203125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 10.960932944606414,
+      "grad_norm": 0.1752346009016037,
+      "learning_rate": 1e-06,
+      "loss": -0.0667,
+      "num_tokens": 707904080.0,
+      "reward": 0.6473214626312256,
+      "reward_std": 0.17299720644950867,
+      "rewards/verify_math_reward/mean": 0.6473214030265808,
+      "rewards/verify_math_reward/std": 0.47807058691978455,
+      "step": 1173
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3129.0,
+      "completions/mean_length": 1063.5592041015625,
+      "completions/mean_terminated_length": 647.9454345703125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.970262390670554,
+      "grad_norm": 0.1515476256608963,
+      "learning_rate": 1e-06,
+      "loss": -0.0861,
+      "num_tokens": 708500077.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.15665017068386078,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 1174
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0580357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3753.0,
+      "completions/mean_length": 834.0636596679688,
+      "completions/mean_terminated_length": 633.0912475585938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 10.979591836734693,
+      "grad_norm": 0.1750250905752182,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 709127406.0,
+      "reward": 0.7555803656578064,
+      "reward_std": 0.1519550383090973,
+      "rewards/verify_math_reward/mean": 0.7555803656578064,
+      "rewards/verify_math_reward/std": 0.42998257279396057,
+      "step": 1175
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2986.0,
+      "completions/mean_length": 970.29248046875,
+      "completions/mean_terminated_length": 612.6243896484375,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 10.988921282798835,
+      "grad_norm": 0.17585763335227966,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 709709836.0,
+      "reward": 0.7287946939468384,
+      "reward_std": 0.16139131784439087,
+      "rewards/verify_math_reward/mean": 0.7287946343421936,
+      "rewards/verify_math_reward/std": 0.44483017921447754,
+      "step": 1176
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.10795454545454541,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2754.0,
+      "completions/mean_length": 1061.8011474609375,
+      "completions/mean_terminated_length": 694.6051025390625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 10.998250728862974,
+      "grad_norm": 0.15547995269298553,
+      "learning_rate": 1e-06,
+      "loss": -0.0263,
+      "num_tokens": 710339164.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.11501862853765488,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1177
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2581.0,
+      "completions/mean_length": 931.5067138671875,
+      "completions/mean_terminated_length": 659.1685180664062,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 11.00932944606414,
+      "grad_norm": 0.14872713387012482,
+      "learning_rate": 1e-06,
+      "loss": -0.06,
+      "num_tokens": 710976674.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.14740893244743347,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1178
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3588.0,
+      "completions/mean_length": 1179.7679443359375,
+      "completions/mean_terminated_length": 728.8040771484375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 11.018658892128279,
+      "grad_norm": 0.15998126566410065,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 711633698.0,
+      "reward": 0.609375,
+      "reward_std": 0.15597756206989288,
+      "rewards/verify_math_reward/mean": 0.609375,
+      "rewards/verify_math_reward/std": 0.48816296458244324,
+      "step": 1179
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2585.0,
+      "completions/mean_length": 1049.69091796875,
+      "completions/mean_terminated_length": 596.6500244140625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.02798833819242,
+      "grad_norm": 0.16757667064666748,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 712180453.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.16473238170146942,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1180
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3572.0,
+      "completions/mean_length": 1004.279052734375,
+      "completions/mean_terminated_length": 607.1057739257812,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.03731778425656,
+      "grad_norm": 0.16762277483940125,
+      "learning_rate": 1e-06,
+      "loss": -0.078,
+      "num_tokens": 712748647.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.15608635544776917,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1181
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3312.0,
+      "completions/mean_length": 938.44091796875,
+      "completions/mean_terminated_length": 649.9915161132812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 11.0466472303207,
+      "grad_norm": 0.15891775488853455,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 713368754.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.16032683849334717,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1182
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2878.0,
+      "completions/mean_length": 916.239990234375,
+      "completions/mean_terminated_length": 625.7625122070312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.055976676384839,
+      "grad_norm": 0.14600877463817596,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 713971889.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.11802128702402115,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1183
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3359.0,
+      "completions/mean_length": 1092.568115234375,
+      "completions/mean_terminated_length": 645.9038696289062,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 11.06530612244898,
+      "grad_norm": 0.14944584667682648,
+      "learning_rate": 1e-06,
+      "loss": -0.0381,
+      "num_tokens": 714571630.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.1328292340040207,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1184
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3289.0,
+      "completions/mean_length": 1031.2054443359375,
+      "completions/mean_terminated_length": 624.3742065429688,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.07463556851312,
+      "grad_norm": 0.17703565955162048,
+      "learning_rate": 1e-06,
+      "loss": -0.0934,
+      "num_tokens": 715155062.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1618363857269287,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1185
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1607142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4005.0,
+      "completions/mean_length": 1179.536865234375,
+      "completions/mean_terminated_length": 621.0651245117188,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 11.08396501457726,
+      "grad_norm": 0.19329240918159485,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 715717031.0,
+      "reward": 0.6026785969734192,
+      "reward_std": 0.17566610872745514,
+      "rewards/verify_math_reward/mean": 0.6026785969734192,
+      "rewards/verify_math_reward/std": 0.48961687088012695,
+      "step": 1186
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2515.0,
+      "completions/mean_length": 973.349365234375,
+      "completions/mean_terminated_length": 576.6351928710938,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 11.093294460641399,
+      "grad_norm": 0.17535319924354553,
+      "learning_rate": 1e-06,
+      "loss": -0.0776,
+      "num_tokens": 716268528.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.15649932622909546,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1187
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3204.0,
+      "completions/mean_length": 998.8359985351562,
+      "completions/mean_terminated_length": 635.8267211914062,
+      "completions/min_length": 126.0,
+      "completions/min_terminated_length": 126.0,
+      "epoch": 11.102623906705539,
+      "grad_norm": 0.1688397377729416,
+      "learning_rate": 1e-06,
+      "loss": -0.0825,
+      "num_tokens": 716878469.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.16555652022361755,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1188
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3219.0,
+      "completions/mean_length": 956.2332763671875,
+      "completions/mean_terminated_length": 557.3446655273438,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 11.11195335276968,
+      "grad_norm": 0.16133227944374084,
+      "learning_rate": 1e-06,
+      "loss": -0.0653,
+      "num_tokens": 717396902.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.13421748578548431,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1189
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1495535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3606.0,
+      "completions/mean_length": 1134.30810546875,
+      "completions/mean_terminated_length": 613.4855346679688,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 11.12128279883382,
+      "grad_norm": 0.15135248005390167,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 717959154.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.11693934351205826,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1190
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3105.0,
+      "completions/mean_length": 926.7467041015625,
+      "completions/mean_terminated_length": 568.4832153320312,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.130612244897959,
+      "grad_norm": 0.13976995646953583,
+      "learning_rate": 1e-06,
+      "loss": -0.0198,
+      "num_tokens": 718493855.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.09394001215696335,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1191
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2716.0,
+      "completions/mean_length": 1129.1953125,
+      "completions/mean_terminated_length": 670.4110717773438,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 11.139941690962099,
+      "grad_norm": 0.18943127989768982,
+      "learning_rate": 1e-06,
+      "loss": -0.052,
+      "num_tokens": 719117126.0,
+      "reward": 0.5680803656578064,
+      "reward_std": 0.15352554619312286,
+      "rewards/verify_math_reward/mean": 0.5680803656578064,
+      "rewards/verify_math_reward/std": 0.4956200420856476,
+      "step": 1192
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3081.0,
+      "completions/mean_length": 995.0457763671875,
+      "completions/mean_terminated_length": 622.9312133789062,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 11.14927113702624,
+      "grad_norm": 0.16766230762004852,
+      "learning_rate": 1e-06,
+      "loss": -0.058,
+      "num_tokens": 719699495.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.131475567817688,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3329.0,
+      "completions/mean_length": 1019.068115234375,
+      "completions/mean_terminated_length": 588.4542236328125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 11.15860058309038,
+      "grad_norm": 0.15402153134346008,
+      "learning_rate": 1e-06,
+      "loss": -0.0701,
+      "num_tokens": 720246516.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.12061528861522675,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1194
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2794.0,
+      "completions/mean_length": 956.50341796875,
+      "completions/mean_terminated_length": 584.153564453125,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 11.167930029154519,
+      "grad_norm": 0.1751590371131897,
+      "learning_rate": 1e-06,
+      "loss": -0.061,
+      "num_tokens": 720816391.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.12651829421520233,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3932.0,
+      "completions/mean_length": 1132.688720703125,
+      "completions/mean_terminated_length": 625.2457885742188,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.177259475218658,
+      "grad_norm": 0.1672411561012268,
+      "learning_rate": 1e-06,
+      "loss": -0.0657,
+      "num_tokens": 721373448.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.13978277146816254,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1196
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2343.0,
+      "completions/mean_length": 854.2176513671875,
+      "completions/mean_terminated_length": 562.3783569335938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.186588921282798,
+      "grad_norm": 0.16484569013118744,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 721922379.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1349353790283203,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1197
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2601.0,
+      "completions/mean_length": 920.3694458007812,
+      "completions/mean_terminated_length": 630.2692260742188,
+      "completions/min_length": 91.0,
+      "completions/min_terminated_length": 91.0,
+      "epoch": 11.19591836734694,
+      "grad_norm": 0.1329880952835083,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 722524246.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.09739913791418076,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960144996643,
+      "step": 1198
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3234.0,
+      "completions/mean_length": 1060.9710693359375,
+      "completions/mean_terminated_length": 600.645263671875,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.205247813411079,
+      "grad_norm": 0.13303211331367493,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 723087260.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.1017170175909996,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1199
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 889.958740234375,
+      "completions/mean_terminated_length": 622.465576171875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 11.214577259475218,
+      "grad_norm": 0.15574702620506287,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 723697247.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.1455221176147461,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3817.0,
+      "completions/mean_length": 968.8125610351562,
+      "completions/mean_terminated_length": 645.3103637695312,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 11.223906705539358,
+      "grad_norm": 0.15969006717205048,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 724303935.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.14222271740436554,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1201
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3110.0,
+      "completions/mean_length": 931.5781860351562,
+      "completions/mean_terminated_length": 659.24609375,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.2332361516035,
+      "grad_norm": 0.13475307822227478,
+      "learning_rate": 1e-06,
+      "loss": -0.0289,
+      "num_tokens": 724934901.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1170462816953659,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3203.0,
+      "completions/mean_length": 887.38623046875,
+      "completions/mean_terminated_length": 568.4932250976562,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.242565597667639,
+      "grad_norm": 0.1430935561656952,
+      "learning_rate": 1e-06,
+      "loss": -0.049,
+      "num_tokens": 725484655.0,
+      "reward": 0.7533482313156128,
+      "reward_std": 0.12437751144170761,
+      "rewards/verify_math_reward/mean": 0.7533482313156128,
+      "rewards/verify_math_reward/std": 0.4313030242919922,
+      "step": 1203
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2292.0,
+      "completions/mean_length": 889.6506958007812,
+      "completions/mean_terminated_length": 583.9107666015625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.251895043731778,
+      "grad_norm": 0.14268061518669128,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 726055446.0,
+      "reward": 0.7533482313156128,
+      "reward_std": 0.11426863074302673,
+      "rewards/verify_math_reward/mean": 0.7533482313156128,
+      "rewards/verify_math_reward/std": 0.4313030242919922,
+      "step": 1204
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4043.0,
+      "completions/mean_length": 1027.79248046875,
+      "completions/mean_terminated_length": 655.306640625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.261224489795918,
+      "grad_norm": 0.1561819463968277,
+      "learning_rate": 1e-06,
+      "loss": -0.0264,
+      "num_tokens": 726688596.0,
+      "reward": 0.5970982313156128,
+      "reward_std": 0.13203644752502441,
+      "rewards/verify_math_reward/mean": 0.5970982313156128,
+      "rewards/verify_math_reward/std": 0.49075525999069214,
+      "step": 1205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3806.0,
+      "completions/mean_length": 846.3739013671875,
+      "completions/mean_terminated_length": 545.1890258789062,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.270553935860057,
+      "grad_norm": 0.16859789192676544,
+      "learning_rate": 1e-06,
+      "loss": -0.0397,
+      "num_tokens": 727226587.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.15555500984191895,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1206
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3603.0,
+      "completions/mean_length": 953.45654296875,
+      "completions/mean_terminated_length": 624.0900268554688,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 11.279883381924199,
+      "grad_norm": 0.15560832619667053,
+      "learning_rate": 1e-06,
+      "loss": -0.0803,
+      "num_tokens": 727818852.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16096875071525574,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1207
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3903.0,
+      "completions/mean_length": 905.1785888671875,
+      "completions/mean_terminated_length": 588.053955078125,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 11.289212827988338,
+      "grad_norm": 0.12583661079406738,
+      "learning_rate": 1e-06,
+      "loss": -0.0533,
+      "num_tokens": 728391084.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.10908354818820953,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1208
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3655.0,
+      "completions/mean_length": 852.5167846679688,
+      "completions/mean_terminated_length": 590.3775634765625,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 11.298542274052478,
+      "grad_norm": 0.143217071890831,
+      "learning_rate": 1e-06,
+      "loss": -0.0369,
+      "num_tokens": 728968195.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.09841014444828033,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 1209
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2773.0,
+      "completions/mean_length": 844.8080444335938,
+      "completions/mean_terminated_length": 543.47802734375,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 11.307871720116617,
+      "grad_norm": 0.1402239054441452,
+      "learning_rate": 1e-06,
+      "loss": -0.0186,
+      "num_tokens": 729493103.0,
+      "reward": 0.7645089626312256,
+      "reward_std": 0.08067300915718079,
+      "rewards/verify_math_reward/mean": 0.7645089030265808,
+      "rewards/verify_math_reward/std": 0.42454230785369873,
+      "step": 1210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1696428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2438.0,
+      "completions/mean_length": 1224.149658203125,
+      "completions/mean_terminated_length": 637.4274291992188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 11.317201166180759,
+      "grad_norm": 0.18407954275608063,
+      "learning_rate": 1e-06,
+      "loss": -0.0679,
+      "num_tokens": 730067565.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.16558974981307983,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 1211
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2587.0,
+      "completions/mean_length": 948.5647583007812,
+      "completions/mean_terminated_length": 584.0422973632812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 11.326530612244898,
+      "grad_norm": 0.16666607558727264,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 730623055.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1431998312473297,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1212
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2293.0,
+      "completions/mean_length": 859.6886596679688,
+      "completions/mean_terminated_length": 572.6282348632812,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.335860058309038,
+      "grad_norm": 0.13089048862457275,
+      "learning_rate": 1e-06,
+      "loss": -0.0319,
+      "num_tokens": 731171656.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.09063425660133362,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1213
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2888.0,
+      "completions/mean_length": 965.044677734375,
+      "completions/mean_terminated_length": 584.941162109375,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 11.345189504373177,
+      "grad_norm": 0.1596495509147644,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 731727240.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.12381549179553986,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1214
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2284.0,
+      "completions/mean_length": 965.7310791015625,
+      "completions/mean_terminated_length": 629.1013793945312,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 11.354518950437317,
+      "grad_norm": 0.15813496708869934,
+      "learning_rate": 1e-06,
+      "loss": -0.0602,
+      "num_tokens": 732330639.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.15995915234088898,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2881.0,
+      "completions/mean_length": 1054.8504638671875,
+      "completions/mean_terminated_length": 624.8280639648438,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.363848396501458,
+      "grad_norm": 0.1552128940820694,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 732902953.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.12463965266942978,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1216
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3611.0,
+      "completions/mean_length": 1056.7388916015625,
+      "completions/mean_terminated_length": 595.7711791992188,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.373177842565598,
+      "grad_norm": 0.16231252253055573,
+      "learning_rate": 1e-06,
+      "loss": -0.0578,
+      "num_tokens": 733466711.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.13403314352035522,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2360.0,
+      "completions/mean_length": 917.9520263671875,
+      "completions/mean_terminated_length": 619.1611938476562,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.382507288629737,
+      "grad_norm": 0.16147896647453308,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 734068820.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.15331009030342102,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1218
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3944.0,
+      "completions/mean_length": 876.1652221679688,
+      "completions/mean_terminated_length": 569.139404296875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 11.391836734693877,
+      "grad_norm": 0.16741862893104553,
+      "learning_rate": 1e-06,
+      "loss": -0.0348,
+      "num_tokens": 734624400.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.14684370160102844,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1219
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3256.0,
+      "completions/mean_length": 930.39404296875,
+      "completions/mean_terminated_length": 607.2139892578125,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 11.401166180758018,
+      "grad_norm": 0.16763009130954742,
+      "learning_rate": 1e-06,
+      "loss": -0.0416,
+      "num_tokens": 735205969.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1680731475353241,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3747.0,
+      "completions/mean_length": 1020.7734985351562,
+      "completions/mean_terminated_length": 643.114013671875,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.410495626822158,
+      "grad_norm": 0.17864224314689636,
+      "learning_rate": 1e-06,
+      "loss": -0.0738,
+      "num_tokens": 735801574.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.16679365932941437,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 1221
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4084.0,
+      "completions/mean_length": 995.3013916015625,
+      "completions/mean_terminated_length": 627.5530395507812,
+      "completions/min_length": 106.0,
+      "completions/min_terminated_length": 106.0,
+      "epoch": 11.419825072886297,
+      "grad_norm": 0.1446545571088791,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 736391636.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.1317761391401291,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1222
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3702.0,
+      "completions/mean_length": 1016.5201416015625,
+      "completions/mean_terminated_length": 693.7632446289062,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 11.429154518950437,
+      "grad_norm": 0.1537589728832245,
+      "learning_rate": 1e-06,
+      "loss": -0.0133,
+      "num_tokens": 737034382.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.14556488394737244,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1223
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.060267857142857095,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2297.0,
+      "completions/mean_length": 764.3973388671875,
+      "completions/mean_terminated_length": 550.7316284179688,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 11.438483965014576,
+      "grad_norm": 0.16585788130760193,
+      "learning_rate": 1e-06,
+      "loss": -0.0678,
+      "num_tokens": 737582242.0,
+      "reward": 0.7500000596046448,
+      "reward_std": 0.13129010796546936,
+      "rewards/verify_math_reward/mean": 0.75,
+      "rewards/verify_math_reward/std": 0.43325456976890564,
+      "step": 1224
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2606.0,
+      "completions/mean_length": 1060.091552734375,
+      "completions/mean_terminated_length": 626.3903198242188,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 11.447813411078718,
+      "grad_norm": 0.1416480541229248,
+      "learning_rate": 1e-06,
+      "loss": -0.0454,
+      "num_tokens": 738165292.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.12287301570177078,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2388.0,
+      "completions/mean_length": 945.841552734375,
+      "completions/mean_terminated_length": 594.0868530273438,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.457142857142857,
+      "grad_norm": 0.15614363551139832,
+      "learning_rate": 1e-06,
+      "loss": -0.0448,
+      "num_tokens": 738720542.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.1535690277814865,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1226
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3001.0,
+      "completions/mean_length": 954.1797485351562,
+      "completions/mean_terminated_length": 577.1612548828125,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 11.466472303206997,
+      "grad_norm": 0.15307436883449554,
+      "learning_rate": 1e-06,
+      "loss": -0.0821,
+      "num_tokens": 739264279.0,
+      "reward": 0.6774553656578064,
+      "reward_std": 0.13560545444488525,
+      "rewards/verify_math_reward/mean": 0.6774553656578064,
+      "rewards/verify_math_reward/std": 0.4677111804485321,
+      "step": 1227
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2871.0,
+      "completions/mean_length": 996.4732666015625,
+      "completions/mean_terminated_length": 602.6968383789062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 11.475801749271136,
+      "grad_norm": 0.19294264912605286,
+      "learning_rate": 1e-06,
+      "loss": -0.0605,
+      "num_tokens": 739828023.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.1803184598684311,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1228
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 954.1886596679688,
+      "completions/mean_terminated_length": 559.4887084960938,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.485131195335278,
+      "grad_norm": 0.16445766389369965,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 740345448.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.1117110475897789,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931530952453613,
+      "step": 1229
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3309.0,
+      "completions/mean_length": 967.78466796875,
+      "completions/mean_terminated_length": 652.6572265625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 11.494460641399417,
+      "grad_norm": 0.18219566345214844,
+      "learning_rate": 1e-06,
+      "loss": -0.0739,
+      "num_tokens": 740968567.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.2081684023141861,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2991.0,
+      "completions/mean_length": 1003.1038208007812,
+      "completions/mean_terminated_length": 623.2744140625,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 11.503790087463557,
+      "grad_norm": 0.16143383085727692,
+      "learning_rate": 1e-06,
+      "loss": -0.0856,
+      "num_tokens": 741559204.0,
+      "reward": 0.6640625,
+      "reward_std": 0.16510257124900818,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1231
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0658482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3719.0,
+      "completions/mean_length": 841.4230346679688,
+      "completions/mean_terminated_length": 612.0083618164062,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 11.513119533527696,
+      "grad_norm": 0.17548957467079163,
+      "learning_rate": 1e-06,
+      "loss": -0.03,
+      "num_tokens": 742162751.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.15210728347301483,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1232
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3645.0,
+      "completions/mean_length": 876.7433471679688,
+      "completions/mean_terminated_length": 582.6577758789062,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 11.522448979591836,
+      "grad_norm": 0.13381995260715485,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 742723553.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.10588474571704865,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1233
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3214.0,
+      "completions/mean_length": 1078.0234375,
+      "completions/mean_terminated_length": 638.0626831054688,
+      "completions/min_length": 127.0,
+      "completions/min_terminated_length": 127.0,
+      "epoch": 11.531778425655977,
+      "grad_norm": 0.1594962626695633,
+      "learning_rate": 1e-06,
+      "loss": -0.084,
+      "num_tokens": 743313998.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.16273680329322815,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1234
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3345.0,
+      "completions/mean_length": 1116.313720703125,
+      "completions/mean_terminated_length": 628.7285766601562,
+      "completions/min_length": 95.0,
+      "completions/min_terminated_length": 95.0,
+      "epoch": 11.541107871720117,
+      "grad_norm": 0.16360148787498474,
+      "learning_rate": 1e-06,
+      "loss": -0.0512,
+      "num_tokens": 743886247.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14094392955303192,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3894.0,
+      "completions/mean_length": 1009.2042846679688,
+      "completions/mean_terminated_length": 625.775390625,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 11.550437317784256,
+      "grad_norm": 0.15397955477237701,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 744469222.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.12561605870723724,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1236
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3810.0,
+      "completions/mean_length": 1049.5179443359375,
+      "completions/mean_terminated_length": 649.4747314453125,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 11.559766763848396,
+      "grad_norm": 0.1630489081144333,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 745088654.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14199630916118622,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1237
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2357.0,
+      "completions/mean_length": 1058.3671875,
+      "completions/mean_terminated_length": 624.4196166992188,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 11.569096209912537,
+      "grad_norm": 0.16160880029201508,
+      "learning_rate": 1e-06,
+      "loss": -0.0542,
+      "num_tokens": 745666399.0,
+      "reward": 0.6640625,
+      "reward_std": 0.13632294535636902,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1238
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3503.0,
+      "completions/mean_length": 881.24560546875,
+      "completions/mean_terminated_length": 621.42822265625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 11.578425655976677,
+      "grad_norm": 0.17230761051177979,
+      "learning_rate": 1e-06,
+      "loss": -0.0292,
+      "num_tokens": 746269011.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.1424834430217743,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1239
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3984.0,
+      "completions/mean_length": 1062.9632568359375,
+      "completions/mean_terminated_length": 580.3453979492188,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.587755102040816,
+      "grad_norm": 0.14987659454345703,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 746811970.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.11103634536266327,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3377.0,
+      "completions/mean_length": 1102.1820068359375,
+      "completions/mean_terminated_length": 607.7542114257812,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.597084548104956,
+      "grad_norm": 0.19255205988883972,
+      "learning_rate": 1e-06,
+      "loss": -0.0559,
+      "num_tokens": 747384501.0,
+      "reward": 0.640625,
+      "reward_std": 0.14894802868366241,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 1241
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2733.0,
+      "completions/mean_length": 1017.060302734375,
+      "completions/mean_terminated_length": 638.9448852539062,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 11.606413994169095,
+      "grad_norm": 0.15114101767539978,
+      "learning_rate": 1e-06,
+      "loss": -0.0439,
+      "num_tokens": 747996859.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.1306827962398529,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1242
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3820.0,
+      "completions/mean_length": 975.1261596679688,
+      "completions/mean_terminated_length": 652.277099609375,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 11.615743440233237,
+      "grad_norm": 0.1555086225271225,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 748615068.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.11896629631519318,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1243
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2302.0,
+      "completions/mean_length": 916.6920166015625,
+      "completions/mean_terminated_length": 592.1131591796875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 11.625072886297376,
+      "grad_norm": 0.16252316534519196,
+      "learning_rate": 1e-06,
+      "loss": -0.0292,
+      "num_tokens": 749184664.0,
+      "reward": 0.7633928656578064,
+      "reward_std": 0.11840218305587769,
+      "rewards/verify_math_reward/mean": 0.7633928656578064,
+      "rewards/verify_math_reward/std": 0.42523646354675293,
+      "step": 1244
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3999.0,
+      "completions/mean_length": 986.1763916015625,
+      "completions/mean_terminated_length": 617.3458251953125,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 11.634402332361516,
+      "grad_norm": 0.16937656700611115,
+      "learning_rate": 1e-06,
+      "loss": -0.0467,
+      "num_tokens": 749766830.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1407584697008133,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3679.0,
+      "completions/mean_length": 999.9832763671875,
+      "completions/mean_terminated_length": 649.9987182617188,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.643731778425655,
+      "grad_norm": 0.1853286325931549,
+      "learning_rate": 1e-06,
+      "loss": -0.0448,
+      "num_tokens": 750378423.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.14022713899612427,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1246
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3245.0,
+      "completions/mean_length": 978.87841796875,
+      "completions/mean_terminated_length": 596.0739135742188,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 11.653061224489797,
+      "grad_norm": 0.17841339111328125,
+      "learning_rate": 1e-06,
+      "loss": -0.0713,
+      "num_tokens": 750943274.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1328292191028595,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1247
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2524.0,
+      "completions/mean_length": 1038.84375,
+      "completions/mean_terminated_length": 588.686279296875,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 11.662390670553936,
+      "grad_norm": 0.1635752022266388,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 751483150.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1323067545890808,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1248
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2604.0,
+      "completions/mean_length": 1083.110595703125,
+      "completions/mean_terminated_length": 612.7109985351562,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.671720116618076,
+      "grad_norm": 0.1981825828552246,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 752042585.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.16946211457252502,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1249
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3924.0,
+      "completions/mean_length": 1095.9085693359375,
+      "completions/mean_terminated_length": 614.0285034179688,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 11.681049562682215,
+      "grad_norm": 0.1804428994655609,
+      "learning_rate": 1e-06,
+      "loss": -0.069,
+      "num_tokens": 752608287.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.169614776968956,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.47942501306533813,
+      "step": 1250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3392.0,
+      "completions/mean_length": 1035.0257568359375,
+      "completions/mean_terminated_length": 689.00244140625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 11.690379008746355,
+      "grad_norm": 0.154035747051239,
+      "learning_rate": 1e-06,
+      "loss": -0.0376,
+      "num_tokens": 753254926.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.1656678169965744,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111421108246,
+      "step": 1251
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3401.0,
+      "completions/mean_length": 957.4051513671875,
+      "completions/mean_terminated_length": 589.5399169921875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 11.699708454810496,
+      "grad_norm": 0.16448703408241272,
+      "learning_rate": 1e-06,
+      "loss": -0.0755,
+      "num_tokens": 753824177.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.147146075963974,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1252
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3890.0,
+      "completions/mean_length": 1064.3582763671875,
+      "completions/mean_terminated_length": 644.4739379882812,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 11.709037900874636,
+      "grad_norm": 0.13975155353546143,
+      "learning_rate": 1e-06,
+      "loss": -0.0735,
+      "num_tokens": 754418306.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.11606848239898682,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1253
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3444.0,
+      "completions/mean_length": 1033.3851318359375,
+      "completions/mean_terminated_length": 586.9168701171875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.718367346938775,
+      "grad_norm": 0.19333618879318237,
+      "learning_rate": 1e-06,
+      "loss": -0.0667,
+      "num_tokens": 754966867.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.14692038297653198,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1254
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1473214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3599.0,
+      "completions/mean_length": 1159.64404296875,
+      "completions/mean_terminated_length": 652.3154296875,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 11.727696793002915,
+      "grad_norm": 0.17620694637298584,
+      "learning_rate": 1e-06,
+      "loss": -0.0839,
+      "num_tokens": 755560348.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.17574025690555573,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3360.0,
+      "completions/mean_length": 946.05029296875,
+      "completions/mean_terminated_length": 585.6082153320312,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 11.737026239067056,
+      "grad_norm": 0.18818381428718567,
+      "learning_rate": 1e-06,
+      "loss": -0.0637,
+      "num_tokens": 756123209.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.1242605671286583,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1256
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3126.0,
+      "completions/mean_length": 1015.9754638671875,
+      "completions/mean_terminated_length": 633.3876953125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 11.746355685131196,
+      "grad_norm": 0.14721885323524475,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 756718867.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.11843497306108475,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1257
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1685267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3276.0,
+      "completions/mean_length": 1170.4598388671875,
+      "completions/mean_terminated_length": 577.4979858398438,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 11.755685131195335,
+      "grad_norm": 0.19740772247314453,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 757244039.0,
+      "reward": 0.621651828289032,
+      "reward_std": 0.16713841259479523,
+      "rewards/verify_math_reward/mean": 0.6216517686843872,
+      "rewards/verify_math_reward/std": 0.4852459728717804,
+      "step": 1258
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3864.0,
+      "completions/mean_length": 1039.0592041015625,
+      "completions/mean_terminated_length": 615.6708984375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 11.765014577259475,
+      "grad_norm": 0.19369196891784668,
+      "learning_rate": 1e-06,
+      "loss": -0.0659,
+      "num_tokens": 757820004.0,
+      "reward": 0.6395089626312256,
+      "reward_std": 0.15939393639564514,
+      "rewards/verify_math_reward/mean": 0.6395089030265808,
+      "rewards/verify_math_reward/std": 0.4804111123085022,
+      "step": 1259
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2894.0,
+      "completions/mean_length": 878.6217041015625,
+      "completions/mean_terminated_length": 580.4255981445312,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 11.774344023323614,
+      "grad_norm": 0.15944312512874603,
+      "learning_rate": 1e-06,
+      "loss": -0.0507,
+      "num_tokens": 758380193.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.10814176499843597,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3996.0,
+      "completions/mean_length": 906.1016235351562,
+      "completions/mean_terminated_length": 532.2232055664062,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 11.783673469387756,
+      "grad_norm": 0.2016732543706894,
+      "learning_rate": 1e-06,
+      "loss": -0.1057,
+      "num_tokens": 758890092.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.12317540496587753,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1261
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2700.0,
+      "completions/mean_length": 1033.1484375,
+      "completions/mean_terminated_length": 541.1878051757812,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 11.793002915451895,
+      "grad_norm": 0.15855073928833008,
+      "learning_rate": 1e-06,
+      "loss": -0.0522,
+      "num_tokens": 759394193.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.12546269595623016,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1262
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2559.0,
+      "completions/mean_length": 1027.313720703125,
+      "completions/mean_terminated_length": 659.0712280273438,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 11.802332361516035,
+      "grad_norm": 0.14641793072223663,
+      "learning_rate": 1e-06,
+      "loss": -0.0418,
+      "num_tokens": 760007170.0,
+      "reward": 0.6618303656578064,
+      "reward_std": 0.12050792574882507,
+      "rewards/verify_math_reward/mean": 0.6618303656578064,
+      "rewards/verify_math_reward/std": 0.4733508229255676,
+      "step": 1263
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3289.0,
+      "completions/mean_length": 1008.8047485351562,
+      "completions/mean_terminated_length": 581.2261352539062,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 11.811661807580174,
+      "grad_norm": 0.17122164368629456,
+      "learning_rate": 1e-06,
+      "loss": -0.0828,
+      "num_tokens": 760551675.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.13139888644218445,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1264
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1517857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3143.0,
+      "completions/mean_length": 1137.3660888671875,
+      "completions/mean_terminated_length": 607.9263305664062,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 11.820991253644316,
+      "grad_norm": 0.2073400616645813,
+      "learning_rate": 1e-06,
+      "loss": -0.0876,
+      "num_tokens": 761102363.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.1649945080280304,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3564.0,
+      "completions/mean_length": 1010.6194458007812,
+      "completions/mean_terminated_length": 657.56591796875,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "epoch": 11.830320699708455,
+      "grad_norm": 0.16307416558265686,
+      "learning_rate": 1e-06,
+      "loss": -0.0667,
+      "num_tokens": 761714086.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.16969034075737,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1266
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3386.0,
+      "completions/mean_length": 1013.3605346679688,
+      "completions/mean_terminated_length": 590.8667602539062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 11.839650145772595,
+      "grad_norm": 0.17521661520004272,
+      "learning_rate": 1e-06,
+      "loss": -0.0439,
+      "num_tokens": 762272081.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.10295554995536804,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.46896928548812866,
+      "step": 1267
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2764.0,
+      "completions/mean_length": 996.5480346679688,
+      "completions/mean_terminated_length": 593.9710083007812,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 11.848979591836734,
+      "grad_norm": 0.16372117400169373,
+      "learning_rate": 1e-06,
+      "loss": -0.0537,
+      "num_tokens": 762846148.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14388129115104675,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1268
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3723.0,
+      "completions/mean_length": 862.4721069335938,
+      "completions/mean_terminated_length": 558.4652099609375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.858309037900874,
+      "grad_norm": 0.1823384314775467,
+      "learning_rate": 1e-06,
+      "loss": -0.035,
+      "num_tokens": 763391499.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.1446651816368103,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1269
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2362.0,
+      "completions/mean_length": 938.33154296875,
+      "completions/mean_terminated_length": 590.0880126953125,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 11.867638483965015,
+      "grad_norm": 0.18177086114883423,
+      "learning_rate": 1e-06,
+      "loss": -0.0448,
+      "num_tokens": 763959236.0,
+      "reward": 0.6640625,
+      "reward_std": 0.15526078641414642,
+      "rewards/verify_math_reward/mean": 0.6640625,
+      "rewards/verify_math_reward/std": 0.4725809693336487,
+      "step": 1270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2271.0,
+      "completions/mean_length": 895.81591796875,
+      "completions/mean_terminated_length": 547.2809448242188,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 11.876967930029155,
+      "grad_norm": 0.15784738957881927,
+      "learning_rate": 1e-06,
+      "loss": -0.0487,
+      "num_tokens": 764497839.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.1324947476387024,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1271
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4020.0,
+      "completions/mean_length": 975.2366333007812,
+      "completions/mean_terminated_length": 587.5884399414062,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 11.886297376093294,
+      "grad_norm": 0.16080334782600403,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 765061243.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.15747319161891937,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1272
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4092.0,
+      "completions/mean_length": 1047.294677734375,
+      "completions/mean_terminated_length": 616.203857421875,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 11.895626822157434,
+      "grad_norm": 0.1867516040802002,
+      "learning_rate": 1e-06,
+      "loss": -0.0609,
+      "num_tokens": 765633643.0,
+      "reward": 0.652901828289032,
+      "reward_std": 0.1632685512304306,
+      "rewards/verify_math_reward/mean": 0.6529017686843872,
+      "rewards/verify_math_reward/std": 0.47631317377090454,
+      "step": 1273
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2565.0,
+      "completions/mean_length": 992.4766235351562,
+      "completions/mean_terminated_length": 620.0537109375,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 11.904956268221575,
+      "grad_norm": 0.164963960647583,
+      "learning_rate": 1e-06,
+      "loss": -0.0633,
+      "num_tokens": 766219014.0,
+      "reward": 0.65625,
+      "reward_std": 0.13211244344711304,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1274
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2826.0,
+      "completions/mean_length": 1123.415283203125,
+      "completions/mean_terminated_length": 659.3084106445312,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 11.914285714285715,
+      "grad_norm": 0.1873733103275299,
+      "learning_rate": 1e-06,
+      "loss": -0.0489,
+      "num_tokens": 766821154.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.1466914415359497,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3558.0,
+      "completions/mean_length": 996.5592041015625,
+      "completions/mean_terminated_length": 585.1289672851562,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 11.923615160349854,
+      "grad_norm": 0.18284200131893158,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 767375671.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1528950184583664,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1276
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 976.0535888671875,
+      "completions/mean_terminated_length": 588.5068969726562,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 11.932944606413994,
+      "grad_norm": 0.18158194422721863,
+      "learning_rate": 1e-06,
+      "loss": -0.0634,
+      "num_tokens": 767935183.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.13203828036785126,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1277
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2264.0,
+      "completions/mean_length": 1147.37060546875,
+      "completions/mean_terminated_length": 624.2890625,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 11.942274052478133,
+      "grad_norm": 0.21804052591323853,
+      "learning_rate": 1e-06,
+      "loss": -0.0713,
+      "num_tokens": 768494283.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.15808303654193878,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 1278
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 983.9230346679688,
+      "completions/mean_terminated_length": 610.4737548828125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 11.951603498542275,
+      "grad_norm": 0.16081461310386658,
+      "learning_rate": 1e-06,
+      "loss": -0.06,
+      "num_tokens": 769064278.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.12823963165283203,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1279
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2395.0,
+      "completions/mean_length": 889.0279541015625,
+      "completions/mean_terminated_length": 548.5346069335938,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 11.960932944606414,
+      "grad_norm": 0.1919887661933899,
+      "learning_rate": 1e-06,
+      "loss": -0.0511,
+      "num_tokens": 769602375.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.12178602069616318,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3428.0,
+      "completions/mean_length": 966.2176513671875,
+      "completions/mean_terminated_length": 577.4491577148438,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 11.970262390670554,
+      "grad_norm": 0.16791851818561554,
+      "learning_rate": 1e-06,
+      "loss": -0.0665,
+      "num_tokens": 770154770.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.13298076391220093,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1281
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1339285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3227.0,
+      "completions/mean_length": 1076.696533203125,
+      "completions/mean_terminated_length": 609.7938232421875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 11.979591836734693,
+      "grad_norm": 0.1630984991788864,
+      "learning_rate": 1e-06,
+      "loss": -0.0866,
+      "num_tokens": 770721498.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.16164980828762054,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1282
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3505.0,
+      "completions/mean_length": 974.7667846679688,
+      "completions/mean_terminated_length": 656.1168212890625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 11.988921282798835,
+      "grad_norm": 0.18171954154968262,
+      "learning_rate": 1e-06,
+      "loss": -0.0398,
+      "num_tokens": 771348113.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.1393709033727646,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1283
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.12215909090909094,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2173.0,
+      "completions/mean_length": 1008.0426635742188,
+      "completions/mean_terminated_length": 578.326904296875,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 11.998250728862974,
+      "grad_norm": 0.16108766198158264,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 771902179.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.12459687143564224,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1284
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2262.0,
+      "completions/mean_length": 919.7154541015625,
+      "completions/mean_terminated_length": 565.0433959960938,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.00932944606414,
+      "grad_norm": 0.17704452574253082,
+      "learning_rate": 1e-06,
+      "loss": -0.0088,
+      "num_tokens": 772445100.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.1348900943994522,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 1285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3168.0,
+      "completions/mean_length": 978.2734985351562,
+      "completions/mean_terminated_length": 555.4638671875,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 12.018658892128279,
+      "grad_norm": 0.184604674577713,
+      "learning_rate": 1e-06,
+      "loss": -0.0847,
+      "num_tokens": 772971441.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1429726928472519,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1286
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3758.0,
+      "completions/mean_length": 891.95654296875,
+      "completions/mean_terminated_length": 556.1442260742188,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 12.02798833819242,
+      "grad_norm": 0.1772415190935135,
+      "learning_rate": 1e-06,
+      "loss": -0.0478,
+      "num_tokens": 773513842.0,
+      "reward": 0.7421875596046448,
+      "reward_std": 0.13801473379135132,
+      "rewards/verify_math_reward/mean": 0.7421875,
+      "rewards/verify_math_reward/std": 0.43767455220222473,
+      "step": 1287
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3328.0,
+      "completions/mean_length": 856.6350708007812,
+      "completions/mean_terminated_length": 599.0469970703125,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 12.03731778425656,
+      "grad_norm": 0.18522457778453827,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 774099371.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.15349596738815308,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 1288
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2372.0,
+      "completions/mean_length": 904.7210083007812,
+      "completions/mean_terminated_length": 557.1559448242188,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 12.0466472303207,
+      "grad_norm": 0.16180400550365448,
+      "learning_rate": 1e-06,
+      "loss": -0.0887,
+      "num_tokens": 774627489.0,
+      "reward": 0.7633928656578064,
+      "reward_std": 0.12651507556438446,
+      "rewards/verify_math_reward/mean": 0.7633928656578064,
+      "rewards/verify_math_reward/std": 0.42523646354675293,
+      "step": 1289
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3647.0,
+      "completions/mean_length": 997.5391235351562,
+      "completions/mean_terminated_length": 595.0908203125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 12.055976676384839,
+      "grad_norm": 0.17720985412597656,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 775185988.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.14808152616024017,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3709.0,
+      "completions/mean_length": 897.6272583007812,
+      "completions/mean_terminated_length": 571.10205078125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 12.06530612244898,
+      "grad_norm": 0.1768137663602829,
+      "learning_rate": 1e-06,
+      "loss": -0.0339,
+      "num_tokens": 775740902.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.12985724210739136,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1291
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3453.0,
+      "completions/mean_length": 1031.993408203125,
+      "completions/mean_terminated_length": 585.322265625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.07463556851312,
+      "grad_norm": 0.20356561243534088,
+      "learning_rate": 1e-06,
+      "loss": -0.0697,
+      "num_tokens": 776293160.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.15687799453735352,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1292
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2554.0,
+      "completions/mean_length": 989.4386596679688,
+      "completions/mean_terminated_length": 625.3279418945312,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 12.08396501457726,
+      "grad_norm": 0.1500304639339447,
+      "learning_rate": 1e-06,
+      "loss": -0.0338,
+      "num_tokens": 776884929.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.12241654098033905,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1293
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2184.0,
+      "completions/mean_length": 1029.31591796875,
+      "completions/mean_terminated_length": 600.1361083984375,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 12.093294460641399,
+      "grad_norm": 0.17582301795482635,
+      "learning_rate": 1e-06,
+      "loss": -0.0768,
+      "num_tokens": 777451084.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.16303987801074982,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1294
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3556.0,
+      "completions/mean_length": 954.3984985351562,
+      "completions/mean_terminated_length": 616.550048828125,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.102623906705539,
+      "grad_norm": 0.14249971508979797,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 778042577.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1263660490512848,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1295
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4017.0,
+      "completions/mean_length": 907.0100708007812,
+      "completions/mean_terminated_length": 585.7604370117188,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 12.11195335276968,
+      "grad_norm": 0.15846046805381775,
+      "learning_rate": 1e-06,
+      "loss": -0.0439,
+      "num_tokens": 778602466.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.11892351508140564,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1296
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3237.0,
+      "completions/mean_length": 917.5513916015625,
+      "completions/mean_terminated_length": 614.471923828125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 12.12128279883382,
+      "grad_norm": 0.16542382538318634,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 779191208.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.13542252779006958,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1297
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4080.0,
+      "completions/mean_length": 1065.638427734375,
+      "completions/mean_terminated_length": 641.5419921875,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 12.130612244897959,
+      "grad_norm": 0.16897358000278473,
+      "learning_rate": 1e-06,
+      "loss": -0.0736,
+      "num_tokens": 779788996.0,
+      "reward": 0.6462053656578064,
+      "reward_std": 0.14940379559993744,
+      "rewards/verify_math_reward/mean": 0.6462053656578064,
+      "rewards/verify_math_reward/std": 0.478413462638855,
+      "step": 1298
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3499.0,
+      "completions/mean_length": 891.5078735351562,
+      "completions/mean_terminated_length": 594.506103515625,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 12.139941690962099,
+      "grad_norm": 0.19319415092468262,
+      "learning_rate": 1e-06,
+      "loss": -0.0636,
+      "num_tokens": 780361811.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.1532338261604309,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1299
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3070.0,
+      "completions/mean_length": 1117.298095703125,
+      "completions/mean_terminated_length": 652.2361450195312,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 12.14927113702624,
+      "grad_norm": 0.16154277324676514,
+      "learning_rate": 1e-06,
+      "loss": -0.0864,
+      "num_tokens": 780967286.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15308228135108948,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3265.0,
+      "completions/mean_length": 895.7053833007812,
+      "completions/mean_terminated_length": 560.2860717773438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 12.15860058309038,
+      "grad_norm": 0.15245497226715088,
+      "learning_rate": 1e-06,
+      "loss": -0.0545,
+      "num_tokens": 781506206.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.11896559596061707,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 1301
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3981.0,
+      "completions/mean_length": 960.9029541015625,
+      "completions/mean_terminated_length": 602.1604614257812,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 12.167930029154519,
+      "grad_norm": 0.16760271787643433,
+      "learning_rate": 1e-06,
+      "loss": -0.0299,
+      "num_tokens": 782080783.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.1509019434452057,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1302
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3541.0,
+      "completions/mean_length": 989.880615234375,
+      "completions/mean_terminated_length": 586.4375610351562,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 12.177259475218658,
+      "grad_norm": 0.1760021299123764,
+      "learning_rate": 1e-06,
+      "loss": -0.0259,
+      "num_tokens": 782628540.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.12456367164850235,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1303
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3533.0,
+      "completions/mean_length": 891.9297485351562,
+      "completions/mean_terminated_length": 551.7444458007812,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.186588921282798,
+      "grad_norm": 0.15361468493938446,
+      "learning_rate": 1e-06,
+      "loss": -0.0378,
+      "num_tokens": 783155133.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.0924757644534111,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1304
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3374.0,
+      "completions/mean_length": 896.4531860351562,
+      "completions/mean_terminated_length": 629.5018310546875,
+      "completions/min_length": 195.0,
+      "completions/min_terminated_length": 195.0,
+      "epoch": 12.19591836734694,
+      "grad_norm": 0.15269605815410614,
+      "learning_rate": 1e-06,
+      "loss": -0.0419,
+      "num_tokens": 783766427.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.13298188149929047,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2687.0,
+      "completions/mean_length": 910.26904296875,
+      "completions/mean_terminated_length": 572.0308837890625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 12.205247813411079,
+      "grad_norm": 0.16092495620250702,
+      "learning_rate": 1e-06,
+      "loss": -0.0572,
+      "num_tokens": 784316140.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.1300102025270462,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1306
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2597.0,
+      "completions/mean_length": 1090.2913818359375,
+      "completions/mean_terminated_length": 593.8998413085938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.214577259475218,
+      "grad_norm": 0.14995354413986206,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 784861497.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.10641466826200485,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1307
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 1098.84716796875,
+      "completions/mean_terminated_length": 630.904541015625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 12.223906705539358,
+      "grad_norm": 0.16611260175704956,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 785436336.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.13203828036785126,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1308
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3832.0,
+      "completions/mean_length": 1118.825927734375,
+      "completions/mean_terminated_length": 613.5613403320312,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 12.2332361516035,
+      "grad_norm": 0.1684187799692154,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 785993132.0,
+      "reward": 0.6339285969734192,
+      "reward_std": 0.12309802323579788,
+      "rewards/verify_math_reward/mean": 0.6339285969734192,
+      "rewards/verify_math_reward/std": 0.48199835419654846,
+      "step": 1309
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2849.0,
+      "completions/mean_length": 929.34716796875,
+      "completions/mean_terminated_length": 593.1345825195312,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 12.242565597667639,
+      "grad_norm": 0.14068344235420227,
+      "learning_rate": 1e-06,
+      "loss": -0.0338,
+      "num_tokens": 786560843.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.10964765399694443,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3152.0,
+      "completions/mean_length": 851.7299194335938,
+      "completions/mean_terminated_length": 568.25,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.251895043731778,
+      "grad_norm": 0.18744957447052002,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 787109425.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.15172749757766724,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 1311
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2660.0,
+      "completions/mean_length": 1037.90185546875,
+      "completions/mean_terminated_length": 618.7715454101562,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 12.261224489795918,
+      "grad_norm": 0.1908305287361145,
+      "learning_rate": 1e-06,
+      "loss": -0.0619,
+      "num_tokens": 787689361.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.16453665494918823,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1312
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3699.0,
+      "completions/mean_length": 981.357177734375,
+      "completions/mean_terminated_length": 663.3800659179688,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 12.270553935860057,
+      "grad_norm": 0.16000255942344666,
+      "learning_rate": 1e-06,
+      "loss": -0.0734,
+      "num_tokens": 788314313.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.14620430767536163,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1313
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4057.0,
+      "completions/mean_length": 911.138427734375,
+      "completions/mean_terminated_length": 590.3046875,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.279883381924199,
+      "grad_norm": 0.179154172539711,
+      "learning_rate": 1e-06,
+      "loss": -0.0707,
+      "num_tokens": 788885853.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.15608564019203186,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1314
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3775.0,
+      "completions/mean_length": 871.1897583007812,
+      "completions/mean_terminated_length": 546.3316650390625,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 12.289212827988338,
+      "grad_norm": 0.18365663290023804,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 789410783.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.14443765580654144,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2976.0,
+      "completions/mean_length": 991.2656860351562,
+      "completions/mean_terminated_length": 614.345458984375,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 12.298542274052478,
+      "grad_norm": 0.16882410645484924,
+      "learning_rate": 1e-06,
+      "loss": -0.0368,
+      "num_tokens": 789994317.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.12272076308727264,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1316
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2904.0,
+      "completions/mean_length": 903.130615234375,
+      "completions/mean_terminated_length": 619.9234619140625,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 12.307871720116617,
+      "grad_norm": 0.16580593585968018,
+      "learning_rate": 1e-06,
+      "loss": -0.0553,
+      "num_tokens": 790591658.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.12677721679210663,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1317
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3063.0,
+      "completions/mean_length": 1142.607177734375,
+      "completions/mean_terminated_length": 641.3786010742188,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 12.317201166180759,
+      "grad_norm": 0.14159466326236725,
+      "learning_rate": 1e-06,
+      "loss": -0.0718,
+      "num_tokens": 791182506.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.12726393342018127,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1318
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3872.0,
+      "completions/mean_length": 853.8058471679688,
+      "completions/mean_terminated_length": 574.7806396484375,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.326530612244898,
+      "grad_norm": 0.1810448169708252,
+      "learning_rate": 1e-06,
+      "loss": -0.0261,
+      "num_tokens": 791739988.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.13241735100746155,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931530952453613,
+      "step": 1319
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3693.0,
+      "completions/mean_length": 1094.3348388671875,
+      "completions/mean_terminated_length": 647.933349609375,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 12.335860058309038,
+      "grad_norm": 0.1589130163192749,
+      "learning_rate": 1e-06,
+      "loss": -0.0713,
+      "num_tokens": 792331776.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.12369534373283386,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1462053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3881.0,
+      "completions/mean_length": 1160.415283203125,
+      "completions/mean_terminated_length": 657.7202758789062,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 12.345189504373177,
+      "grad_norm": 0.18702104687690735,
+      "learning_rate": 1e-06,
+      "loss": -0.038,
+      "num_tokens": 792919556.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1349007785320282,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.4816865026950836,
+      "step": 1321
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2964.0,
+      "completions/mean_length": 972.5156860351562,
+      "completions/mean_terminated_length": 584.5294799804688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 12.354518950437317,
+      "grad_norm": 0.15318487584590912,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 793472234.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.10626270622015,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1322
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1328125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1973.0,
+      "completions/mean_length": 1044.76904296875,
+      "completions/mean_terminated_length": 577.4633178710938,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 12.363848396501458,
+      "grad_norm": 0.14388787746429443,
+      "learning_rate": 1e-06,
+      "loss": -0.0625,
+      "num_tokens": 794008203.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.1033681184053421,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1323
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3668.0,
+      "completions/mean_length": 1075.6015625,
+      "completions/mean_terminated_length": 661.6383056640625,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 12.373177842565598,
+      "grad_norm": 0.17792291939258575,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 794625670.0,
+      "reward": 0.606026828289032,
+      "reward_std": 0.14925295114517212,
+      "rewards/verify_math_reward/mean": 0.6060267686843872,
+      "rewards/verify_math_reward/std": 0.48890194296836853,
+      "step": 1324
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3186.0,
+      "completions/mean_length": 1120.458740234375,
+      "completions/mean_terminated_length": 669.155517578125,
+      "completions/min_length": 107.0,
+      "completions/min_terminated_length": 107.0,
+      "epoch": 12.382507288629737,
+      "grad_norm": 0.15607257187366486,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 795232065.0,
+      "reward": 0.640625,
+      "reward_std": 0.12433473765850067,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 1325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.15625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4078.0,
+      "completions/mean_length": 1240.5045166015625,
+      "completions/mean_terminated_length": 711.708984375,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 12.391836734693877,
+      "grad_norm": 0.18093542754650116,
+      "learning_rate": 1e-06,
+      "loss": -0.0685,
+      "num_tokens": 795863077.0,
+      "reward": 0.6004464626312256,
+      "reward_std": 0.1535683125257492,
+      "rewards/verify_math_reward/mean": 0.6004464030265808,
+      "rewards/verify_math_reward/std": 0.49008017778396606,
+      "step": 1326
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3909.0,
+      "completions/mean_length": 998.341552734375,
+      "completions/mean_terminated_length": 609.1884155273438,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 12.401166180758018,
+      "grad_norm": 0.14908741414546967,
+      "learning_rate": 1e-06,
+      "loss": -0.0677,
+      "num_tokens": 796426615.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.12001685798168182,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1327
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2903.0,
+      "completions/mean_length": 932.1317138671875,
+      "completions/mean_terminated_length": 613.4127807617188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.410495626822158,
+      "grad_norm": 0.1725604236125946,
+      "learning_rate": 1e-06,
+      "loss": -0.0639,
+      "num_tokens": 797015125.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.15842002630233765,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1328
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2154.0,
+      "completions/mean_length": 892.33154296875,
+      "completions/mean_terminated_length": 569.6032104492188,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 12.419825072886297,
+      "grad_norm": 0.1555093377828598,
+      "learning_rate": 1e-06,
+      "loss": -0.0403,
+      "num_tokens": 797568966.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.11144932359457016,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1329
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3333.0,
+      "completions/mean_length": 1057.67529296875,
+      "completions/mean_terminated_length": 610.2906494140625,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.429154518950437,
+      "grad_norm": 0.17622613906860352,
+      "learning_rate": 1e-06,
+      "loss": -0.091,
+      "num_tokens": 798146707.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.14943701028823853,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 1018.3404541015625,
+      "completions/mean_terminated_length": 587.6246948242188,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 12.438483965014576,
+      "grad_norm": 0.1874133199453354,
+      "learning_rate": 1e-06,
+      "loss": -0.0763,
+      "num_tokens": 798696132.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.16345147788524628,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 1331
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3343.0,
+      "completions/mean_length": 832.0703735351562,
+      "completions/mean_terminated_length": 559.747314453125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 12.447813411078718,
+      "grad_norm": 0.17387337982654572,
+      "learning_rate": 1e-06,
+      "loss": -0.0517,
+      "num_tokens": 799245067.0,
+      "reward": 0.7667410969734192,
+      "reward_std": 0.1385018676519394,
+      "rewards/verify_math_reward/mean": 0.7667410969734192,
+      "rewards/verify_math_reward/std": 0.4231418967247009,
+      "step": 1332
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3726.0,
+      "completions/mean_length": 1023.9788208007812,
+      "completions/mean_terminated_length": 607.3675537109375,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 12.457142857142857,
+      "grad_norm": 0.16259723901748657,
+      "learning_rate": 1e-06,
+      "loss": -0.0339,
+      "num_tokens": 799825280.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12610207498073578,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1333
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2765.0,
+      "completions/mean_length": 1042.396240234375,
+      "completions/mean_terminated_length": 597.24169921875,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 12.466472303206997,
+      "grad_norm": 0.19924825429916382,
+      "learning_rate": 1e-06,
+      "loss": -0.0663,
+      "num_tokens": 800384387.0,
+      "reward": 0.6897321939468384,
+      "reward_std": 0.15571653842926025,
+      "rewards/verify_math_reward/mean": 0.6897321343421936,
+      "rewards/verify_math_reward/std": 0.4628615975379944,
+      "step": 1334
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2879.0,
+      "completions/mean_length": 797.6607666015625,
+      "completions/mean_terminated_length": 569.3746948242188,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 12.475801749271136,
+      "grad_norm": 0.1662532091140747,
+      "learning_rate": 1e-06,
+      "loss": -0.0402,
+      "num_tokens": 800942139.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.12035498023033142,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2092.0,
+      "completions/mean_length": 927.92529296875,
+      "completions/mean_terminated_length": 591.561767578125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.485131195335278,
+      "grad_norm": 0.16006889939308167,
+      "learning_rate": 1e-06,
+      "loss": -0.0885,
+      "num_tokens": 801516072.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.14646530151367188,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821491837501526,
+      "step": 1336
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3846.0,
+      "completions/mean_length": 892.2288208007812,
+      "completions/mean_terminated_length": 595.2938842773438,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 12.494460641399417,
+      "grad_norm": 0.1678542047739029,
+      "learning_rate": 1e-06,
+      "loss": -0.0353,
+      "num_tokens": 802096565.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.12084492295980453,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1337
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3214.0,
+      "completions/mean_length": 1028.69091796875,
+      "completions/mean_terminated_length": 639.0075073242188,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 12.503790087463557,
+      "grad_norm": 0.15641376376152039,
+      "learning_rate": 1e-06,
+      "loss": -0.0604,
+      "num_tokens": 802694352.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.11039625108242035,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1338
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1372767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4063.0,
+      "completions/mean_length": 1124.415283203125,
+      "completions/mean_terminated_length": 651.57568359375,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 12.513119533527696,
+      "grad_norm": 0.15743494033813477,
+      "learning_rate": 1e-06,
+      "loss": -0.0579,
+      "num_tokens": 803298988.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.1293707937002182,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1339
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3953.0,
+      "completions/mean_length": 1020.8058471679688,
+      "completions/mean_terminated_length": 664.6500244140625,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.522448979591836,
+      "grad_norm": 0.18502841889858246,
+      "learning_rate": 1e-06,
+      "loss": -0.0414,
+      "num_tokens": 803922670.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.1542416214942932,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2672.0,
+      "completions/mean_length": 978.1317138671875,
+      "completions/mean_terminated_length": 621.3606567382812,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 12.531778425655977,
+      "grad_norm": 0.1659466028213501,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 804505540.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.14962133765220642,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1341
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3578.0,
+      "completions/mean_length": 997.57373046875,
+      "completions/mean_terminated_length": 630.0948486328125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 12.541107871720117,
+      "grad_norm": 0.15725573897361755,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 805098878.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.13106118142604828,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1342
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3441.0,
+      "completions/mean_length": 1033.943115234375,
+      "completions/mean_terminated_length": 631.8547973632812,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 12.550437317784256,
+      "grad_norm": 0.2267020046710968,
+      "learning_rate": 1e-06,
+      "loss": -0.0922,
+      "num_tokens": 805681755.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.19861942529678345,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1343
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2230.0,
+      "completions/mean_length": 845.5357666015625,
+      "completions/mean_terminated_length": 578.58935546875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.559766763848396,
+      "grad_norm": 0.17514190077781677,
+      "learning_rate": 1e-06,
+      "loss": -0.0253,
+      "num_tokens": 806241291.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.10716535896062851,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358028769493103,
+      "step": 1344
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3598.0,
+      "completions/mean_length": 1042.587158203125,
+      "completions/mean_terminated_length": 624.0989990234375,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 12.569096209912537,
+      "grad_norm": 0.1883087158203125,
+      "learning_rate": 1e-06,
+      "loss": -0.056,
+      "num_tokens": 806826489.0,
+      "reward": 0.6495535969734192,
+      "reward_std": 0.16037283837795258,
+      "rewards/verify_math_reward/mean": 0.6495535969734192,
+      "rewards/verify_math_reward/std": 0.477376252412796,
+      "step": 1345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2810.0,
+      "completions/mean_length": 804.0736694335938,
+      "completions/mean_terminated_length": 588.7871704101562,
+      "completions/min_length": 103.0,
+      "completions/min_terminated_length": 103.0,
+      "epoch": 12.578425655976677,
+      "grad_norm": 0.13668419420719147,
+      "learning_rate": 1e-06,
+      "loss": -0.043,
+      "num_tokens": 807415971.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.10547357052564621,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 1346
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3737.0,
+      "completions/mean_length": 950.7467041015625,
+      "completions/mean_terminated_length": 586.4769287109375,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 12.587755102040816,
+      "grad_norm": 0.16991546750068665,
+      "learning_rate": 1e-06,
+      "loss": -0.0563,
+      "num_tokens": 807977240.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.13632294535636902,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1347
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3794.0,
+      "completions/mean_length": 910.466552734375,
+      "completions/mean_terminated_length": 576.5942993164062,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 12.597084548104956,
+      "grad_norm": 0.16234464943408966,
+      "learning_rate": 1e-06,
+      "loss": -0.0267,
+      "num_tokens": 808532818.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.1177295669913292,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1348
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3961.0,
+      "completions/mean_length": 1011.341552734375,
+      "completions/mean_terminated_length": 645.49560546875,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 12.606413994169095,
+      "grad_norm": 0.1682359129190445,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 809147988.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.14597606658935547,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341992855072,
+      "step": 1349
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3683.0,
+      "completions/mean_length": 984.0145263671875,
+      "completions/mean_terminated_length": 548.4949340820312,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 12.615743440233237,
+      "grad_norm": 0.21174253523349762,
+      "learning_rate": 1e-06,
+      "loss": -0.0811,
+      "num_tokens": 809672473.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1639835089445114,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2775.0,
+      "completions/mean_length": 1005.33154296875,
+      "completions/mean_terminated_length": 617.0565185546875,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 12.625072886297376,
+      "grad_norm": 0.19106462597846985,
+      "learning_rate": 1e-06,
+      "loss": -0.0394,
+      "num_tokens": 810253146.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.16112029552459717,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1351
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3165.0,
+      "completions/mean_length": 1008.5234985351562,
+      "completions/mean_terminated_length": 603.0972290039062,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 12.634402332361516,
+      "grad_norm": 0.16046831011772156,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 810818711.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.11452937871217728,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1352
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2979.0,
+      "completions/mean_length": 1000.4475708007812,
+      "completions/mean_terminated_length": 589.5335083007812,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.643731778425655,
+      "grad_norm": 0.17968566715717316,
+      "learning_rate": 1e-06,
+      "loss": -0.0534,
+      "num_tokens": 811379064.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.13891556859016418,
+      "rewards/verify_math_reward/mean": 0.7142857313156128,
+      "rewards/verify_math_reward/std": 0.4520062506198883,
+      "step": 1353
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2172.0,
+      "completions/mean_length": 849.7756958007812,
+      "completions/mean_terminated_length": 527.144775390625,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 12.653061224489797,
+      "grad_norm": 0.17325682938098907,
+      "learning_rate": 1e-06,
+      "loss": -0.0384,
+      "num_tokens": 811886023.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.11167574673891068,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705445528030396,
+      "step": 1354
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3369.0,
+      "completions/mean_length": 979.11279296875,
+      "completions/mean_terminated_length": 635.3668212890625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 12.662390670553936,
+      "grad_norm": 0.1870400756597519,
+      "learning_rate": 1e-06,
+      "loss": -0.0528,
+      "num_tokens": 812491924.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.16149936616420746,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2982.0,
+      "completions/mean_length": 1071.8125,
+      "completions/mean_terminated_length": 639.7857055664062,
+      "completions/min_length": 111.0,
+      "completions/min_terminated_length": 111.0,
+      "epoch": 12.671720116618076,
+      "grad_norm": 0.17932631075382233,
+      "learning_rate": 1e-06,
+      "loss": -0.0495,
+      "num_tokens": 813095188.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14564228057861328,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1356
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3583.0,
+      "completions/mean_length": 1052.454345703125,
+      "completions/mean_terminated_length": 657.1387329101562,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 12.681049562682215,
+      "grad_norm": 0.15587233006954193,
+      "learning_rate": 1e-06,
+      "loss": -0.0614,
+      "num_tokens": 813703083.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1476346254348755,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335687637329,
+      "step": 1357
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3403.0,
+      "completions/mean_length": 912.771240234375,
+      "completions/mean_terminated_length": 566.0828857421875,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 12.690379008746355,
+      "grad_norm": 0.1470702588558197,
+      "learning_rate": 1e-06,
+      "loss": -0.0479,
+      "num_tokens": 814246710.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.10442119091749191,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1358
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2786.0,
+      "completions/mean_length": 900.04248046875,
+      "completions/mean_terminated_length": 608.0852661132812,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 12.699708454810496,
+      "grad_norm": 0.1994343101978302,
+      "learning_rate": 1e-06,
+      "loss": -0.0452,
+      "num_tokens": 814836004.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.14654381573200226,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.434536337852478,
+      "step": 1359
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2552.0,
+      "completions/mean_length": 1048.6317138671875,
+      "completions/mean_terminated_length": 635.36376953125,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 12.709037900874636,
+      "grad_norm": 0.19583085179328918,
+      "learning_rate": 1e-06,
+      "loss": -0.0498,
+      "num_tokens": 815420586.0,
+      "reward": 0.6852678656578064,
+      "reward_std": 0.17641426622867584,
+      "rewards/verify_math_reward/mean": 0.6852678656578064,
+      "rewards/verify_math_reward/std": 0.46466848254203796,
+      "step": 1360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2716.0,
+      "completions/mean_length": 908.3527221679688,
+      "completions/mean_terminated_length": 604.3961181640625,
+      "completions/min_length": 180.0,
+      "completions/min_terminated_length": 180.0,
+      "epoch": 12.718367346938775,
+      "grad_norm": 0.1439504623413086,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 815996278.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.11283829063177109,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1361
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3505.0,
+      "completions/mean_length": 1073.703125,
+      "completions/mean_terminated_length": 723.6737060546875,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 12.727696793002915,
+      "grad_norm": 0.16441071033477783,
+      "learning_rate": 1e-06,
+      "loss": -0.0397,
+      "num_tokens": 816668652.0,
+      "reward": 0.5915178656578064,
+      "reward_std": 0.15462207794189453,
+      "rewards/verify_math_reward/mean": 0.5915178656578064,
+      "rewards/verify_math_reward/std": 0.49182769656181335,
+      "step": 1362
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 1008.8058471679688,
+      "completions/mean_terminated_length": 634.0150146484375,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 12.737026239067056,
+      "grad_norm": 0.17051641643047333,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 817268550.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15022866427898407,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1363
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3320.0,
+      "completions/mean_length": 961.864990234375,
+      "completions/mean_terminated_length": 646.1412353515625,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 12.746355685131196,
+      "grad_norm": 0.17612028121948242,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 817895781.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.15364569425582886,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1364
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4067.0,
+      "completions/mean_length": 857.0435791015625,
+      "completions/mean_terminated_length": 582.5557250976562,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 12.755685131195335,
+      "grad_norm": 0.18695229291915894,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 818457052.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.14011836051940918,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3866.0,
+      "completions/mean_length": 1015.6585083007812,
+      "completions/mean_terminated_length": 633.0313720703125,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 12.765014577259475,
+      "grad_norm": 0.15656854212284088,
+      "learning_rate": 1e-06,
+      "loss": -0.039,
+      "num_tokens": 819052034.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.11953011900186539,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.4664256274700165,
+      "step": 1366
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1383928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2720.0,
+      "completions/mean_length": 1076.602783203125,
+      "completions/mean_terminated_length": 591.6217651367188,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.774344023323614,
+      "grad_norm": 0.18124838173389435,
+      "learning_rate": 1e-06,
+      "loss": -0.0628,
+      "num_tokens": 819594854.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13080155849456787,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1367
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2631.0,
+      "completions/mean_length": 927.62841796875,
+      "completions/mean_terminated_length": 599.8657836914062,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.783673469387756,
+      "grad_norm": 0.16686727106571198,
+      "learning_rate": 1e-06,
+      "loss": -0.0477,
+      "num_tokens": 820168089.0,
+      "reward": 0.7165178656578064,
+      "reward_std": 0.12189479172229767,
+      "rewards/verify_math_reward/mean": 0.7165178656578064,
+      "rewards/verify_math_reward/std": 0.4509401023387909,
+      "step": 1368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2667.0,
+      "completions/mean_length": 907.0859985351562,
+      "completions/mean_terminated_length": 624.2296752929688,
+      "completions/min_length": 221.0,
+      "completions/min_terminated_length": 221.0,
+      "epoch": 12.793002915451895,
+      "grad_norm": 0.18051575124263763,
+      "learning_rate": 1e-06,
+      "loss": -0.0447,
+      "num_tokens": 820783638.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.14902400970458984,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890368938446045,
+      "step": 1369
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3744.0,
+      "completions/mean_length": 926.1819458007812,
+      "completions/mean_terminated_length": 623.9254760742188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.802332361516035,
+      "grad_norm": 0.1778830587863922,
+      "learning_rate": 1e-06,
+      "loss": -0.0726,
+      "num_tokens": 821384769.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1708942949771881,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4093.0,
+      "completions/mean_length": 1093.9029541015625,
+      "completions/mean_terminated_length": 647.4371948242188,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 12.811661807580174,
+      "grad_norm": 0.16026508808135986,
+      "learning_rate": 1e-06,
+      "loss": -0.0772,
+      "num_tokens": 821992778.0,
+      "reward": 0.6417410969734192,
+      "reward_std": 0.14282074570655823,
+      "rewards/verify_math_reward/mean": 0.6417410969734192,
+      "rewards/verify_math_reward/std": 0.47975656390190125,
+      "step": 1371
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4038.0,
+      "completions/mean_length": 964.0938110351562,
+      "completions/mean_terminated_length": 652.8245239257812,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 12.820991253644316,
+      "grad_norm": 0.16004188358783722,
+      "learning_rate": 1e-06,
+      "loss": -0.0122,
+      "num_tokens": 822618230.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.11914853006601334,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1372
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3299.0,
+      "completions/mean_length": 980.5982666015625,
+      "completions/mean_terminated_length": 632.7245483398438,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 12.830320699708455,
+      "grad_norm": 0.16314876079559326,
+      "learning_rate": 1e-06,
+      "loss": -0.0118,
+      "num_tokens": 823224918.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.11636271327733994,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1373
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3817.0,
+      "completions/mean_length": 929.4710083007812,
+      "completions/mean_terminated_length": 614.7607421875,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.839650145772595,
+      "grad_norm": 0.14862915873527527,
+      "learning_rate": 1e-06,
+      "loss": -0.0316,
+      "num_tokens": 823812964.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.11930190026760101,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1374
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4093.0,
+      "completions/mean_length": 934.1707763671875,
+      "completions/mean_terminated_length": 559.1723022460938,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 12.848979591836734,
+      "grad_norm": 0.17180867493152618,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 824352845.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.12839370965957642,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3816.0,
+      "completions/mean_length": 970.70654296875,
+      "completions/mean_terminated_length": 647.4002075195312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 12.858309037900874,
+      "grad_norm": 0.18521800637245178,
+      "learning_rate": 1e-06,
+      "loss": -0.0592,
+      "num_tokens": 824966574.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.16837765276432037,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1376
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3370.0,
+      "completions/mean_length": 1005.3828735351562,
+      "completions/mean_terminated_length": 677.2432250976562,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 12.867638483965015,
+      "grad_norm": 0.1676863133907318,
+      "learning_rate": 1e-06,
+      "loss": -0.0278,
+      "num_tokens": 825600125.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.14038120210170746,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530589282512665,
+      "step": 1377
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3741.0,
+      "completions/mean_length": 1065.5614013671875,
+      "completions/mean_terminated_length": 697.6608276367188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.876967930029155,
+      "grad_norm": 0.17156261205673218,
+      "learning_rate": 1e-06,
+      "loss": -0.0765,
+      "num_tokens": 826260612.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.14515121281147003,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1378
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2480.0,
+      "completions/mean_length": 849.0960083007812,
+      "completions/mean_terminated_length": 611.8970336914062,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 12.886297376093294,
+      "grad_norm": 0.16720975935459137,
+      "learning_rate": 1e-06,
+      "loss": -0.0423,
+      "num_tokens": 826868538.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.1314416527748108,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957791805267334,
+      "step": 1379
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3027.0,
+      "completions/mean_length": 994.341552734375,
+      "completions/mean_terminated_length": 630.8054809570312,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 12.895626822157434,
+      "grad_norm": 0.170975923538208,
+      "learning_rate": 1e-06,
+      "loss": -0.0613,
+      "num_tokens": 827460932.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.14591330289840698,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600565731525421,
+      "step": 1380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2790.0,
+      "completions/mean_length": 1023.6741333007812,
+      "completions/mean_terminated_length": 642.0426635742188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 12.904956268221575,
+      "grad_norm": 0.1732223927974701,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 828070152.0,
+      "reward": 0.6908482313156128,
+      "reward_std": 0.14030523598194122,
+      "rewards/verify_math_reward/mean": 0.6908482313156128,
+      "rewards/verify_math_reward/std": 0.46240198612213135,
+      "step": 1381
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0647321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3375.0,
+      "completions/mean_length": 818.6250610351562,
+      "completions/mean_terminated_length": 591.7899780273438,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.914285714285715,
+      "grad_norm": 0.1687568575143814,
+      "learning_rate": 1e-06,
+      "loss": -0.0324,
+      "num_tokens": 828646616.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.13046343624591827,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1382
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2679.0,
+      "completions/mean_length": 843.630615234375,
+      "completions/mean_terminated_length": 572.2720947265625,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 12.923615160349854,
+      "grad_norm": 0.19517146050930023,
+      "learning_rate": 1e-06,
+      "loss": -0.0609,
+      "num_tokens": 829217773.0,
+      "reward": 0.7723214626312256,
+      "reward_std": 0.16517743468284607,
+      "rewards/verify_math_reward/mean": 0.7723214030265808,
+      "rewards/verify_math_reward/std": 0.41956827044487,
+      "step": 1383
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3864.0,
+      "completions/mean_length": 939.700927734375,
+      "completions/mean_terminated_length": 591.6084594726562,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 12.932944606413994,
+      "grad_norm": 0.20255514979362488,
+      "learning_rate": 1e-06,
+      "loss": -0.032,
+      "num_tokens": 829787625.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.15135660767555237,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1384
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2739.0,
+      "completions/mean_length": 968.3594360351562,
+      "completions/mean_terminated_length": 601.778076171875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 12.942274052478133,
+      "grad_norm": 0.1823241263628006,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 830359459.0,
+      "reward": 0.7209821939468384,
+      "reward_std": 0.15818998217582703,
+      "rewards/verify_math_reward/mean": 0.7209821343421936,
+      "rewards/verify_math_reward/std": 0.448766827583313,
+      "step": 1385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3683.0,
+      "completions/mean_length": 938.708740234375,
+      "completions/mean_terminated_length": 620.65234375,
+      "completions/min_length": 110.0,
+      "completions/min_terminated_length": 110.0,
+      "epoch": 12.951603498542275,
+      "grad_norm": 0.15472254157066345,
+      "learning_rate": 1e-06,
+      "loss": -0.0442,
+      "num_tokens": 830950886.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.13481523096561432,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1386
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3923.0,
+      "completions/mean_length": 899.4766235351562,
+      "completions/mean_terminated_length": 555.7218627929688,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 12.960932944606414,
+      "grad_norm": 0.18460515141487122,
+      "learning_rate": 1e-06,
+      "loss": -0.0311,
+      "num_tokens": 831497049.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.12790584564208984,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1387
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3798.0,
+      "completions/mean_length": 898.130615234375,
+      "completions/mean_terminated_length": 597.4761962890625,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 12.970262390670554,
+      "grad_norm": 0.16650892794132233,
+      "learning_rate": 1e-06,
+      "loss": -0.0098,
+      "num_tokens": 832073598.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.12392427027225494,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1388
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3658.0,
+      "completions/mean_length": 980.9933471679688,
+      "completions/mean_terminated_length": 567.4968872070312,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 12.979591836734693,
+      "grad_norm": 0.19185760617256165,
+      "learning_rate": 1e-06,
+      "loss": -0.0335,
+      "num_tokens": 832613704.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.11509531736373901,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4066.0,
+      "completions/mean_length": 1063.399658203125,
+      "completions/mean_terminated_length": 638.9898071289062,
+      "completions/min_length": 112.0,
+      "completions/min_terminated_length": 112.0,
+      "epoch": 12.988921282798835,
+      "grad_norm": 0.160457581281662,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 833204518.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.133957177400589,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.11363636363636365,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3888.0,
+      "completions/mean_length": 1072.8096923828125,
+      "completions/mean_terminated_length": 685.22119140625,
+      "completions/min_length": 174.0,
+      "completions/min_terminated_length": 174.0,
+      "epoch": 12.998250728862974,
+      "grad_norm": 0.1643132120370865,
+      "learning_rate": 1e-06,
+      "loss": -0.0655,
+      "num_tokens": 833804753.0,
+      "reward": 0.6808035969734192,
+      "reward_std": 0.1345216929912567,
+      "rewards/verify_math_reward/mean": 0.6808035969734192,
+      "rewards/verify_math_reward/std": 0.46642565727233887,
+      "step": 1391
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3634.0,
+      "completions/mean_length": 953.075927734375,
+      "completions/mean_terminated_length": 610.7772216796875,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 13.00932944606414,
+      "grad_norm": 0.17346398532390594,
+      "learning_rate": 1e-06,
+      "loss": -0.0611,
+      "num_tokens": 834386909.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14928685128688812,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 1392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2894.0,
+      "completions/mean_length": 888.6763916015625,
+      "completions/mean_terminated_length": 633.6361694335938,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 13.018658892128279,
+      "grad_norm": 0.14932873845100403,
+      "learning_rate": 1e-06,
+      "loss": -0.0253,
+      "num_tokens": 834992195.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.12621337175369263,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1393
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2754.0,
+      "completions/mean_length": 1021.1138916015625,
+      "completions/mean_terminated_length": 656.4269409179688,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 13.02798833819242,
+      "grad_norm": 0.16457971930503845,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 835608521.0,
+      "reward": 0.6205357313156128,
+      "reward_std": 0.1498509645462036,
+      "rewards/verify_math_reward/mean": 0.6205357313156128,
+      "rewards/verify_math_reward/std": 0.4855247139930725,
+      "step": 1394
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2785.0,
+      "completions/mean_length": 961.0982666015625,
+      "completions/mean_terminated_length": 576.1102905273438,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 13.03731778425656,
+      "grad_norm": 0.1542545109987259,
+      "learning_rate": 1e-06,
+      "loss": -0.0564,
+      "num_tokens": 836155785.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.10126376897096634,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1395
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2983.0,
+      "completions/mean_length": 990.2388916015625,
+      "completions/mean_terminated_length": 595.67041015625,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.0466472303207,
+      "grad_norm": 0.1856381595134735,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 836721383.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.13380561769008636,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1396
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3297.0,
+      "completions/mean_length": 833.700927734375,
+      "completions/mean_terminated_length": 582.7548217773438,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 13.055976676384839,
+      "grad_norm": 0.17601068317890167,
+      "learning_rate": 1e-06,
+      "loss": -0.0354,
+      "num_tokens": 837299187.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.12926062941551208,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 1397
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3341.0,
+      "completions/mean_length": 843.6920166015625,
+      "completions/mean_terminated_length": 572.3385620117188,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 13.06530612244898,
+      "grad_norm": 0.1704408824443817,
+      "learning_rate": 1e-06,
+      "loss": -0.0472,
+      "num_tokens": 837850399.0,
+      "reward": 0.7600446939468384,
+      "reward_std": 0.13583441078662872,
+      "rewards/verify_math_reward/mean": 0.7600446343421936,
+      "rewards/verify_math_reward/std": 0.42729446291923523,
+      "step": 1398
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4028.0,
+      "completions/mean_length": 1035.3013916015625,
+      "completions/mean_terminated_length": 602.5146484375,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 13.07463556851312,
+      "grad_norm": 0.24100685119628906,
+      "learning_rate": 1e-06,
+      "loss": -0.0672,
+      "num_tokens": 838411797.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.11257798224687576,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1399
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3841.0,
+      "completions/mean_length": 946.1730346679688,
+      "completions/mean_terminated_length": 633.1226806640625,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.08396501457726,
+      "grad_norm": 0.15355545282363892,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 839024728.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.10806508362293243,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1400
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2144.0,
+      "completions/mean_length": 1005.9732666015625,
+      "completions/mean_terminated_length": 604.6204223632812,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.093294460641399,
+      "grad_norm": 0.194878950715065,
+      "learning_rate": 1e-06,
+      "loss": -0.0624,
+      "num_tokens": 839586024.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.1322651207447052,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1401
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3258.0,
+      "completions/mean_length": 895.685302734375,
+      "completions/mean_terminated_length": 607.5790405273438,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 13.102623906705539,
+      "grad_norm": 0.13444751501083374,
+      "learning_rate": 1e-06,
+      "loss": -0.0544,
+      "num_tokens": 840177678.0,
+      "reward": 0.7600446939468384,
+      "reward_std": 0.11994270235300064,
+      "rewards/verify_math_reward/mean": 0.7600446343421936,
+      "rewards/verify_math_reward/std": 0.42729443311691284,
+      "step": 1402
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3630.0,
+      "completions/mean_length": 960.70654296875,
+      "completions/mean_terminated_length": 606.281982421875,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 13.11195335276968,
+      "grad_norm": 0.17206306755542755,
+      "learning_rate": 1e-06,
+      "loss": -0.0304,
+      "num_tokens": 840761095.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.13516220450401306,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1403
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3259.0,
+      "completions/mean_length": 1089.16748046875,
+      "completions/mean_terminated_length": 601.6783447265625,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 13.12128279883382,
+      "grad_norm": 0.16660507023334503,
+      "learning_rate": 1e-06,
+      "loss": -0.0788,
+      "num_tokens": 841316509.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.12794680893421173,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1404
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3819.0,
+      "completions/mean_length": 1164.313720703125,
+      "completions/mean_terminated_length": 719.6619262695312,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 13.130612244897959,
+      "grad_norm": 0.14841970801353455,
+      "learning_rate": 1e-06,
+      "loss": -0.0612,
+      "num_tokens": 841972326.0,
+      "reward": 0.613839328289032,
+      "reward_std": 0.1604444682598114,
+      "rewards/verify_math_reward/mean": 0.6138392686843872,
+      "rewards/verify_math_reward/std": 0.48714008927345276,
+      "step": 1405
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3977.0,
+      "completions/mean_length": 987.4844360351562,
+      "completions/mean_terminated_length": 640.379638671875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 13.139941690962099,
+      "grad_norm": 0.16702315211296082,
+      "learning_rate": 1e-06,
+      "loss": -0.0799,
+      "num_tokens": 842582616.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.15785367786884308,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1406
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3283.0,
+      "completions/mean_length": 898.89404296875,
+      "completions/mean_terminated_length": 581.144775390625,
+      "completions/min_length": 100.0,
+      "completions/min_terminated_length": 100.0,
+      "epoch": 13.14927113702624,
+      "grad_norm": 0.19033049046993256,
+      "learning_rate": 1e-06,
+      "loss": -0.0695,
+      "num_tokens": 843137129.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.14774522185325623,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1407
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1573660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2645.0,
+      "completions/mean_length": 1156.993408203125,
+      "completions/mean_terminated_length": 608.1192016601562,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.15860058309038,
+      "grad_norm": 0.18148021399974823,
+      "learning_rate": 1e-06,
+      "loss": -0.0383,
+      "num_tokens": 843690163.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.13955454528331757,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1408
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3721.0,
+      "completions/mean_length": 1054.8304443359375,
+      "completions/mean_terminated_length": 598.0693359375,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.167930029154519,
+      "grad_norm": 0.14989906549453735,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 844262651.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.12433473765850067,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 1409
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0669642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3295.0,
+      "completions/mean_length": 805.2756958007812,
+      "completions/mean_terminated_length": 569.0992431640625,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 13.177259475218658,
+      "grad_norm": 0.16026248037815094,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 844832618.0,
+      "reward": 0.793526828289032,
+      "reward_std": 0.12212050706148148,
+      "rewards/verify_math_reward/mean": 0.7935267686843872,
+      "rewards/verify_math_reward/std": 0.40500015020370483,
+      "step": 1410
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2769.0,
+      "completions/mean_length": 982.1484985351562,
+      "completions/mean_terminated_length": 564.3405151367188,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 13.186588921282798,
+      "grad_norm": 0.1801268607378006,
+      "learning_rate": 1e-06,
+      "loss": -0.0843,
+      "num_tokens": 845362831.0,
+      "reward": 0.7533482313156128,
+      "reward_std": 0.17502741515636444,
+      "rewards/verify_math_reward/mean": 0.7533482313156128,
+      "rewards/verify_math_reward/std": 0.4313030242919922,
+      "step": 1411
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3175.0,
+      "completions/mean_length": 1020.4285888671875,
+      "completions/mean_terminated_length": 625.3299560546875,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 13.19591836734694,
+      "grad_norm": 0.17634259164333344,
+      "learning_rate": 1e-06,
+      "loss": -0.0628,
+      "num_tokens": 845954191.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.14676883816719055,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219157218933105,
+      "step": 1412
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3678.0,
+      "completions/mean_length": 960.4631958007812,
+      "completions/mean_terminated_length": 566.551513671875,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.205247813411079,
+      "grad_norm": 0.17410670220851898,
+      "learning_rate": 1e-06,
+      "loss": -0.0817,
+      "num_tokens": 846494438.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.13226650655269623,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1413
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1595982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2934.0,
+      "completions/mean_length": 1141.9910888671875,
+      "completions/mean_terminated_length": 581.0040283203125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 13.214577259475218,
+      "grad_norm": 0.19327431917190552,
+      "learning_rate": 1e-06,
+      "loss": -0.0892,
+      "num_tokens": 847020630.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.14274516701698303,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485536336898804,
+      "step": 1414
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1361607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2706.0,
+      "completions/mean_length": 1073.8638916015625,
+      "completions/mean_terminated_length": 597.5064697265625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.223906705539358,
+      "grad_norm": 0.1650964766740799,
+      "learning_rate": 1e-06,
+      "loss": -0.0645,
+      "num_tokens": 847579596.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.13229858875274658,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1415
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3567.0,
+      "completions/mean_length": 938.71435546875,
+      "completions/mean_terminated_length": 577.4328002929688,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.2332361516035,
+      "grad_norm": 0.16018874943256378,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 848139716.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.11599501967430115,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1416
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2709.0,
+      "completions/mean_length": 896.26904296875,
+      "completions/mean_terminated_length": 633.4891357421875,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 13.242565597667639,
+      "grad_norm": 0.16617926955223083,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 848744485.0,
+      "reward": 0.7220982313156128,
+      "reward_std": 0.13252753019332886,
+      "rewards/verify_math_reward/mean": 0.7220982313156128,
+      "rewards/verify_math_reward/std": 0.44821488857269287,
+      "step": 1417
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3493.0,
+      "completions/mean_length": 900.2500610351562,
+      "completions/mean_terminated_length": 625.2218017578125,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.251895043731778,
+      "grad_norm": 0.14421969652175903,
+      "learning_rate": 1e-06,
+      "loss": -0.0367,
+      "num_tokens": 849353517.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.11453007161617279,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1418
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3192.0,
+      "completions/mean_length": 1053.899658203125,
+      "completions/mean_terminated_length": 688.8474731445312,
+      "completions/min_length": 187.0,
+      "completions/min_terminated_length": 187.0,
+      "epoch": 13.261224489795918,
+      "grad_norm": 0.13865505158901215,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 849993419.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13440224528312683,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 1419
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1940.0,
+      "completions/mean_length": 892.9308471679688,
+      "completions/mean_terminated_length": 544.0816650390625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 13.270553935860057,
+      "grad_norm": 0.17532752454280853,
+      "learning_rate": 1e-06,
+      "loss": -0.0765,
+      "num_tokens": 850527917.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.14556489884853363,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1420
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3509.0,
+      "completions/mean_length": 851.6105346679688,
+      "completions/mean_terminated_length": 546.5824584960938,
+      "completions/min_length": 179.0,
+      "completions/min_terminated_length": 179.0,
+      "epoch": 13.279883381924199,
+      "grad_norm": 0.14888831973075867,
+      "learning_rate": 1e-06,
+      "loss": -0.0464,
+      "num_tokens": 851056416.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.09777004271745682,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1421
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3261.0,
+      "completions/mean_length": 988.5335083007812,
+      "completions/mean_terminated_length": 580.4822998046875,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 13.289212827988338,
+      "grad_norm": 0.17417357861995697,
+      "learning_rate": 1e-06,
+      "loss": -0.0778,
+      "num_tokens": 851608230.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.14951257407665253,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1422
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2408.0,
+      "completions/mean_length": 836.9386596679688,
+      "completions/mean_terminated_length": 582.01806640625,
+      "completions/min_length": 134.0,
+      "completions/min_terminated_length": 134.0,
+      "epoch": 13.298542274052478,
+      "grad_norm": 0.13680718839168549,
+      "learning_rate": 1e-06,
+      "loss": -0.044,
+      "num_tokens": 852181215.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.11306652426719666,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1423
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3765.0,
+      "completions/mean_length": 980.2467041015625,
+      "completions/mean_terminated_length": 653.6880493164062,
+      "completions/min_length": 163.0,
+      "completions/min_terminated_length": 163.0,
+      "epoch": 13.307871720116617,
+      "grad_norm": 0.17567257583141327,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 852804780.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14635583758354187,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1424
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3773.0,
+      "completions/mean_length": 1001.1495971679688,
+      "completions/mean_terminated_length": 651.296875,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 13.317201166180759,
+      "grad_norm": 0.1757599264383316,
+      "learning_rate": 1e-06,
+      "loss": -0.0636,
+      "num_tokens": 853409298.0,
+      "reward": 0.6361607313156128,
+      "reward_std": 0.16750863194465637,
+      "rewards/verify_math_reward/mean": 0.6361607313156128,
+      "rewards/verify_math_reward/std": 0.4813718795776367,
+      "step": 1425
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2792.0,
+      "completions/mean_length": 957.5803833007812,
+      "completions/mean_terminated_length": 632.916259765625,
+      "completions/min_length": 94.0,
+      "completions/min_terminated_length": 94.0,
+      "epoch": 13.326530612244898,
+      "grad_norm": 0.1588900089263916,
+      "learning_rate": 1e-06,
+      "loss": -0.0611,
+      "num_tokens": 854007802.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.13827435672283173,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131773710250854,
+      "step": 1426
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 1095.169677734375,
+      "completions/mean_terminated_length": 657.7084350585938,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 13.335860058309038,
+      "grad_norm": 0.1701296716928482,
+      "learning_rate": 1e-06,
+      "loss": -0.0847,
+      "num_tokens": 854608994.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.17250937223434448,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1427
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2462.0,
+      "completions/mean_length": 885.3292846679688,
+      "completions/mean_terminated_length": 630.0228881835938,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.345189504373177,
+      "grad_norm": 0.17226791381835938,
+      "learning_rate": 1e-06,
+      "loss": -0.0514,
+      "num_tokens": 855220193.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.12787194550037384,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1428
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3438.0,
+      "completions/mean_length": 955.6428833007812,
+      "completions/mean_terminated_length": 569.9849853515625,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 13.354518950437317,
+      "grad_norm": 0.1471056342124939,
+      "learning_rate": 1e-06,
+      "loss": -0.0876,
+      "num_tokens": 855756977.0,
+      "reward": 0.7433035969734192,
+      "reward_std": 0.13203828036785126,
+      "rewards/verify_math_reward/mean": 0.7433035969734192,
+      "rewards/verify_math_reward/std": 0.43705442547798157,
+      "step": 1429
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3461.0,
+      "completions/mean_length": 1002.271240234375,
+      "completions/mean_terminated_length": 591.5992431640625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 13.363848396501458,
+      "grad_norm": 0.1863008588552475,
+      "learning_rate": 1e-06,
+      "loss": -0.0629,
+      "num_tokens": 856304996.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.13151581585407257,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147337555885315,
+      "step": 1430
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2640.0,
+      "completions/mean_length": 802.6886596679688,
+      "completions/mean_terminated_length": 536.5223388671875,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 13.373177842565598,
+      "grad_norm": 0.16983327269554138,
+      "learning_rate": 1e-06,
+      "loss": -0.0341,
+      "num_tokens": 856844869.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.12756815552711487,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1431
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2443.0,
+      "completions/mean_length": 1055.243408203125,
+      "completions/mean_terminated_length": 642.8720092773438,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.382507288629737,
+      "grad_norm": 0.16662375628948212,
+      "learning_rate": 1e-06,
+      "loss": -0.0659,
+      "num_tokens": 857444103.0,
+      "reward": 0.6752232313156128,
+      "reward_std": 0.14350220561027527,
+      "rewards/verify_math_reward/mean": 0.6752232313156128,
+      "rewards/verify_math_reward/std": 0.46855294704437256,
+      "step": 1432
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2658.0,
+      "completions/mean_length": 997.90185546875,
+      "completions/mean_terminated_length": 568.8131713867188,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 13.391836734693877,
+      "grad_norm": 0.1733788251876831,
+      "learning_rate": 1e-06,
+      "loss": -0.0571,
+      "num_tokens": 857986231.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.15146787464618683,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1433
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2272.0,
+      "completions/mean_length": 884.0413208007812,
+      "completions/mean_terminated_length": 556.129150390625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.401166180758018,
+      "grad_norm": 0.17448434233665466,
+      "learning_rate": 1e-06,
+      "loss": -0.035,
+      "num_tokens": 858530740.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.10626383125782013,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 1434
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3361.0,
+      "completions/mean_length": 888.1350708007812,
+      "completions/mean_terminated_length": 582.2506103515625,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 13.410495626822158,
+      "grad_norm": 0.16415566205978394,
+      "learning_rate": 1e-06,
+      "loss": -0.0775,
+      "num_tokens": 859086229.0,
+      "reward": 0.7633928656578064,
+      "reward_std": 0.11175242811441422,
+      "rewards/verify_math_reward/mean": 0.7633928656578064,
+      "rewards/verify_math_reward/std": 0.42523646354675293,
+      "step": 1435
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2904.0,
+      "completions/mean_length": 941.43310546875,
+      "completions/mean_terminated_length": 584.8297729492188,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.419825072886297,
+      "grad_norm": 0.17067740857601166,
+      "learning_rate": 1e-06,
+      "loss": -0.0717,
+      "num_tokens": 859655705.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.14327649772167206,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1436
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0736607142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2738.0,
+      "completions/mean_length": 880.6641235351562,
+      "completions/mean_terminated_length": 624.9867553710938,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.429154518950437,
+      "grad_norm": 0.15706272423267365,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 860261260.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.1296411007642746,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1437
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3175.0,
+      "completions/mean_length": 956.1551513671875,
+      "completions/mean_terminated_length": 566.1367797851562,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 13.438483965014576,
+      "grad_norm": 0.14836430549621582,
+      "learning_rate": 1e-06,
+      "loss": -0.0459,
+      "num_tokens": 860804039.0,
+      "reward": 0.7366071939468384,
+      "reward_std": 0.09964726865291595,
+      "rewards/verify_math_reward/mean": 0.7366071343421936,
+      "rewards/verify_math_reward/std": 0.44071969389915466,
+      "step": 1438
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1584821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3724.0,
+      "completions/mean_length": 1184.2645263671875,
+      "completions/mean_terminated_length": 635.9005126953125,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 13.447813411078718,
+      "grad_norm": 0.16693590581417084,
+      "learning_rate": 1e-06,
+      "loss": -0.041,
+      "num_tokens": 861379044.0,
+      "reward": 0.6328125,
+      "reward_std": 0.13072557747364044,
+      "rewards/verify_math_reward/mean": 0.6328125,
+      "rewards/verify_math_reward/std": 0.48230743408203125,
+      "step": 1439
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2738.0,
+      "completions/mean_length": 949.8281860351562,
+      "completions/mean_terminated_length": 637.14111328125,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.457142857142857,
+      "grad_norm": 0.1452966183423996,
+      "learning_rate": 1e-06,
+      "loss": -0.0615,
+      "num_tokens": 861981666.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.1275695562362671,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1440
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3538.0,
+      "completions/mean_length": 1031.602783203125,
+      "completions/mean_terminated_length": 650.9560546875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.466472303206997,
+      "grad_norm": 0.15150801837444305,
+      "learning_rate": 1e-06,
+      "loss": -0.0436,
+      "num_tokens": 862592182.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.12366325408220291,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1441
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4080.0,
+      "completions/mean_length": 1003.4531860351562,
+      "completions/mean_terminated_length": 645.2876586914062,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 13.475801749271136,
+      "grad_norm": 0.15310557186603546,
+      "learning_rate": 1e-06,
+      "loss": -0.0573,
+      "num_tokens": 863197084.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.11945554614067078,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1442
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2603.0,
+      "completions/mean_length": 985.8069458007812,
+      "completions/mean_terminated_length": 581.8347778320312,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 13.485131195335278,
+      "grad_norm": 0.1850886195898056,
+      "learning_rate": 1e-06,
+      "loss": -0.0633,
+      "num_tokens": 863758295.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.14481602609157562,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1443
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3487.0,
+      "completions/mean_length": 912.3303833007812,
+      "completions/mean_terminated_length": 613.010986328125,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 13.494460641399417,
+      "grad_norm": 0.152607262134552,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 864348439.0,
+      "reward": 0.7578125596046448,
+      "reward_std": 0.13591107726097107,
+      "rewards/verify_math_reward/mean": 0.7578125,
+      "rewards/verify_math_reward/std": 0.428646445274353,
+      "step": 1444
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2739.0,
+      "completions/mean_length": 1003.7098388671875,
+      "completions/mean_terminated_length": 597.6514892578125,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 13.503790087463557,
+      "grad_norm": 0.1480863243341446,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 864912723.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.1145307794213295,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1445
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3719.0,
+      "completions/mean_length": 985.6272583007812,
+      "completions/mean_terminated_length": 634.0198364257812,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 13.513119533527696,
+      "grad_norm": 0.14685481786727905,
+      "learning_rate": 1e-06,
+      "loss": -0.0363,
+      "num_tokens": 865506973.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.10893410444259644,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1446
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3281.0,
+      "completions/mean_length": 995.97216796875,
+      "completions/mean_terminated_length": 588.897705078125,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 13.522448979591836,
+      "grad_norm": 0.18371158838272095,
+      "learning_rate": 1e-06,
+      "loss": -0.0531,
+      "num_tokens": 866075324.0,
+      "reward": 0.65625,
+      "reward_std": 0.13511762022972107,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1447
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3313.0,
+      "completions/mean_length": 1007.96435546875,
+      "completions/mean_terminated_length": 571.3121337890625,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 13.531778425655977,
+      "grad_norm": 0.17786386609077454,
+      "learning_rate": 1e-06,
+      "loss": -0.0565,
+      "num_tokens": 866604804.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.12373880296945572,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1448
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3462.0,
+      "completions/mean_length": 856.0658569335938,
+      "completions/mean_terminated_length": 589.9843139648438,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 13.541107871720117,
+      "grad_norm": 0.1376257985830307,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 867182991.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.11727311462163925,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 1449
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3789.0,
+      "completions/mean_length": 961.005615234375,
+      "completions/mean_terminated_length": 589.1897583007812,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 13.550437317784256,
+      "grad_norm": 0.13891948759555817,
+      "learning_rate": 1e-06,
+      "loss": -0.046,
+      "num_tokens": 867755420.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.10777155309915543,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1450
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3354.0,
+      "completions/mean_length": 894.74560546875,
+      "completions/mean_terminated_length": 598.0438842773438,
+      "completions/min_length": 165.0,
+      "completions/min_terminated_length": 165.0,
+      "epoch": 13.559766763848396,
+      "grad_norm": 0.15713556110858917,
+      "learning_rate": 1e-06,
+      "loss": -0.0595,
+      "num_tokens": 868326080.0,
+      "reward": 0.7254464626312256,
+      "reward_std": 0.1337721347808838,
+      "rewards/verify_math_reward/mean": 0.7254464030265808,
+      "rewards/verify_math_reward/std": 0.4465382993221283,
+      "step": 1451
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2098.0,
+      "completions/mean_length": 948.052490234375,
+      "completions/mean_terminated_length": 579.091064453125,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 13.569096209912537,
+      "grad_norm": 0.17287586629390717,
+      "learning_rate": 1e-06,
+      "loss": -0.0613,
+      "num_tokens": 868873743.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.15394878387451172,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1452
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3994.0,
+      "completions/mean_length": 934.5614013671875,
+      "completions/mean_terminated_length": 598.9024658203125,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 13.578425655976677,
+      "grad_norm": 0.18285146355628967,
+      "learning_rate": 1e-06,
+      "loss": -0.0806,
+      "num_tokens": 869445102.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.15530356764793396,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1453
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3315.0,
+      "completions/mean_length": 980.521240234375,
+      "completions/mean_terminated_length": 611.0199584960938,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 13.587755102040816,
+      "grad_norm": 0.20162659883499146,
+      "learning_rate": 1e-06,
+      "loss": -0.0551,
+      "num_tokens": 870028041.0,
+      "reward": 0.6651785969734192,
+      "reward_std": 0.13929423689842224,
+      "rewards/verify_math_reward/mean": 0.6651785969734192,
+      "rewards/verify_math_reward/std": 0.47219160199165344,
+      "step": 1454
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3592.0,
+      "completions/mean_length": 990.0045166015625,
+      "completions/mean_terminated_length": 634.592041015625,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 13.597084548104956,
+      "grad_norm": 0.16121090948581696,
+      "learning_rate": 1e-06,
+      "loss": -0.0656,
+      "num_tokens": 870634525.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.14263570308685303,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1455
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4001.0,
+      "completions/mean_length": 947.6160888671875,
+      "completions/mean_terminated_length": 643.182373046875,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 13.606413994169095,
+      "grad_norm": 0.1407116949558258,
+      "learning_rate": 1e-06,
+      "loss": -0.0453,
+      "num_tokens": 871256381.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.11900020390748978,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1456
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2704.0,
+      "completions/mean_length": 1019.2824096679688,
+      "completions/mean_terminated_length": 637.1054077148438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 13.615743440233237,
+      "grad_norm": 0.18685175478458405,
+      "learning_rate": 1e-06,
+      "loss": -0.072,
+      "num_tokens": 871850650.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.15289682149887085,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1457
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0613839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2851.0,
+      "completions/mean_length": 766.0357666015625,
+      "completions/mean_terminated_length": 548.2615966796875,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 13.625072886297376,
+      "grad_norm": 0.127822607755661,
+      "learning_rate": 1e-06,
+      "loss": -0.0499,
+      "num_tokens": 872400834.0,
+      "reward": 0.7555803656578064,
+      "reward_std": 0.10325934737920761,
+      "rewards/verify_math_reward/mean": 0.7555803656578064,
+      "rewards/verify_math_reward/std": 0.42998260259628296,
+      "step": 1458
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3882.0,
+      "completions/mean_length": 1057.83935546875,
+      "completions/mean_terminated_length": 658.888916015625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 13.634402332361516,
+      "grad_norm": 0.14694525301456451,
+      "learning_rate": 1e-06,
+      "loss": -0.0687,
+      "num_tokens": 873018506.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.13339193165302277,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1459
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1350446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2342.0,
+      "completions/mean_length": 1110.458740234375,
+      "completions/mean_terminated_length": 644.3290405273438,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 13.643731778425655,
+      "grad_norm": 0.16294415295124054,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 873612685.0,
+      "reward": 0.6830357313156128,
+      "reward_std": 0.13955634832382202,
+      "rewards/verify_math_reward/mean": 0.6830357313156128,
+      "rewards/verify_math_reward/std": 0.46555325388908386,
+      "step": 1460
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3086.0,
+      "completions/mean_length": 1041.673095703125,
+      "completions/mean_terminated_length": 649.3035278320312,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 13.653061224489797,
+      "grad_norm": 0.1573956310749054,
+      "learning_rate": 1e-06,
+      "loss": -0.071,
+      "num_tokens": 874208744.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.14301365613937378,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1461
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3341.0,
+      "completions/mean_length": 980.3527221679688,
+      "completions/mean_terminated_length": 593.3400268554688,
+      "completions/min_length": 188.0,
+      "completions/min_terminated_length": 188.0,
+      "epoch": 13.662390670553936,
+      "grad_norm": 0.17042101919651031,
+      "learning_rate": 1e-06,
+      "loss": -0.0671,
+      "num_tokens": 874772964.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.14042328298091888,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1462
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.140625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3911.0,
+      "completions/mean_length": 1108.044677734375,
+      "completions/mean_terminated_length": 619.1065063476562,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 13.671720116618076,
+      "grad_norm": 0.1893538534641266,
+      "learning_rate": 1e-06,
+      "loss": -0.0987,
+      "num_tokens": 875337116.0,
+      "reward": 0.640625,
+      "reward_std": 0.16003653407096863,
+      "rewards/verify_math_reward/mean": 0.640625,
+      "rewards/verify_math_reward/std": 0.48008525371551514,
+      "step": 1463
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4095.0,
+      "completions/mean_length": 1091.2835693359375,
+      "completions/mean_terminated_length": 644.42822265625,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 13.681049562682215,
+      "grad_norm": 0.1623772531747818,
+      "learning_rate": 1e-06,
+      "loss": -0.0516,
+      "num_tokens": 875924458.0,
+      "reward": 0.637276828289032,
+      "reward_std": 0.11272881925106049,
+      "rewards/verify_math_reward/mean": 0.6372767686843872,
+      "rewards/verify_math_reward/std": 0.481054425239563,
+      "step": 1464
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0714285714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3126.0,
+      "completions/mean_length": 853.2600708007812,
+      "completions/mean_terminated_length": 603.8185424804688,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 13.690379008746355,
+      "grad_norm": 0.2092238962650299,
+      "learning_rate": 1e-06,
+      "loss": -0.0508,
+      "num_tokens": 876523275.0,
+      "reward": 0.7020089626312256,
+      "reward_std": 0.18216319382190704,
+      "rewards/verify_math_reward/mean": 0.7020089030265808,
+      "rewards/verify_math_reward/std": 0.45763099193573,
+      "step": 1465
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2462.0,
+      "completions/mean_length": 922.2467041015625,
+      "completions/mean_terminated_length": 576.59033203125,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 13.699708454810496,
+      "grad_norm": 0.15257404744625092,
+      "learning_rate": 1e-06,
+      "loss": -0.0474,
+      "num_tokens": 877067528.0,
+      "reward": 0.746651828289032,
+      "reward_std": 0.11204595863819122,
+      "rewards/verify_math_reward/mean": 0.7466517686843872,
+      "rewards/verify_math_reward/std": 0.435171514749527,
+      "step": 1466
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3467.0,
+      "completions/mean_length": 960.7176513671875,
+      "completions/mean_terminated_length": 640.6334228515625,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 13.709037900874636,
+      "grad_norm": 0.15851299464702606,
+      "learning_rate": 1e-06,
+      "loss": -0.0426,
+      "num_tokens": 877672347.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.13000810146331787,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1467
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3065.0,
+      "completions/mean_length": 990.8058471679688,
+      "completions/mean_terminated_length": 591.9017333984375,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 13.718367346938775,
+      "grad_norm": 0.17357619106769562,
+      "learning_rate": 1e-06,
+      "loss": -0.0554,
+      "num_tokens": 878243837.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.12613599002361298,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1468
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3254.0,
+      "completions/mean_length": 1113.1785888671875,
+      "completions/mean_terminated_length": 691.40380859375,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 13.727696793002915,
+      "grad_norm": 0.16974762082099915,
+      "learning_rate": 1e-06,
+      "loss": -0.0782,
+      "num_tokens": 878877197.0,
+      "reward": 0.6484375,
+      "reward_std": 0.14838209748268127,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1469
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2407.0,
+      "completions/mean_length": 1057.8192138671875,
+      "completions/mean_terminated_length": 614.9130249023438,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.737026239067056,
+      "grad_norm": 0.16159725189208984,
+      "learning_rate": 1e-06,
+      "loss": -0.0706,
+      "num_tokens": 879437771.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.12685208022594452,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1470
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3467.0,
+      "completions/mean_length": 1014.474365234375,
+      "completions/mean_terminated_length": 614.2257080078125,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 13.746355685131196,
+      "grad_norm": 0.19176022708415985,
+      "learning_rate": 1e-06,
+      "loss": -0.0582,
+      "num_tokens": 880013188.0,
+      "reward": 0.7198660969734192,
+      "reward_std": 0.16735707223415375,
+      "rewards/verify_math_reward/mean": 0.7198660969734192,
+      "rewards/verify_math_reward/std": 0.44931527972221375,
+      "step": 1471
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2491.0,
+      "completions/mean_length": 1065.8817138671875,
+      "completions/mean_terminated_length": 624.15087890625,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 13.755685131195335,
+      "grad_norm": 0.15909433364868164,
+      "learning_rate": 1e-06,
+      "loss": -0.0818,
+      "num_tokens": 880600018.0,
+      "reward": 0.6875000596046448,
+      "reward_std": 0.15015266835689545,
+      "rewards/verify_math_reward/mean": 0.6875,
+      "rewards/verify_math_reward/std": 0.4637712836265564,
+      "step": 1472
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3102.0,
+      "completions/mean_length": 1013.0558471679688,
+      "completions/mean_terminated_length": 647.4132080078125,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 13.765014577259475,
+      "grad_norm": 0.14070793986320496,
+      "learning_rate": 1e-06,
+      "loss": -0.0441,
+      "num_tokens": 881202588.0,
+      "reward": 0.6741071939468384,
+      "reward_std": 0.12464035302400589,
+      "rewards/verify_math_reward/mean": 0.6741071343421936,
+      "rewards/verify_math_reward/std": 0.4689692556858063,
+      "step": 1473
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 1051.0201416015625,
+      "completions/mean_terminated_length": 642.4531860351562,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 13.774344023323614,
+      "grad_norm": 0.1834116131067276,
+      "learning_rate": 1e-06,
+      "loss": -0.0703,
+      "num_tokens": 881808030.0,
+      "reward": 0.65625,
+      "reward_std": 0.1377544105052948,
+      "rewards/verify_math_reward/mean": 0.65625,
+      "rewards/verify_math_reward/std": 0.4752241373062134,
+      "step": 1474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2916.0,
+      "completions/mean_length": 1013.9375610351562,
+      "completions/mean_terminated_length": 690.9099731445312,
+      "completions/min_length": 208.0,
+      "completions/min_terminated_length": 208.0,
+      "epoch": 13.783673469387756,
+      "grad_norm": 0.16175587475299835,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 882462102.0,
+      "reward": 0.6573660969734192,
+      "reward_std": 0.14248555898666382,
+      "rewards/verify_math_reward/mean": 0.6573660969734192,
+      "rewards/verify_math_reward/std": 0.47485533356666565,
+      "step": 1475
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3226.0,
+      "completions/mean_length": 862.0982666015625,
+      "completions/mean_terminated_length": 562.3707275390625,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 13.793002915451895,
+      "grad_norm": 0.19891230762004852,
+      "learning_rate": 1e-06,
+      "loss": -0.078,
+      "num_tokens": 883019774.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.164614737033844,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1476
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3850.0,
+      "completions/mean_length": 1164.677490234375,
+      "completions/mean_terminated_length": 680.5708618164062,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 13.802332361516035,
+      "grad_norm": 0.16575460135936737,
+      "learning_rate": 1e-06,
+      "loss": -0.0518,
+      "num_tokens": 883638445.0,
+      "reward": 0.6350446939468384,
+      "reward_std": 0.1350851058959961,
+      "rewards/verify_math_reward/mean": 0.6350446343421936,
+      "rewards/verify_math_reward/std": 0.481686532497406,
+      "step": 1477
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3474.0,
+      "completions/mean_length": 1026.149658203125,
+      "completions/mean_terminated_length": 631.785888671875,
+      "completions/min_length": 176.0,
+      "completions/min_terminated_length": 176.0,
+      "epoch": 13.811661807580174,
+      "grad_norm": 0.15212048590183258,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 884218523.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.11809726059436798,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 1478
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2888.0,
+      "completions/mean_length": 980.6250610351562,
+      "completions/mean_terminated_length": 645.5970458984375,
+      "completions/min_length": 198.0,
+      "completions/min_terminated_length": 198.0,
+      "epoch": 13.820991253644316,
+      "grad_norm": 0.18683385848999023,
+      "learning_rate": 1e-06,
+      "loss": -0.0314,
+      "num_tokens": 884828347.0,
+      "reward": 0.6439732313156128,
+      "reward_std": 0.1507924646139145,
+      "rewards/verify_math_reward/mean": 0.6439732313156128,
+      "rewards/verify_math_reward/std": 0.47909072041511536,
+      "step": 1479
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3962.0,
+      "completions/mean_length": 968.4576416015625,
+      "completions/mean_terminated_length": 601.8878173828125,
+      "completions/min_length": 171.0,
+      "completions/min_terminated_length": 171.0,
+      "epoch": 13.830320699708455,
+      "grad_norm": 0.1512003242969513,
+      "learning_rate": 1e-06,
+      "loss": -0.0325,
+      "num_tokens": 885395469.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.10310779511928558,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.434536337852478,
+      "step": 1480
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4015.0,
+      "completions/mean_length": 929.6160888671875,
+      "completions/mean_terminated_length": 614.9202270507812,
+      "completions/min_length": 141.0,
+      "completions/min_terminated_length": 141.0,
+      "epoch": 13.839650145772595,
+      "grad_norm": 0.15268227458000183,
+      "learning_rate": 1e-06,
+      "loss": -0.0399,
+      "num_tokens": 885979421.0,
+      "reward": 0.7354910969734192,
+      "reward_std": 0.11974698305130005,
+      "rewards/verify_math_reward/mean": 0.7354910969734192,
+      "rewards/verify_math_reward/std": 0.44131770730018616,
+      "step": 1481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 1374.6082763671875,
+      "completions/mean_terminated_length": 746.5947875976562,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 13.848979591836734,
+      "grad_norm": 0.17460675537586212,
+      "learning_rate": 1e-06,
+      "loss": -0.0944,
+      "num_tokens": 886622726.0,
+      "reward": 0.582589328289032,
+      "reward_std": 0.1363222450017929,
+      "rewards/verify_math_reward/mean": 0.5825892686843872,
+      "rewards/verify_math_reward/std": 0.493407279253006,
+      "step": 1482
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1049107142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3908.0,
+      "completions/mean_length": 988.5022583007812,
+      "completions/mean_terminated_length": 624.2817993164062,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 13.858309037900874,
+      "grad_norm": 0.19615179300308228,
+      "learning_rate": 1e-06,
+      "loss": -0.0357,
+      "num_tokens": 887216496.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1649598926305771,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1483
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1037946428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2445.0,
+      "completions/mean_length": 964.9576416015625,
+      "completions/mean_terminated_length": 602.333740234375,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 13.867638483965015,
+      "grad_norm": 0.16442091763019562,
+      "learning_rate": 1e-06,
+      "loss": -0.0583,
+      "num_tokens": 887789738.0,
+      "reward": 0.6796875596046448,
+      "reward_std": 0.1258022040128708,
+      "rewards/verify_math_reward/mean": 0.6796875,
+      "rewards/verify_math_reward/std": 0.4668572247028351,
+      "step": 1484
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3406.0,
+      "completions/mean_length": 957.2288208007812,
+      "completions/mean_terminated_length": 584.9650268554688,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 13.876967930029155,
+      "grad_norm": 0.1913428008556366,
+      "learning_rate": 1e-06,
+      "loss": -0.0358,
+      "num_tokens": 888339695.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.1349346935749054,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1485
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2628.0,
+      "completions/mean_length": 1037.868408203125,
+      "completions/mean_terminated_length": 618.7334594726562,
+      "completions/min_length": 131.0,
+      "completions/min_terminated_length": 131.0,
+      "epoch": 13.886297376093294,
+      "grad_norm": 0.14787276089191437,
+      "learning_rate": 1e-06,
+      "loss": -0.0296,
+      "num_tokens": 888914169.0,
+      "reward": 0.6484375,
+      "reward_std": 0.10502780973911285,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1486
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3771.0,
+      "completions/mean_length": 969.2645263671875,
+      "completions/mean_terminated_length": 585.2794189453125,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 13.895626822157434,
+      "grad_norm": 0.17590682208538055,
+      "learning_rate": 1e-06,
+      "loss": -0.0591,
+      "num_tokens": 889470590.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.16074123978614807,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1487
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4073.0,
+      "completions/mean_length": 902.0357666015625,
+      "completions/mean_terminated_length": 610.2606811523438,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 13.904956268221575,
+      "grad_norm": 0.1257428377866745,
+      "learning_rate": 1e-06,
+      "loss": -0.0487,
+      "num_tokens": 890049350.0,
+      "reward": 0.7444196939468384,
+      "reward_std": 0.09679364413022995,
+      "rewards/verify_math_reward/mean": 0.7444196343421936,
+      "rewards/verify_math_reward/std": 0.43643057346343994,
+      "step": 1488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2802.0,
+      "completions/mean_length": 1040.3148193359375,
+      "completions/mean_terminated_length": 590.3739013671875,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 13.914285714285715,
+      "grad_norm": 0.17225463688373566,
+      "learning_rate": 1e-06,
+      "loss": -0.0635,
+      "num_tokens": 890605344.0,
+      "reward": 0.6584821939468384,
+      "reward_std": 0.1392507553100586,
+      "rewards/verify_math_reward/mean": 0.6584821343421936,
+      "rewards/verify_math_reward/std": 0.4744836091995239,
+      "step": 1489
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1104910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2248.0,
+      "completions/mean_length": 975.9922485351562,
+      "completions/mean_terminated_length": 588.4378662109375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 13.923615160349854,
+      "grad_norm": 0.19903920590877533,
+      "learning_rate": 1e-06,
+      "loss": -0.0693,
+      "num_tokens": 891162729.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.146812304854393,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1490
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2746.0,
+      "completions/mean_length": 960.2701416015625,
+      "completions/mean_terminated_length": 635.8842163085938,
+      "completions/min_length": 181.0,
+      "completions/min_terminated_length": 181.0,
+      "epoch": 13.932944606413994,
+      "grad_norm": 0.17317359149456024,
+      "learning_rate": 1e-06,
+      "loss": -0.0519,
+      "num_tokens": 891766315.0,
+      "reward": 0.6662946939468384,
+      "reward_std": 0.16029545664787292,
+      "rewards/verify_math_reward/mean": 0.6662946343421936,
+      "rewards/verify_math_reward/std": 0.47179922461509705,
+      "step": 1491
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2907.0,
+      "completions/mean_length": 956.4397583007812,
+      "completions/mean_terminated_length": 601.5328979492188,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 13.942274052478133,
+      "grad_norm": 0.16615170240402222,
+      "learning_rate": 1e-06,
+      "loss": -0.0374,
+      "num_tokens": 892339717.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.1494365781545639,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1492
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 1768.0,
+      "completions/mean_length": 826.8303833007812,
+      "completions/mean_terminated_length": 583.798583984375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.951603498542275,
+      "grad_norm": 0.17302149534225464,
+      "learning_rate": 1e-06,
+      "loss": -0.0696,
+      "num_tokens": 892913909.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.13572493195533752,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1493
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2086.0,
+      "completions/mean_length": 1025.3695068359375,
+      "completions/mean_terminated_length": 630.905517578125,
+      "completions/min_length": 182.0,
+      "completions/min_terminated_length": 182.0,
+      "epoch": 13.960932944606414,
+      "grad_norm": 0.1573459655046463,
+      "learning_rate": 1e-06,
+      "loss": -0.0859,
+      "num_tokens": 893511112.0,
+      "reward": 0.6964285969734192,
+      "reward_std": 0.14624707400798798,
+      "rewards/verify_math_reward/mean": 0.6964285969734192,
+      "rewards/verify_math_reward/std": 0.4600566029548645,
+      "step": 1494
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1417410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3187.0,
+      "completions/mean_length": 1127.03466796875,
+      "completions/mean_terminated_length": 636.7113037109375,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 13.970262390670554,
+      "grad_norm": 0.149027481675148,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 894081831.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.13421930372714996,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1495
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3001.0,
+      "completions/mean_length": 891.9766235351562,
+      "completions/mean_terminated_length": 582.1627807617188,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 13.979591836734693,
+      "grad_norm": 0.16230741143226624,
+      "learning_rate": 1e-06,
+      "loss": -0.0404,
+      "num_tokens": 894642658.0,
+      "reward": 0.7332589626312256,
+      "reward_std": 0.10998578369617462,
+      "rewards/verify_math_reward/mean": 0.7332589030265808,
+      "rewards/verify_math_reward/std": 0.4425029158592224,
+      "step": 1496
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2666.0,
+      "completions/mean_length": 1073.5625,
+      "completions/mean_terminated_length": 680.9886474609375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 13.988921282798835,
+      "grad_norm": 0.18213573098182678,
+      "learning_rate": 1e-06,
+      "loss": -0.0481,
+      "num_tokens": 895275730.0,
+      "reward": 0.6183035969734192,
+      "reward_std": 0.17404988408088684,
+      "rewards/verify_math_reward/mean": 0.6183035969734192,
+      "rewards/verify_math_reward/std": 0.4860740303993225,
+      "step": 1497
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.11931818181818177,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2855.0,
+      "completions/mean_length": 1023.227294921875,
+      "completions/mean_terminated_length": 606.9161376953125,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 13.998250728862974,
+      "grad_norm": 0.17152397334575653,
+      "learning_rate": 1e-06,
+      "loss": -0.0619,
+      "num_tokens": 895843375.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.1328292191028595,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1498
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1316964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3177.0,
+      "completions/mean_length": 1059.9765625,
+      "completions/mean_terminated_length": 599.5,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.00932944606414,
+      "grad_norm": 0.2022089809179306,
+      "learning_rate": 1e-06,
+      "loss": -0.0283,
+      "num_tokens": 896397698.0,
+      "reward": 0.645089328289032,
+      "reward_std": 0.10757722705602646,
+      "rewards/verify_math_reward/mean": 0.6450892686843872,
+      "rewards/verify_math_reward/std": 0.4787535071372986,
+      "step": 1499
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2431.0,
+      "completions/mean_length": 847.0335083007812,
+      "completions/mean_terminated_length": 592.9025268554688,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 14.018658892128279,
+      "grad_norm": 0.16060009598731995,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 896986088.0,
+      "reward": 0.7667410969734192,
+      "reward_std": 0.12628935277462006,
+      "rewards/verify_math_reward/mean": 0.7667410969734192,
+      "rewards/verify_math_reward/std": 0.4231418967247009,
+      "step": 1500
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1305803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2513.0,
+      "completions/mean_length": 1096.0982666015625,
+      "completions/mean_terminated_length": 645.5353393554688,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 14.02798833819242,
+      "grad_norm": 0.17677782475948334,
+      "learning_rate": 1e-06,
+      "loss": -0.0658,
+      "num_tokens": 897587488.0,
+      "reward": 0.6227678656578064,
+      "reward_std": 0.16623122990131378,
+      "rewards/verify_math_reward/mean": 0.6227678656578064,
+      "rewards/verify_math_reward/std": 0.4849644899368286,
+      "step": 1501
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0915178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2656.0,
+      "completions/mean_length": 947.55810546875,
+      "completions/mean_terminated_length": 630.3931274414062,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 14.03731778425656,
+      "grad_norm": 0.1595323532819748,
+      "learning_rate": 1e-06,
+      "loss": -0.0549,
+      "num_tokens": 898181756.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.13865482807159424,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1502
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3637.0,
+      "completions/mean_length": 913.8225708007812,
+      "completions/mean_terminated_length": 623.124267578125,
+      "completions/min_length": 196.0,
+      "completions/min_terminated_length": 196.0,
+      "epoch": 14.0466472303207,
+      "grad_norm": 0.1728564351797104,
+      "learning_rate": 1e-06,
+      "loss": -0.0748,
+      "num_tokens": 898783421.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.16751113533973694,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.4382909834384918,
+      "step": 1503
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3101.0,
+      "completions/mean_length": 923.2734985351562,
+      "completions/mean_terminated_length": 616.4859619140625,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 14.055976676384839,
+      "grad_norm": 0.17132966220378876,
+      "learning_rate": 1e-06,
+      "loss": -0.0471,
+      "num_tokens": 899372250.0,
+      "reward": 0.731026828289032,
+      "reward_std": 0.1465826779603958,
+      "rewards/verify_math_reward/mean": 0.7310267686843872,
+      "rewards/verify_math_reward/std": 0.44367367029190063,
+      "step": 1504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2858.0,
+      "completions/mean_length": 869.1194458007812,
+      "completions/mean_terminated_length": 608.3220825195312,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 14.06530612244898,
+      "grad_norm": 0.14070063829421997,
+      "learning_rate": 1e-06,
+      "loss": -0.0521,
+      "num_tokens": 899963989.0,
+      "reward": 0.738839328289032,
+      "reward_std": 0.12328347563743591,
+      "rewards/verify_math_reward/mean": 0.7388392686843872,
+      "rewards/verify_math_reward/std": 0.439512699842453,
+      "step": 1505
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3739.0,
+      "completions/mean_length": 922.3638916015625,
+      "completions/mean_terminated_length": 598.3640747070312,
+      "completions/min_length": 194.0,
+      "completions/min_terminated_length": 194.0,
+      "epoch": 14.07463556851312,
+      "grad_norm": 0.17546145617961884,
+      "learning_rate": 1e-06,
+      "loss": -0.0557,
+      "num_tokens": 900545227.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.14410065114498138,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1506
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3075.0,
+      "completions/mean_length": 1105.091552734375,
+      "completions/mean_terminated_length": 620.1842041015625,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 14.08396501457726,
+      "grad_norm": 0.17474296689033508,
+      "learning_rate": 1e-06,
+      "loss": -0.0855,
+      "num_tokens": 901111565.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.1361721009016037,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1507
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2709.0,
+      "completions/mean_length": 914.505615234375,
+      "completions/mean_terminated_length": 568.0061645507812,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 14.093294460641399,
+      "grad_norm": 0.15863321721553802,
+      "learning_rate": 1e-06,
+      "loss": -0.0654,
+      "num_tokens": 901658418.0,
+      "reward": 0.7477678656578064,
+      "reward_std": 0.12166838347911835,
+      "rewards/verify_math_reward/mean": 0.7477678656578064,
+      "rewards/verify_math_reward/std": 0.4345363676548004,
+      "step": 1508
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1071428571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2591.0,
+      "completions/mean_length": 965.6998291015625,
+      "completions/mean_terminated_length": 590.063720703125,
+      "completions/min_length": 205.0,
+      "completions/min_terminated_length": 205.0,
+      "epoch": 14.102623906705539,
+      "grad_norm": 0.15326561033725739,
+      "learning_rate": 1e-06,
+      "loss": -0.0873,
+      "num_tokens": 902221901.0,
+      "reward": 0.7176339626312256,
+      "reward_std": 0.13914267718791962,
+      "rewards/verify_math_reward/mean": 0.7176339030265808,
+      "rewards/verify_math_reward/std": 0.4504019320011139,
+      "step": 1509
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0747767857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2757.0,
+      "completions/mean_length": 839.755615234375,
+      "completions/mean_terminated_length": 576.5850219726562,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.11195335276968,
+      "grad_norm": 0.1533268392086029,
+      "learning_rate": 1e-06,
+      "loss": -0.056,
+      "num_tokens": 902782122.0,
+      "reward": 0.7823660969734192,
+      "reward_std": 0.12156030535697937,
+      "rewards/verify_math_reward/mean": 0.7823660969734192,
+      "rewards/verify_math_reward/std": 0.41286757588386536,
+      "step": 1510
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 1012.7500610351562,
+      "completions/mean_terminated_length": 647.0711669921875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 14.12128279883382,
+      "grad_norm": 0.13378357887268066,
+      "learning_rate": 1e-06,
+      "loss": -0.0409,
+      "num_tokens": 903383978.0,
+      "reward": 0.684151828289032,
+      "reward_std": 0.11129778623580933,
+      "rewards/verify_math_reward/mean": 0.6841517686843872,
+      "rewards/verify_math_reward/std": 0.46511244773864746,
+      "step": 1511
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0479910714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3779.0,
+      "completions/mean_length": 741.2745971679688,
+      "completions/mean_terminated_length": 572.1617431640625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 14.130612244897959,
+      "grad_norm": 0.16233642399311066,
+      "learning_rate": 1e-06,
+      "loss": -0.0198,
+      "num_tokens": 903952352.0,
+      "reward": 0.7767857313156128,
+      "reward_std": 0.11791250854730606,
+      "rewards/verify_math_reward/mean": 0.7767857313156128,
+      "rewards/verify_math_reward/std": 0.41663339734077454,
+      "step": 1512
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.078125,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3494.0,
+      "completions/mean_length": 879.114990234375,
+      "completions/mean_terminated_length": 606.4976196289062,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 14.139941690962099,
+      "grad_norm": 0.1455606073141098,
+      "learning_rate": 1e-06,
+      "loss": -0.0504,
+      "num_tokens": 904547167.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.12426057457923889,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1513
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4087.0,
+      "completions/mean_length": 1049.782470703125,
+      "completions/mean_terminated_length": 627.8792724609375,
+      "completions/min_length": 183.0,
+      "completions/min_terminated_length": 183.0,
+      "epoch": 14.14927113702624,
+      "grad_norm": 0.14874128997325897,
+      "learning_rate": 1e-06,
+      "loss": -0.0455,
+      "num_tokens": 905135476.0,
+      "reward": 0.6506696939468384,
+      "reward_std": 0.1328292191028595,
+      "rewards/verify_math_reward/mean": 0.6506696343421936,
+      "rewards/verify_math_reward/std": 0.47702476382255554,
+      "step": 1514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1171875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3750.0,
+      "completions/mean_length": 1090.1763916015625,
+      "completions/mean_terminated_length": 691.1732177734375,
+      "completions/min_length": 122.0,
+      "completions/min_terminated_length": 122.0,
+      "epoch": 14.15860058309038,
+      "grad_norm": 0.18435132503509521,
+      "learning_rate": 1e-06,
+      "loss": -0.0497,
+      "num_tokens": 905772634.0,
+      "reward": 0.6540178656578064,
+      "reward_std": 0.14120353758335114,
+      "rewards/verify_math_reward/mean": 0.6540178656578064,
+      "rewards/verify_math_reward/std": 0.4759531021118164,
+      "step": 1515
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3794.0,
+      "completions/mean_length": 912.9397583007812,
+      "completions/mean_terminated_length": 605.1530151367188,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.167930029154519,
+      "grad_norm": 0.13334131240844727,
+      "learning_rate": 1e-06,
+      "loss": -0.0676,
+      "num_tokens": 906356308.0,
+      "reward": 0.7678571939468384,
+      "reward_std": 0.09795550256967545,
+      "rewards/verify_math_reward/mean": 0.7678571343421936,
+      "rewards/verify_math_reward/std": 0.422435462474823,
+      "step": 1516
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0770089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2613.0,
+      "completions/mean_length": 858.5201416015625,
+      "completions/mean_terminated_length": 588.4038696289062,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 14.177259475218658,
+      "grad_norm": 0.19183936715126038,
+      "learning_rate": 1e-06,
+      "loss": -0.0662,
+      "num_tokens": 906931110.0,
+      "reward": 0.7276785969734192,
+      "reward_std": 0.16093555092811584,
+      "rewards/verify_math_reward/mean": 0.7276785969734192,
+      "rewards/verify_math_reward/std": 0.4454030692577362,
+      "step": 1517
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2864.0,
+      "completions/mean_length": 969.8605346679688,
+      "completions/mean_terminated_length": 629.3898315429688,
+      "completions/min_length": 184.0,
+      "completions/min_terminated_length": 184.0,
+      "epoch": 14.186588921282798,
+      "grad_norm": 0.16061101853847504,
+      "learning_rate": 1e-06,
+      "loss": -0.0541,
+      "num_tokens": 907525097.0,
+      "reward": 0.6986607313156128,
+      "reward_std": 0.13906529545783997,
+      "rewards/verify_math_reward/mean": 0.6986607313156128,
+      "rewards/verify_math_reward/std": 0.4590960443019867,
+      "step": 1518
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1395089285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2864.0,
+      "completions/mean_length": 1060.1060791015625,
+      "completions/mean_terminated_length": 567.9053344726562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.19591836734694,
+      "grad_norm": 0.15217699110507965,
+      "learning_rate": 1e-06,
+      "loss": -0.0704,
+      "num_tokens": 908055944.0,
+      "reward": 0.6975446939468384,
+      "reward_std": 0.11550647020339966,
+      "rewards/verify_math_reward/mean": 0.6975446343421936,
+      "rewards/verify_math_reward/std": 0.45957788825035095,
+      "step": 1519
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0691964285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3806.0,
+      "completions/mean_length": 798.654052734375,
+      "completions/mean_terminated_length": 553.527587890625,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 14.205247813411079,
+      "grad_norm": 0.1444699615240097,
+      "learning_rate": 1e-06,
+      "loss": -0.0421,
+      "num_tokens": 908606898.0,
+      "reward": 0.754464328289032,
+      "reward_std": 0.1216326504945755,
+      "rewards/verify_math_reward/mean": 0.7544642686843872,
+      "rewards/verify_math_reward/std": 0.4306447505950928,
+      "step": 1520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3694.0,
+      "completions/mean_length": 974.63623046875,
+      "completions/mean_terminated_length": 582.5050048828125,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 14.214577259475218,
+      "grad_norm": 0.14740106463432312,
+      "learning_rate": 1e-06,
+      "loss": -0.0567,
+      "num_tokens": 909155908.0,
+      "reward": 0.6941964626312256,
+      "reward_std": 0.10904286801815033,
+      "rewards/verify_math_reward/mean": 0.6941964030265808,
+      "rewards/verify_math_reward/std": 0.4610042870044708,
+      "step": 1521
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1216517857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3105.0,
+      "completions/mean_length": 1033.37060546875,
+      "completions/mean_terminated_length": 609.1943969726562,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 14.223906705539358,
+      "grad_norm": 0.20302633941173553,
+      "learning_rate": 1e-06,
+      "loss": -0.0707,
+      "num_tokens": 909716880.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.15597687661647797,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1522
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0959821428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4069.0,
+      "completions/mean_length": 1000.3370971679688,
+      "completions/mean_terminated_length": 671.6617431640625,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 14.2332361516035,
+      "grad_norm": 0.161456897854805,
+      "learning_rate": 1e-06,
+      "loss": -0.0277,
+      "num_tokens": 910349222.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.14943771064281464,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140389680862427,
+      "step": 1523
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3216.0,
+      "completions/mean_length": 958.6094360351562,
+      "completions/mean_terminated_length": 612.6022338867188,
+      "completions/min_length": 162.0,
+      "completions/min_terminated_length": 162.0,
+      "epoch": 14.242565597667639,
+      "grad_norm": 0.16442476212978363,
+      "learning_rate": 1e-06,
+      "loss": -0.0449,
+      "num_tokens": 910932048.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.14327649772167206,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1524
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3293.0,
+      "completions/mean_length": 951.3092041015625,
+      "completions/mean_terminated_length": 600.1649780273438,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 14.251895043731778,
+      "grad_norm": 0.16809825599193573,
+      "learning_rate": 1e-06,
+      "loss": -0.0596,
+      "num_tokens": 911516661.0,
+      "reward": 0.6930803656578064,
+      "reward_std": 0.11404222995042801,
+      "rewards/verify_math_reward/mean": 0.6930803656578064,
+      "rewards/verify_math_reward/std": 0.46147334575653076,
+      "step": 1525
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3829.0,
+      "completions/mean_length": 981.1641235351562,
+      "completions/mean_terminated_length": 598.6403198242188,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 14.261224489795918,
+      "grad_norm": 0.18891319632530212,
+      "learning_rate": 1e-06,
+      "loss": -0.0552,
+      "num_tokens": 912084616.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.13485799729824066,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1526
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 972.2254638671875,
+      "completions/mean_terminated_length": 623.4168701171875,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 14.270553935860057,
+      "grad_norm": 0.18301506340503693,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 912684906.0,
+      "reward": 0.6629464626312256,
+      "reward_std": 0.14751701056957245,
+      "rewards/verify_math_reward/mean": 0.6629464030265808,
+      "rewards/verify_math_reward/std": 0.47296738624572754,
+      "step": 1527
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1540178571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4075.0,
+      "completions/mean_length": 1189.430908203125,
+      "completions/mean_terminated_length": 660.2665405273438,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.279883381924199,
+      "grad_norm": 0.1512364149093628,
+      "learning_rate": 1e-06,
+      "loss": -0.0594,
+      "num_tokens": 913278100.0,
+      "reward": 0.5803571939468384,
+      "reward_std": 0.12249071896076202,
+      "rewards/verify_math_reward/mean": 0.5803571343421936,
+      "rewards/verify_math_reward/std": 0.4937761425971985,
+      "step": 1528
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1015625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2563.0,
+      "completions/mean_length": 1008.7210083007812,
+      "completions/mean_terminated_length": 659.7241821289062,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 14.289212827988338,
+      "grad_norm": 0.153366357088089,
+      "learning_rate": 1e-06,
+      "loss": -0.0686,
+      "num_tokens": 913889898.0,
+      "reward": 0.6707589626312256,
+      "reward_std": 0.14289602637290955,
+      "rewards/verify_math_reward/mean": 0.6707589030265808,
+      "rewards/verify_math_reward/std": 0.4702001214027405,
+      "step": 1529
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2060.0,
+      "completions/mean_length": 814.7567138671875,
+      "completions/mean_terminated_length": 558.10107421875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 14.298542274052478,
+      "grad_norm": 0.14239616692066193,
+      "learning_rate": 1e-06,
+      "loss": -0.0463,
+      "num_tokens": 914426248.0,
+      "reward": 0.7812500596046448,
+      "reward_std": 0.10562442243099213,
+      "rewards/verify_math_reward/mean": 0.78125,
+      "rewards/verify_math_reward/std": 0.41362953186035156,
+      "step": 1530
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3947.0,
+      "completions/mean_length": 916.3092041015625,
+      "completions/mean_terminated_length": 604.5747680664062,
+      "completions/min_length": 160.0,
+      "completions/min_terminated_length": 160.0,
+      "epoch": 14.307871720116617,
+      "grad_norm": 0.17770318686962128,
+      "learning_rate": 1e-06,
+      "loss": -0.0491,
+      "num_tokens": 915007085.0,
+      "reward": 0.7187500596046448,
+      "reward_std": 0.14004097878932953,
+      "rewards/verify_math_reward/mean": 0.71875,
+      "rewards/verify_math_reward/std": 0.4498603343963623,
+      "step": 1531
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0803571428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2443.0,
+      "completions/mean_length": 903.86279296875,
+      "completions/mean_terminated_length": 624.9381103515625,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 14.317201166180759,
+      "grad_norm": 0.15887369215488434,
+      "learning_rate": 1e-06,
+      "loss": -0.0503,
+      "num_tokens": 915615378.0,
+      "reward": 0.7053571939468384,
+      "reward_std": 0.1247912049293518,
+      "rewards/verify_math_reward/mean": 0.7053571343421936,
+      "rewards/verify_math_reward/std": 0.45613667368888855,
+      "step": 1532
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0792410714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3424.0,
+      "completions/mean_length": 858.7053833007812,
+      "completions/mean_terminated_length": 580.101806640625,
+      "completions/min_length": 161.0,
+      "completions/min_terminated_length": 161.0,
+      "epoch": 14.326530612244898,
+      "grad_norm": 0.15962766110897064,
+      "learning_rate": 1e-06,
+      "loss": -0.052,
+      "num_tokens": 916174026.0,
+      "reward": 0.707589328289032,
+      "reward_std": 0.110549196600914,
+      "rewards/verify_math_reward/mean": 0.7075892686843872,
+      "rewards/verify_math_reward/std": 0.45512402057647705,
+      "step": 1533
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1227678571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3680.0,
+      "completions/mean_length": 1062.739990234375,
+      "completions/mean_terminated_length": 638.2379150390625,
+      "completions/min_length": 173.0,
+      "completions/min_terminated_length": 173.0,
+      "epoch": 14.335860058309038,
+      "grad_norm": 0.18271981179714203,
+      "learning_rate": 1e-06,
+      "loss": -0.0876,
+      "num_tokens": 916764025.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.15713942050933838,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342583656311,
+      "step": 1534
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3734.0,
+      "completions/mean_length": 1076.1942138671875,
+      "completions/mean_terminated_length": 627.0949096679688,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 14.345189504373177,
+      "grad_norm": 0.19564831256866455,
+      "learning_rate": 1e-06,
+      "loss": -0.0496,
+      "num_tokens": 917344279.0,
+      "reward": 0.660714328289032,
+      "reward_std": 0.15161803364753723,
+      "rewards/verify_math_reward/mean": 0.6607142686843872,
+      "rewards/verify_math_reward/std": 0.4737313687801361,
+      "step": 1535
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3894.0,
+      "completions/mean_length": 888.4732666015625,
+      "completions/mean_terminated_length": 603.9660034179688,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.354518950437317,
+      "grad_norm": 0.17494149506092072,
+      "learning_rate": 1e-06,
+      "loss": -0.0561,
+      "num_tokens": 917924279.0,
+      "reward": 0.7399553656578064,
+      "reward_std": 0.15706387162208557,
+      "rewards/verify_math_reward/mean": 0.7399553656578064,
+      "rewards/verify_math_reward/std": 0.43890365958213806,
+      "step": 1536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0814732142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2869.0,
+      "completions/mean_length": 925.4063110351562,
+      "completions/mean_terminated_length": 644.1749877929688,
+      "completions/min_length": 170.0,
+      "completions/min_terminated_length": 170.0,
+      "epoch": 14.363848396501458,
+      "grad_norm": 0.18259690701961517,
+      "learning_rate": 1e-06,
+      "loss": -0.0323,
+      "num_tokens": 918553667.0,
+      "reward": 0.6316964626312256,
+      "reward_std": 0.1428646296262741,
+      "rewards/verify_math_reward/mean": 0.6316964030265808,
+      "rewards/verify_math_reward/std": 0.4826137125492096,
+      "step": 1537
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0881696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3582.0,
+      "completions/mean_length": 924.8928833007812,
+      "completions/mean_terminated_length": 618.261962890625,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 14.373177842565598,
+      "grad_norm": 0.1602715402841568,
+      "learning_rate": 1e-06,
+      "loss": -0.055,
+      "num_tokens": 919139235.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.13508623838424683,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1538
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3708.0,
+      "completions/mean_length": 924.3326416015625,
+      "completions/mean_terminated_length": 613.3848266601562,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 14.382507288629737,
+      "grad_norm": 0.17896686494350433,
+      "learning_rate": 1e-06,
+      "loss": -0.0493,
+      "num_tokens": 919724333.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.14522719383239746,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331802010536194,
+      "step": 1539
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2709.0,
+      "completions/mean_length": 830.2935791015625,
+      "completions/mean_terminated_length": 523.2612915039062,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.391836734693877,
+      "grad_norm": 0.1672126203775406,
+      "learning_rate": 1e-06,
+      "loss": -0.0587,
+      "num_tokens": 920235484.0,
+      "reward": 0.7566964626312256,
+      "reward_std": 0.11637409776449203,
+      "rewards/verify_math_reward/mean": 0.7566964030265808,
+      "rewards/verify_math_reward/std": 0.42931652069091797,
+      "step": 1540
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2532.0,
+      "completions/mean_length": 965.9029541015625,
+      "completions/mean_terminated_length": 667.4340209960938,
+      "completions/min_length": 178.0,
+      "completions/min_terminated_length": 178.0,
+      "epoch": 14.401166180758018,
+      "grad_norm": 0.15895900130271912,
+      "learning_rate": 1e-06,
+      "loss": -0.0581,
+      "num_tokens": 920876397.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.15277989208698273,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1541
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0825892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3454.0,
+      "completions/mean_length": 918.87060546875,
+      "completions/mean_terminated_length": 632.8515625,
+      "completions/min_length": 128.0,
+      "completions/min_terminated_length": 128.0,
+      "epoch": 14.410495626822158,
+      "grad_norm": 0.16459904611110687,
+      "learning_rate": 1e-06,
+      "loss": -0.045,
+      "num_tokens": 921477281.0,
+      "reward": 0.7087053656578064,
+      "reward_std": 0.1353151649236679,
+      "rewards/verify_math_reward/mean": 0.7087053656578064,
+      "rewards/verify_math_reward/std": 0.45461276173591614,
+      "step": 1542
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3966.0,
+      "completions/mean_length": 880.33154296875,
+      "completions/mean_terminated_length": 628.8050537109375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.419825072886297,
+      "grad_norm": 0.18135885894298553,
+      "learning_rate": 1e-06,
+      "loss": -0.0407,
+      "num_tokens": 922081482.0,
+      "reward": 0.7265625596046448,
+      "reward_std": 0.11201275140047073,
+      "rewards/verify_math_reward/mean": 0.7265625,
+      "rewards/verify_math_reward/std": 0.4459724426269531,
+      "step": 1543
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2717.0,
+      "completions/mean_length": 1003.5569458007812,
+      "completions/mean_terminated_length": 606.2908935546875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 14.429154518950437,
+      "grad_norm": 0.18828460574150085,
+      "learning_rate": 1e-06,
+      "loss": -0.0547,
+      "num_tokens": 922665005.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1460929960012436,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1544
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3698.0,
+      "completions/mean_length": 1003.732177734375,
+      "completions/mean_terminated_length": 597.6767578125,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 14.438483965014576,
+      "grad_norm": 0.1579473912715912,
+      "learning_rate": 1e-06,
+      "loss": -0.0672,
+      "num_tokens": 923227429.0,
+      "reward": 0.676339328289032,
+      "reward_std": 0.1159176379442215,
+      "rewards/verify_math_reward/mean": 0.6763392686843872,
+      "rewards/verify_math_reward/std": 0.4681335985660553,
+      "step": 1545
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4036.0,
+      "completions/mean_length": 953.3582763671875,
+      "completions/mean_terminated_length": 641.0220947265625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.447813411078718,
+      "grad_norm": 0.18425829708576202,
+      "learning_rate": 1e-06,
+      "loss": -0.0258,
+      "num_tokens": 923832742.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.1443602740764618,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1546
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3102.0,
+      "completions/mean_length": 905.3460083007812,
+      "completions/mean_terminated_length": 592.5368041992188,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.457142857142857,
+      "grad_norm": 0.1750928908586502,
+      "learning_rate": 1e-06,
+      "loss": -0.0437,
+      "num_tokens": 924410324.0,
+      "reward": 0.6517857313156128,
+      "reward_std": 0.14286212623119354,
+      "rewards/verify_math_reward/mean": 0.6517857313156128,
+      "rewards/verify_math_reward/std": 0.47667041420936584,
+      "step": 1547
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1060267857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3778.0,
+      "completions/mean_length": 1000.3381958007812,
+      "completions/mean_terminated_length": 633.187255859375,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.466472303206997,
+      "grad_norm": 0.1698337346315384,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 925019963.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.12264407426118851,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1548
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3828.0,
+      "completions/mean_length": 913.950927734375,
+      "completions/mean_terminated_length": 614.7838745117188,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 14.475801749271136,
+      "grad_norm": 0.1929028183221817,
+      "learning_rate": 1e-06,
+      "loss": -0.0634,
+      "num_tokens": 925604751.0,
+      "reward": 0.7098214626312256,
+      "reward_std": 0.16585004329681396,
+      "rewards/verify_math_reward/mean": 0.7098214030265808,
+      "rewards/verify_math_reward/std": 0.454098105430603,
+      "step": 1549
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3513.0,
+      "completions/mean_length": 939.6797485351562,
+      "completions/mean_terminated_length": 591.5848999023438,
+      "completions/min_length": 155.0,
+      "completions/min_terminated_length": 155.0,
+      "epoch": 14.485131195335278,
+      "grad_norm": 0.1784702092409134,
+      "learning_rate": 1e-06,
+      "loss": -0.0532,
+      "num_tokens": 926181240.0,
+      "reward": 0.6785714626312256,
+      "reward_std": 0.1397392898797989,
+      "rewards/verify_math_reward/mean": 0.6785714030265808,
+      "rewards/verify_math_reward/std": 0.46728572249412537,
+      "step": 1550
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3929.0,
+      "completions/mean_length": 997.9241333007812,
+      "completions/mean_terminated_length": 591.1060791015625,
+      "completions/min_length": 167.0,
+      "completions/min_terminated_length": 167.0,
+      "epoch": 14.494460641399417,
+      "grad_norm": 0.18176329135894775,
+      "learning_rate": 1e-06,
+      "loss": -0.0498,
+      "num_tokens": 926734540.0,
+      "reward": 0.691964328289032,
+      "reward_std": 0.1472894698381424,
+      "rewards/verify_math_reward/mean": 0.6919642686843872,
+      "rewards/verify_math_reward/std": 0.4619392454624176,
+      "step": 1551
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3565.0,
+      "completions/mean_length": 1041.3248291015625,
+      "completions/mean_terminated_length": 622.6636962890625,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 14.503790087463557,
+      "grad_norm": 0.16912685334682465,
+      "learning_rate": 1e-06,
+      "loss": -0.0436,
+      "num_tokens": 927319215.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.11437922716140747,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1294642857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3266.0,
+      "completions/mean_length": 1041.8248291015625,
+      "completions/mean_terminated_length": 587.6141357421875,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.513119533527696,
+      "grad_norm": 0.15282073616981506,
+      "learning_rate": 1e-06,
+      "loss": -0.0698,
+      "num_tokens": 927866218.0,
+      "reward": 0.7243303656578064,
+      "reward_std": 0.11204735189676285,
+      "rewards/verify_math_reward/mean": 0.7243303656578064,
+      "rewards/verify_math_reward/std": 0.4471006691455841,
+      "step": 1553
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4087.0,
+      "completions/mean_length": 1037.977783203125,
+      "completions/mean_terminated_length": 618.8578491210938,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.522448979591836,
+      "grad_norm": 0.18081989884376526,
+      "learning_rate": 1e-06,
+      "loss": -0.1079,
+      "num_tokens": 928444342.0,
+      "reward": 0.6886160969734192,
+      "reward_std": 0.17641356587409973,
+      "rewards/verify_math_reward/mean": 0.6886160969734192,
+      "rewards/verify_math_reward/std": 0.46331799030303955,
+      "step": 1554
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2874.0,
+      "completions/mean_length": 944.5614013671875,
+      "completions/mean_terminated_length": 631.3508911132812,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 14.531778425655977,
+      "grad_norm": 0.12914735078811646,
+      "learning_rate": 1e-06,
+      "loss": -0.0338,
+      "num_tokens": 929057421.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.09551232308149338,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1555
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1183035714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2666.0,
+      "completions/mean_length": 1052.9051513671875,
+      "completions/mean_terminated_length": 644.5911254882812,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.541107871720117,
+      "grad_norm": 0.15479591488838196,
+      "learning_rate": 1e-06,
+      "loss": -0.0366,
+      "num_tokens": 929661992.0,
+      "reward": 0.6484375,
+      "reward_std": 0.1129884421825409,
+      "rewards/verify_math_reward/mean": 0.6484375,
+      "rewards/verify_math_reward/std": 0.4777248501777649,
+      "step": 1556
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0848214285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2691.0,
+      "completions/mean_length": 888.8516235351562,
+      "completions/mean_terminated_length": 591.6036376953125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 14.550437317784256,
+      "grad_norm": 0.1862279772758484,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 930233555.0,
+      "reward": 0.715401828289032,
+      "reward_std": 0.17844417691230774,
+      "rewards/verify_math_reward/mean": 0.7154017686843872,
+      "rewards/verify_math_reward/std": 0.4514748752117157,
+      "step": 1557
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1026785714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2884.0,
+      "completions/mean_length": 902.0379638671875,
+      "completions/mean_terminated_length": 536.5596923828125,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 14.559766763848396,
+      "grad_norm": 0.16136878728866577,
+      "learning_rate": 1e-06,
+      "loss": -0.0502,
+      "num_tokens": 930744357.0,
+      "reward": 0.7455357313156128,
+      "reward_std": 0.11783722788095474,
+      "rewards/verify_math_reward/mean": 0.7455357313156128,
+      "rewards/verify_math_reward/std": 0.4358029067516327,
+      "step": 1558
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0904017857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2471.0,
+      "completions/mean_length": 893.32373046875,
+      "completions/mean_terminated_length": 575.0208740234375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 14.569096209912537,
+      "grad_norm": 0.1651744842529297,
+      "learning_rate": 1e-06,
+      "loss": -0.0482,
+      "num_tokens": 931303359.0,
+      "reward": 0.7042410969734192,
+      "reward_std": 0.10832468420267105,
+      "rewards/verify_math_reward/mean": 0.7042410969734192,
+      "rewards/verify_math_reward/std": 0.45663803815841675,
+      "step": 1559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1450892857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2199.0,
+      "completions/mean_length": 1137.6942138671875,
+      "completions/mean_terminated_length": 635.6318359375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 14.578425655976677,
+      "grad_norm": 0.1699349582195282,
+      "learning_rate": 1e-06,
+      "loss": -0.0893,
+      "num_tokens": 931878421.0,
+      "reward": 0.668526828289032,
+      "reward_std": 0.1383524239063263,
+      "rewards/verify_math_reward/mean": 0.6685267686843872,
+      "rewards/verify_math_reward/std": 0.4710056483745575,
+      "step": 1560
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0993303571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2864.0,
+      "completions/mean_length": 910.4241333007812,
+      "completions/mean_terminated_length": 559.1028442382812,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 14.587755102040816,
+      "grad_norm": 0.14631903171539307,
+      "learning_rate": 1e-06,
+      "loss": -0.08,
+      "num_tokens": 932416937.0,
+      "reward": 0.7377232313156128,
+      "reward_std": 0.12249141931533813,
+      "rewards/verify_math_reward/mean": 0.7377232313156128,
+      "rewards/verify_math_reward/std": 0.4401180148124695,
+      "step": 1561
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2742.0,
+      "completions/mean_length": 929.83154296875,
+      "completions/mean_terminated_length": 585.001220703125,
+      "completions/min_length": 94.0,
+      "completions/min_terminated_length": 94.0,
+      "epoch": 14.597084548104956,
+      "grad_norm": 0.1636786311864853,
+      "learning_rate": 1e-06,
+      "loss": -0.0436,
+      "num_tokens": 932983594.0,
+      "reward": 0.7109375596046448,
+      "reward_std": 0.13192768394947052,
+      "rewards/verify_math_reward/mean": 0.7109375,
+      "rewards/verify_math_reward/std": 0.45358020067214966,
+      "step": 1562
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2659.0,
+      "completions/mean_length": 814.4219360351562,
+      "completions/mean_terminated_length": 595.6500244140625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 14.606413994169095,
+      "grad_norm": 0.16003815829753876,
+      "learning_rate": 1e-06,
+      "loss": -0.0406,
+      "num_tokens": 933569260.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.1385364830493927,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 1563
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3954.0,
+      "completions/mean_length": 935.6172485351562,
+      "completions/mean_terminated_length": 646.909912109375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 14.615743440233237,
+      "grad_norm": 0.1716504544019699,
+      "learning_rate": 1e-06,
+      "loss": -0.0145,
+      "num_tokens": 934189829.0,
+      "reward": 0.6863839626312256,
+      "reward_std": 0.1140076145529747,
+      "rewards/verify_math_reward/mean": 0.6863839030265808,
+      "rewards/verify_math_reward/std": 0.46422144770622253,
+      "step": 1564
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3102.0,
+      "completions/mean_length": 865.536865234375,
+      "completions/mean_terminated_length": 570.4275512695312,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 14.625072886297376,
+      "grad_norm": 0.17306075990200043,
+      "learning_rate": 1e-06,
+      "loss": -0.0432,
+      "num_tokens": 934746710.0,
+      "reward": 0.762276828289032,
+      "reward_std": 0.1145307719707489,
+      "rewards/verify_math_reward/mean": 0.7622767686843872,
+      "rewards/verify_math_reward/std": 0.42592647671699524,
+      "step": 1565
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3584.0,
+      "completions/mean_length": 925.8114013671875,
+      "completions/mean_terminated_length": 602.16357421875,
+      "completions/min_length": 175.0,
+      "completions/min_terminated_length": 175.0,
+      "epoch": 14.634402332361516,
+      "grad_norm": 0.15716712176799774,
+      "learning_rate": 1e-06,
+      "loss": -0.0183,
+      "num_tokens": 935321117.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.11750134825706482,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1566
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0725446428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2317.0,
+      "completions/mean_length": 798.2042846679688,
+      "completions/mean_terminated_length": 540.25390625,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 14.643731778425655,
+      "grad_norm": 0.18043197691440582,
+      "learning_rate": 1e-06,
+      "loss": -0.0121,
+      "num_tokens": 935866140.0,
+      "reward": 0.7511160969734192,
+      "reward_std": 0.11475831270217896,
+      "rewards/verify_math_reward/mean": 0.7511160969734192,
+      "rewards/verify_math_reward/std": 0.43260788917541504,
+      "step": 1567
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3016.0,
+      "completions/mean_length": 963.6607666015625,
+      "completions/mean_terminated_length": 635.3637084960938,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 14.653061224489797,
+      "grad_norm": 0.17410822212696075,
+      "learning_rate": 1e-06,
+      "loss": -0.076,
+      "num_tokens": 936464028.0,
+      "reward": 0.723214328289032,
+      "reward_std": 0.1356828510761261,
+      "rewards/verify_math_reward/mean": 0.7232142686843872,
+      "rewards/verify_math_reward/std": 0.44765952229499817,
+      "step": 1568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1272321428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3863.0,
+      "completions/mean_length": 1080.49560546875,
+      "completions/mean_terminated_length": 640.8951416015625,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 14.662390670553936,
+      "grad_norm": 0.20159533619880676,
+      "learning_rate": 1e-06,
+      "loss": -0.0985,
+      "num_tokens": 937066184.0,
+      "reward": 0.6551339626312256,
+      "reward_std": 0.14684370160102844,
+      "rewards/verify_math_reward/mean": 0.6551339030265808,
+      "rewards/verify_math_reward/std": 0.4755900800228119,
+      "step": 1569
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2792.0,
+      "completions/mean_length": 949.8013916015625,
+      "completions/mean_terminated_length": 628.6027221679688,
+      "completions/min_length": 146.0,
+      "completions/min_terminated_length": 146.0,
+      "epoch": 14.671720116618076,
+      "grad_norm": 0.14958810806274414,
+      "learning_rate": 1e-06,
+      "loss": -0.0319,
+      "num_tokens": 937664318.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.1137365996837616,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1570
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3328.0,
+      "completions/mean_length": 987.4542846679688,
+      "completions/mean_terminated_length": 610.0713500976562,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.681049562682215,
+      "grad_norm": 0.20107974112033844,
+      "learning_rate": 1e-06,
+      "loss": -0.0475,
+      "num_tokens": 938244053.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.13354460895061493,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.4581226110458374,
+      "step": 1571
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3802.0,
+      "completions/mean_length": 978.37060546875,
+      "completions/mean_terminated_length": 568.98486328125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.690379008746355,
+      "grad_norm": 0.14747817814350128,
+      "learning_rate": 1e-06,
+      "loss": -0.0673,
+      "num_tokens": 938792185.0,
+      "reward": 0.7064732313156128,
+      "reward_std": 0.11490915715694427,
+      "rewards/verify_math_reward/mean": 0.7064732313156128,
+      "rewards/verify_math_reward/std": 0.4556320011615753,
+      "step": 1572
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1283482142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4042.0,
+      "completions/mean_length": 1109.232177734375,
+      "completions/mean_terminated_length": 669.439208984375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 14.699708454810496,
+      "grad_norm": 0.2102978229522705,
+      "learning_rate": 1e-06,
+      "loss": -0.0525,
+      "num_tokens": 939406257.0,
+      "reward": 0.590401828289032,
+      "reward_std": 0.16176220774650574,
+      "rewards/verify_math_reward/mean": 0.5904017686843872,
+      "rewards/verify_math_reward/std": 0.49203425645828247,
+      "step": 1573
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0837053571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2735.0,
+      "completions/mean_length": 874.357177734375,
+      "completions/mean_terminated_length": 580.0536499023438,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 14.709037900874636,
+      "grad_norm": 0.14909407496452332,
+      "learning_rate": 1e-06,
+      "loss": -0.0576,
+      "num_tokens": 939970217.0,
+      "reward": 0.7533482313156128,
+      "reward_std": 0.11550647765398026,
+      "rewards/verify_math_reward/mean": 0.7533482313156128,
+      "rewards/verify_math_reward/std": 0.4313030242919922,
+      "step": 1574
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0926339285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2710.0,
+      "completions/mean_length": 914.7422485351562,
+      "completions/mean_terminated_length": 589.9642944335938,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 14.718367346938775,
+      "grad_norm": 0.18469861149787903,
+      "learning_rate": 1e-06,
+      "loss": -0.0589,
+      "num_tokens": 940531434.0,
+      "reward": 0.699776828289032,
+      "reward_std": 0.17528842389583588,
+      "rewards/verify_math_reward/mean": 0.6997767686843872,
+      "rewards/verify_math_reward/std": 0.4586109220981598,
+      "step": 1575
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2730.0,
+      "completions/mean_length": 960.1094360351562,
+      "completions/mean_terminated_length": 622.8751220703125,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 14.727696793002915,
+      "grad_norm": 0.1627260446548462,
+      "learning_rate": 1e-06,
+      "loss": -0.06,
+      "num_tokens": 941142028.0,
+      "reward": 0.6718750596046448,
+      "reward_std": 0.15450304746627808,
+      "rewards/verify_math_reward/mean": 0.671875,
+      "rewards/verify_math_reward/std": 0.46979284286499023,
+      "step": 1576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0970982142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3917.0,
+      "completions/mean_length": 917.2779541015625,
+      "completions/mean_terminated_length": 575.4375610351562,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 14.737026239067056,
+      "grad_norm": 0.18065008521080017,
+      "learning_rate": 1e-06,
+      "loss": -0.0486,
+      "num_tokens": 941706885.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.14774522185325623,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1577
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3381.0,
+      "completions/mean_length": 726.5313110351562,
+      "completions/mean_terminated_length": 560.8196411132812,
+      "completions/min_length": 159.0,
+      "completions/min_terminated_length": 159.0,
+      "epoch": 14.746355685131196,
+      "grad_norm": 0.2056432068347931,
+      "learning_rate": 1e-06,
+      "loss": -0.0211,
+      "num_tokens": 942266377.0,
+      "reward": 0.7723214626312256,
+      "reward_std": 0.15575115382671356,
+      "rewards/verify_math_reward/mean": 0.7723214030265808,
+      "rewards/verify_math_reward/std": 0.4195682406425476,
+      "step": 1578
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0680803571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2808.0,
+      "completions/mean_length": 820.7221069335938,
+      "completions/mean_terminated_length": 581.4503173828125,
+      "completions/min_length": 156.0,
+      "completions/min_terminated_length": 156.0,
+      "epoch": 14.755685131195335,
+      "grad_norm": 0.16682174801826477,
+      "learning_rate": 1e-06,
+      "loss": -0.0269,
+      "num_tokens": 942846976.0,
+      "reward": 0.7522321939468384,
+      "reward_std": 0.11701097339391708,
+      "rewards/verify_math_reward/mean": 0.7522321343421936,
+      "rewards/verify_math_reward/std": 0.4319573938846588,
+      "step": 1579
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0870535714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2814.0,
+      "completions/mean_length": 884.51904296875,
+      "completions/mean_terminated_length": 578.2897338867188,
+      "completions/min_length": 190.0,
+      "completions/min_terminated_length": 190.0,
+      "epoch": 14.765014577259475,
+      "grad_norm": 0.19107991456985474,
+      "learning_rate": 1e-06,
+      "loss": -0.0656,
+      "num_tokens": 943410809.0,
+      "reward": 0.7343750596046448,
+      "reward_std": 0.14368949830532074,
+      "rewards/verify_math_reward/mean": 0.734375,
+      "rewards/verify_math_reward/std": 0.44191211462020874,
+      "step": 1580
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1127232142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3842.0,
+      "completions/mean_length": 1076.5201416015625,
+      "completions/mean_terminated_length": 692.9132080078125,
+      "completions/min_length": 151.0,
+      "completions/min_terminated_length": 151.0,
+      "epoch": 14.774344023323614,
+      "grad_norm": 0.16536971926689148,
+      "learning_rate": 1e-06,
+      "loss": -0.0372,
+      "num_tokens": 944063211.0,
+      "reward": 0.6149553656578064,
+      "reward_std": 0.15631456673145294,
+      "rewards/verify_math_reward/mean": 0.6149553656578064,
+      "rewards/verify_math_reward/std": 0.4868776500225067,
+      "step": 1581
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1238839285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3346.0,
+      "completions/mean_length": 1020.96435546875,
+      "completions/mean_terminated_length": 586.1503295898438,
+      "completions/min_length": 154.0,
+      "completions/min_terminated_length": 154.0,
+      "epoch": 14.783673469387756,
+      "grad_norm": 0.1759994477033615,
+      "learning_rate": 1e-06,
+      "loss": -0.0412,
+      "num_tokens": 944615707.0,
+      "reward": 0.6383928656578064,
+      "reward_std": 0.13395646214485168,
+      "rewards/verify_math_reward/mean": 0.6383928656578064,
+      "rewards/verify_math_reward/std": 0.4807341694831848,
+      "step": 1582
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0758928571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2325.0,
+      "completions/mean_length": 819.0904541015625,
+      "completions/mean_terminated_length": 549.9722290039062,
+      "completions/min_length": 137.0,
+      "completions/min_terminated_length": 137.0,
+      "epoch": 14.793002915451895,
+      "grad_norm": 0.14643263816833496,
+      "learning_rate": 1e-06,
+      "loss": -0.0428,
+      "num_tokens": 945155924.0,
+      "reward": 0.7823660969734192,
+      "reward_std": 0.09307490289211273,
+      "rewards/verify_math_reward/mean": 0.7823660969734192,
+      "rewards/verify_math_reward/std": 0.41286760568618774,
+      "step": 1583
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2789.0,
+      "completions/mean_length": 979.1194458007812,
+      "completions/mean_terminated_length": 600.7246704101562,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.802332361516035,
+      "grad_norm": 0.16532468795776367,
+      "learning_rate": 1e-06,
+      "loss": -0.0345,
+      "num_tokens": 945721887.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.14079055190086365,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1194196428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2755.0,
+      "completions/mean_length": 1057.6685791015625,
+      "completions/mean_terminated_length": 645.6260986328125,
+      "completions/min_length": 148.0,
+      "completions/min_terminated_length": 148.0,
+      "epoch": 14.811661807580174,
+      "grad_norm": 0.1641041487455368,
+      "learning_rate": 1e-06,
+      "loss": -0.0584,
+      "num_tokens": 946327278.0,
+      "reward": 0.6819196939468384,
+      "reward_std": 0.12936870753765106,
+      "rewards/verify_math_reward/mean": 0.6819196343421936,
+      "rewards/verify_math_reward/std": 0.46599099040031433,
+      "step": 1585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1149553571428571,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3809.0,
+      "completions/mean_length": 1001.3203735351562,
+      "completions/mean_terminated_length": 599.3631591796875,
+      "completions/min_length": 164.0,
+      "completions/min_terminated_length": 164.0,
+      "epoch": 14.820991253644316,
+      "grad_norm": 0.18239086866378784,
+      "learning_rate": 1e-06,
+      "loss": -0.0599,
+      "num_tokens": 946895229.0,
+      "reward": 0.7131696939468384,
+      "reward_std": 0.11761124432086945,
+      "rewards/verify_math_reward/mean": 0.7131696343421936,
+      "rewards/verify_math_reward/std": 0.4525342881679535,
+      "step": 1586
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1116071428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2862.0,
+      "completions/mean_length": 1020.6038208007812,
+      "completions/mean_terminated_length": 634.2474975585938,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 14.830320699708455,
+      "grad_norm": 0.18540169298648834,
+      "learning_rate": 1e-06,
+      "loss": -0.0429,
+      "num_tokens": 947485266.0,
+      "reward": 0.6595982313156128,
+      "reward_std": 0.1345965713262558,
+      "rewards/verify_math_reward/mean": 0.6595982313156128,
+      "rewards/verify_math_reward/std": 0.4741089344024658,
+      "step": 1587
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0892857142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2403.0,
+      "completions/mean_length": 885.0614013671875,
+      "completions/mean_terminated_length": 570.2634887695312,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 14.839650145772595,
+      "grad_norm": 0.20089595019817352,
+      "learning_rate": 1e-06,
+      "loss": -0.0562,
+      "num_tokens": 948043145.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.1475936770439148,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1588
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1205357142857143,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3955.0,
+      "completions/mean_length": 1085.3382568359375,
+      "completions/mean_terminated_length": 672.7093505859375,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 14.848979591836734,
+      "grad_norm": 0.1703149527311325,
+      "learning_rate": 1e-06,
+      "loss": -0.0736,
+      "num_tokens": 948662048.0,
+      "reward": 0.6674107313156128,
+      "reward_std": 0.15221534669399261,
+      "rewards/verify_math_reward/mean": 0.6674107313156128,
+      "rewards/verify_math_reward/std": 0.47140392661094666,
+      "step": 1589
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1160714285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2960.0,
+      "completions/mean_length": 1021.3426513671875,
+      "completions/mean_terminated_length": 617.5997314453125,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 14.858309037900874,
+      "grad_norm": 0.17019563913345337,
+      "learning_rate": 1e-06,
+      "loss": -0.0259,
+      "num_tokens": 949243971.0,
+      "reward": 0.6729910969734192,
+      "reward_std": 0.10833607614040375,
+      "rewards/verify_math_reward/mean": 0.6729910969734192,
+      "rewards/verify_math_reward/std": 0.46938255429267883,
+      "step": 1590
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.109375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2421.0,
+      "completions/mean_length": 964.60498046875,
+      "completions/mean_terminated_length": 580.047607421875,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 14.867638483965015,
+      "grad_norm": 0.17162199318408966,
+      "learning_rate": 1e-06,
+      "loss": -0.0483,
+      "num_tokens": 949795065.0,
+      "reward": 0.7120535969734192,
+      "reward_std": 0.12140876054763794,
+      "rewards/verify_math_reward/mean": 0.7120535969734192,
+      "rewards/verify_math_reward/std": 0.4530588984489441,
+      "step": 1591
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0982142857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2732.0,
+      "completions/mean_length": 887.66748046875,
+      "completions/mean_terminated_length": 538.2450561523438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 14.876967930029155,
+      "grad_norm": 0.22743330895900726,
+      "learning_rate": 1e-06,
+      "loss": -0.0586,
+      "num_tokens": 950317799.0,
+      "reward": 0.7410714626312256,
+      "reward_std": 0.13835172355175018,
+      "rewards/verify_math_reward/mean": 0.7410714030265808,
+      "rewards/verify_math_reward/std": 0.43829092383384705,
+      "step": 1592
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1138392857142857,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3222.0,
+      "completions/mean_length": 1014.8839721679688,
+      "completions/mean_terminated_length": 619.072998046875,
+      "completions/min_length": 121.0,
+      "completions/min_terminated_length": 121.0,
+      "epoch": 14.886297376093294,
+      "grad_norm": 0.15725521743297577,
+      "learning_rate": 1e-06,
+      "loss": -0.0822,
+      "num_tokens": 950905575.0,
+      "reward": 0.7031250596046448,
+      "reward_std": 0.1409093141555786,
+      "rewards/verify_math_reward/mean": 0.703125,
+      "rewards/verify_math_reward/std": 0.4571361541748047,
+      "step": 1593
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1261160714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 4035.0,
+      "completions/mean_length": 1017.2109985351562,
+      "completions/mean_terminated_length": 572.89013671875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 14.895626822157434,
+      "grad_norm": 0.15078191459178925,
+      "learning_rate": 1e-06,
+      "loss": -0.0575,
+      "num_tokens": 951446428.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.09995036572217941,
+      "rewards/verify_math_reward/mean": 0.6428571343421936,
+      "rewards/verify_math_reward/std": 0.4794250428676605,
+      "step": 1594
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1082589285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3209.0,
+      "completions/mean_length": 972.05029296875,
+      "completions/mean_terminated_length": 592.7972412109375,
+      "completions/min_length": 185.0,
+      "completions/min_terminated_length": 185.0,
+      "epoch": 14.904956268221575,
+      "grad_norm": 0.160890594124794,
+      "learning_rate": 1e-06,
+      "loss": -0.0373,
+      "num_tokens": 952010705.0,
+      "reward": 0.6696428656578064,
+      "reward_std": 0.11163367331027985,
+      "rewards/verify_math_reward/mean": 0.6696428656578064,
+      "rewards/verify_math_reward/std": 0.47060438990592957,
+      "step": 1595
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0859375,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3710.0,
+      "completions/mean_length": 938.4029541015625,
+      "completions/mean_terminated_length": 641.5348510742188,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 14.914285714285715,
+      "grad_norm": 0.178226038813591,
+      "learning_rate": 1e-06,
+      "loss": -0.0593,
+      "num_tokens": 952621818.0,
+      "reward": 0.7008928656578064,
+      "reward_std": 0.1528201550245285,
+      "rewards/verify_math_reward/mean": 0.7008928656578064,
+      "rewards/verify_math_reward/std": 0.458122581243515,
+      "step": 1596
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0948660714285714,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3119.0,
+      "completions/mean_length": 895.9263916015625,
+      "completions/mean_terminated_length": 560.5302124023438,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 14.923615160349854,
+      "grad_norm": 0.1800370216369629,
+      "learning_rate": 1e-06,
+      "loss": -0.0674,
+      "num_tokens": 953158088.0,
+      "reward": 0.7488839626312256,
+      "reward_std": 0.1208428293466568,
+      "rewards/verify_math_reward/mean": 0.7488839030265808,
+      "rewards/verify_math_reward/std": 0.43389734625816345,
+      "step": 1597
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3897.0,
+      "completions/mean_length": 967.5960083007812,
+      "completions/mean_terminated_length": 618.2704467773438,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 14.932944606413994,
+      "grad_norm": 0.15556591749191284,
+      "learning_rate": 1e-06,
+      "loss": -0.0523,
+      "num_tokens": 953740398.0,
+      "reward": 0.7299107313156128,
+      "reward_std": 0.11644826829433441,
+      "rewards/verify_math_reward/mean": 0.7299107313156128,
+      "rewards/verify_math_reward/std": 0.44425368309020996,
+      "step": 1598
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1004464285714286,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 3027.0,
+      "completions/mean_length": 945.122802734375,
+      "completions/mean_terminated_length": 593.287841796875,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 14.942274052478133,
+      "grad_norm": 0.18332384526729584,
+      "learning_rate": 1e-06,
+      "loss": -0.0304,
+      "num_tokens": 954311060.0,
+      "reward": 0.6953125596046448,
+      "reward_std": 0.10983241349458694,
+      "rewards/verify_math_reward/mean": 0.6953125,
+      "rewards/verify_math_reward/std": 0.4605320394039154,
+      "step": 1599
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1506696428571429,
+      "completions/max_length": 4096.0,
+      "completions/max_terminated_length": 2373.0,
+      "completions/mean_length": 1155.8070068359375,
+      "completions/mean_terminated_length": 634.2220458984375,
+      "completions/min_length": 186.0,
+      "completions/min_terminated_length": 186.0,
+      "epoch": 14.951603498542275,
+      "grad_norm": 0.17527787387371063,
+      "learning_rate": 1e-06,
+      "loss": -0.0843,
+      "num_tokens": 954894103.0,
+      "reward": 0.6037946939468384,
+      "reward_std": 0.14135649800300598,
+      "rewards/verify_math_reward/mean": 0.6037946343421936,
+      "rewards/verify_math_reward/std": 0.48938122391700745,
+      "step": 1600
+    },
+    {
+      "epoch": 14.951603498542275,
+      "step": 1600,
+      "total_flos": 0.0,
+      "train_loss": -0.03323389737907974,
+      "train_runtime": 206541.0301,
+      "train_samples_per_second": 6.941,
+      "train_steps_per_second": 0.008
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1600,
+  "num_input_tokens_seen": 954894103,
+  "num_train_epochs": 15,
+  "save_steps": 80,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}